目標網址為:https://appgallery.huawei.com/#/Apps
站在用戶的角度思考問題,與客戶深入溝通,找到普蘭店網站設計與普蘭店網站推廣的解決方案,憑借多年的經驗,讓設計與互聯網技術結合,創(chuàng)造個性化、用戶體驗好的作品,建站類型包括:成都網站建設、成都網站設計、企業(yè)官網、英文網站、手機端網站、網站推廣、域名與空間、雅安服務器托管、企業(yè)郵箱。業(yè)務覆蓋普蘭店地區(qū)。
抓取目標為:app名稱 包名 和開發(fā)公司名
F12檢查發(fā)現為動態(tài)加載
檢查完發(fā)現為動態(tài)加載get請求 設置params循環(huán)獲取全部數據 代碼如下:
url = 'https://web-drcn.hispace.dbankcloud.cn/uowap/index'
headers = {
'你的': 'ua',
'你的': '防盜鏈'
}
for c in range(1,17):
param = {
'method': 'internal.getTabDetail',
'serviceType': 20,
'reqPageNum': {c},
'uri': f'squ6kqw',
'maxResults': 25,
'zone': '',
'locale': 'zh'
}
所有數據都拿到 接下來就是提取過程
此時我們發(fā)現此時的數據中并沒有開發(fā)公司的名稱 需要點擊app跳轉后在動態(tài)加載中才找到,所以我們需要繼續(xù)分析跳轉頁面
數據已經找到 對url進行分析后發(fā)現在掛載內容里只多了個appid 而appid在上一個頁面中可以提取到,所以我們只需要進行拼接url即可
代碼如下:
url1 = 'https://web-drcn.hispace.dbankcloud.cn/uowap/index'
headers1 = {
'你的': 'ua',
'你的': '防盜鏈'
}
param1 = {
'method': 'internal.getTabDetail',
'serviceType': 20,
'reqPageNum': 1,
'maxResults': 25,
'uri': f'app|{appid}',
'shareTo': '',
'currentUrl': f'https%3A%2F%2Fappgallery.huawei.com%2F%23%2Fapp%2F{appid}',
'accessId': '',
'appid': f'{appid}',
'zone': '',
'locale': 'zh'
}
此時完整一頁的數據已經可以獲取到但是其他分類并沒有獲取到
點擊后我們發(fā)現只有掛載中的uri不同 而uri再上一頁也能獲取到 那這就好辦了 繼續(xù)構造url然后請求即可
我用了一個笨方法 逐一點擊手動建個列表 將所有的url保存 然后進行循環(huán)
uid = [
'33ef450cbaca477cfa78db4cf8c','8e62cf6d238c4abdb892b400ff072f43','79bd417da03dc0c7c2ef8f2c96','de6a7524d4afbc9bbe8b',
'add14dda8b7ee8a20be03aad','07ea01ced5630aa460d48','c946b166e7c34dcab8a8960bf6979dd3','bc4143d0aaff0ef32',
'cea64f5db8a90bca7bcf68fd','e3bebc44eea038eabfc70','4d5e752fde6c4bae','a4a9585f4f4c05dc1e',
'2d2b18fb9db71d1ec30b257f1e','7e0ca4bbaa836fa8c0ba','aa8942b797d3d5ddf6bb1b48','d6566cab36cc6a12fa1e2cd',
'1f316fc0f169e7aed05c4','5e4425e03ae44a87a5293dc2d9ebcfde','3ae307aff6cf3f9c242f18fd85','3e28ce473c9f4990d78d',
'ee252e5eb17d5bbee7ab08a5','bc8c9344cd2bef8fc9aee'
]
保存的數據 這里只提取了三個 需要的話課追加 只需要在提取代碼處增加即可
最后為整體的代碼實現:
import requests
import time
import csv
uid = [
'33ef450cbaca477cfa78db4cf8c','8e62cf6d238c4abdb892b400ff072f43','79bd417da03dc0c7c2ef8f2c96','de6a7524d4afbc9bbe8b',
'add14dda8b7ee8a20be03aad','07ea01ced5630aa460d48','c946b166e7c34dcab8a8960bf6979dd3','bc4143d0aaff0ef32',
'cea64f5db8a90bca7bcf68fd','e3bebc44eea038eabfc70','4d5e752fde6c4bae','a4a9585f4f4c05dc1e',
'2d2b18fb9db71d1ec30b257f1e','7e0ca4bbaa836fa8c0ba','aa8942b797d3d5ddf6bb1b48','d6566cab36cc6a12fa1e2cd',
'1f316fc0f169e7aed05c4','5e4425e03ae44a87a5293dc2d9ebcfde','3ae307aff6cf3f9c242f18fd85','3e28ce473c9f4990d78d',
'ee252e5eb17d5bbee7ab08a5','bc8c9344cd2bef8fc9aee'
]
with open('華為應用市場.csv', 'a', encoding='utf-8', newline='') as f:
csv_writer = csv.writer(f)
csv_writer.writerow(['app名稱', '應用包名', '開發(fā)名稱'])
for d in uid:
url = 'https://web-drcn.hispace.dbankcloud.cn/uowap/index'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36',
'Referer': 'https://appgallery.huawei.com/'
}
for c in range(1,16):
param = {
'method': 'internal.getTabDetail',
'serviceType': 20,
'reqPageNum': {c},
'uri': f'squ6kqw',
'maxResults': 25,
'zone': '',
'locale': 'zh'
}
re = requests.get(url=url,headers=headers,params=param).json()
tiqu = re['layoutData']
for a in tiqu:
bms = a['dataList'][0:]
for bm in bms:
baoming = bm['package']
appid = bm['appid']
name = bm['name']
id = bm['logSource']
# print(baoming)
url1 = 'https://web-drcn.hispace.dbankcloud.cn/uowap/index'
headers1 = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.66 Safari/537.36 Edg/103.0.1264.44',
'Referer': 'https://appgallery.huawei.com/'
}
param1 = {
'method': 'internal.getTabDetail',
'serviceType': 20,
'reqPageNum': 1,
'maxResults': 25,
'uri': f'app|{appid}',
'shareTo': '',
'currentUrl': f'https%3A%2F%2Fappgallery.huawei.com%2F%23%2Fapp%2F{appid}',
'accessId': '',
'appid': f'{appid}',
'zone': '',
'locale': 'zh'
}
re1 = requests.get(url=url1, headers=headers1, params=param1).json()
# print(re1)
# dataList > developer
tiqu = re1['layoutData'][3]
tiqu1 = tiqu['dataList'][0]
kaifa = tiqu1['developer']
# print(kaifa)
with open('華為應用市場.csv', 'a', encoding='utf-8', newline='') as f:
csv_writer = csv.writer(f)
csv_writer.writerow([name,baoming,kaifa])
print(name+'保存完成')
time.sleep(2)