目錄:
創(chuàng)新互聯(lián)-專業(yè)網(wǎng)站定制、快速模板網(wǎng)站建設(shè)、高性價(jià)比杭錦網(wǎng)站開發(fā)、企業(yè)建站全套包干低至880元,成熟完善的模板庫(kù),直接使用。一站式杭錦網(wǎng)站制作公司更省心,省錢,快速模板網(wǎng)站建設(shè)找我們,業(yè)務(wù)覆蓋杭錦地區(qū)。費(fèi)用合理售后完善,十年實(shí)體公司更值得信賴。
1. PC網(wǎng)頁(yè)爬蟲
2. H5網(wǎng)頁(yè)爬蟲
3. 微信小程序爬蟲
4. 手機(jī)APP爬蟲
爬取樂刻運(yùn)動(dòng)手機(jī)APP的課表數(shù)據(jù)。Android和iOS都可以。
要制定具體方案,還是要從抓包分析開始。
如果你在前一章《三、微信小程序爬蟲》中已經(jīng)搭建好了Charles+iPhone的抓包環(huán)境,可以直接啟動(dòng)“樂刻APP”再來(lái)抓一波。
LefitAppium.py
LefitMitmAddon.py
接下來(lái)就是見證奇跡的時(shí)刻了!
可以看到左側(cè)的手機(jī)已經(jīng)自動(dòng)跑起來(lái)了!
所有流過(guò)的數(shù)據(jù)都盡在掌握!
這個(gè)方案的適應(yīng)能力非常強(qiáng),不怕各種反爬蟲機(jī)制。
但是如果要去爬取淘寶、攜程等海量數(shù)據(jù)時(shí),肯定也是力不從心。
搜索引擎爬蟲不能抓取app應(yīng)用中的內(nèi)容。
搜索引擎爬蟲只可以抓取pc或者一定網(wǎng)頁(yè)內(nèi)容。網(wǎng)絡(luò)爬蟲是一種自動(dòng)獲取網(wǎng)頁(yè)內(nèi)容的程序,是搜索引擎的重要組成部分。
Python爬蟲手機(jī)的步驟:
1. 下載fiddler抓包工具
2. 設(shè)置fiddler
這里有兩點(diǎn)需要說(shuō)明一下。
設(shè)置允許抓取HTTPS信息包
操作很簡(jiǎn)單,打開下載好的fiddler,找到 Tools - Options,然后再HTTPS的工具欄下勾選Decrpt HTTPS traffic,在新彈出的選項(xiàng)欄下勾選Ignore server certificate errors。
設(shè)置允許外部設(shè)備發(fā)送HTTP/HTTPS到fiddler
相同的,在Connections選項(xiàng)欄下勾選Allow remote computers to connect,并記住上面的端口號(hào)8888,后面會(huì)使用到。
好了,需要的fiddler設(shè)置就配置完成了。
3. 設(shè)置手機(jī)端
設(shè)置手機(jī)端之前,我們需要記住一點(diǎn):電腦和手機(jī)需要在同一個(gè)網(wǎng)絡(luò)下進(jìn)行操作。
可以使用wifi或者手機(jī)熱點(diǎn)等來(lái)完成。
假如你已經(jīng)讓電腦和手機(jī)處于同一個(gè)網(wǎng)絡(luò)下了,這時(shí)候我們需要知道此網(wǎng)絡(luò)的ip地址,可以在命令行輸入ipconfig簡(jiǎn)單的獲得,如圖。
好了,下面我們開始手機(jī)端的設(shè)置。
手機(jī)APP的抓取操作對(duì)于Android和Apple系統(tǒng)都可用,博主使用的蘋果系統(tǒng),在此以蘋果系統(tǒng)為例。
進(jìn)入到手機(jī)wifi的設(shè)置界面,選擇當(dāng)前連接網(wǎng)絡(luò)的更多信息,在蘋果中是一個(gè)嘆號(hào)。然后在最下面你會(huì)看到HTTP代理的選項(xiàng),點(diǎn)擊進(jìn)入。
進(jìn)入后,填寫上面記住的ip地址和端口號(hào),確定保存。
4. 下載fiddler安全證書
在手機(jī)上打開瀏覽器輸入一個(gè)上面ip地址和端口號(hào)組成的url:,然后點(diǎn)擊FiddlerRoot certificate下載fiddler證書。
以上就簡(jiǎn)單完成了所有的操作,最后我們測(cè)試一下是否好用。
5. 手機(jī)端測(cè)試
就以知乎APP為例,在手機(jī)上打開 知乎APP。下面是電腦上fiddler的抓包結(jié)果。
結(jié)果沒有問(wèn)題,抓到信息包。然后就可以使用我們分析網(wǎng)頁(yè)的方法來(lái)進(jìn)行后續(xù)的操作了。