爬蟲(chóng)的基本原理就是模擬客戶端(可以是瀏覽器,也有可能是APP)向遠(yuǎn)程服務(wù)器發(fā)送 HTTP 請(qǐng)求,我們需要知道目標(biāo)服務(wù)器的 HOST、URI、請(qǐng)求方法、請(qǐng)求參數(shù)、請(qǐng)求頭、請(qǐng)求體。Web 網(wǎng)站通過(guò) Chrome 瀏覽器可以找到這些信息。但是對(duì)于 APP 爬蟲(chóng),就顯得有些束手無(wú)策。這時(shí)候必須借用一些抓包工具來(lái)輔助我們分析APP背后的秘密。
創(chuàng)新互聯(lián)建站于2013年創(chuàng)立,先為寧晉等服務(wù)建站,寧晉等地企業(yè),進(jìn)行企業(yè)商務(wù)咨詢服務(wù)。為寧晉企業(yè)網(wǎng)站制作PC+手機(jī)+微官網(wǎng)三網(wǎng)同步一站式服務(wù)解決您的所有建站問(wèn)題。
今天推薦4個(gè)HTTP代理工具通過(guò)抓包分析,幫助你還原APP背后的每個(gè)請(qǐng)求。
Fiddler
Fiddler 是 Windows 平臺(tái)最好用的可視化抓包工具,也是大家最熟知的 HTTP 代理工具,功能非常強(qiáng)大,除了可以清晰的了解每個(gè)請(qǐng)求與響應(yīng)之外,還可以進(jìn)行斷點(diǎn)設(shè)置,修改請(qǐng)求數(shù)據(jù)、攔截響應(yīng)內(nèi)容。
此外,還可以自定義規(guī)則,通過(guò)修改腳本,加入自己的特殊處理,不過(guò)因?yàn)樗?C# 編寫的,如果你要寫復(fù)雜的腳本,需要懂C#。
過(guò)濾器功能使得你可以通過(guò)正則表達(dá)式規(guī)則將你關(guān)心的請(qǐng)求顯示出來(lái),如果你只需要抓特定網(wǎng)站的數(shù)據(jù),這個(gè)功能就顯得非常有用,可以去除很多干擾信息。
Charles
Charles 是 macOS 平臺(tái)下最好用的抓包分析工具之一,同樣提供GUI界面,界面簡(jiǎn)潔,基本功能包括HTTP、HTTPS請(qǐng)求抓包,支持請(qǐng)求參數(shù)的修改,最新的 Charles 4 還支持 HTTP/2。當(dāng)然,也同時(shí)支持Windows 和 Linux, 不過(guò)這款工具是要收費(fèi)的,免費(fèi)試用 30 天,試用期過(guò)后功能受限。
AnyProxy
AnyProxy 是 阿里巴巴開(kāi)源的 HTTP 抓包工具,基于 NodeJS 實(shí)現(xiàn),優(yōu)點(diǎn)是支持二次開(kāi)發(fā),可自定義請(qǐng)求處理邏輯,如果你會(huì)寫JS的話,同時(shí)需要做一些自定義的處理,那么AnyProxy 是非常適合的。支持 HTTPS,提供了GUI界面。 GitHub地址:https://github.com/alibaba/anyproxy
mitmproxy
mitmproxy 是一款基于 Python,支持 SSL 的抓包工具,用 Python 寫爬蟲(chóng)的一定會(huì)很喜歡,因?yàn)樗粌H是跨平臺(tái)的,而且提供的是命令行交互模式,很有極(zhuang)客(bi)感。mitmproxy 包含 3 款工具:
mitmproxy: 帶交互的終端界面
mitmdump: mitmproxy 的命令行版本,類似于 tcpdump
libmproxy: 用于 mitmproxy/mitmdump 的庫(kù)
GitHub 地址:https://github.com/mitmproxy/mitmproxy