這篇文章將為大家詳細(xì)講解有關(guān)Python中的爬蟲(chóng),文章內(nèi)容質(zhì)量較高,因此小編分享給大家做個(gè)參考,希望大家閱讀完這篇文章后對(duì)相關(guān)知識(shí)有一定的了解。
10年積累的成都做網(wǎng)站、網(wǎng)站設(shè)計(jì)經(jīng)驗(yàn),可以快速應(yīng)對(duì)客戶對(duì)網(wǎng)站的新想法和需求。提供各種問(wèn)題對(duì)應(yīng)的解決方案。讓選擇我們的客戶得到更好、更有力的網(wǎng)絡(luò)服務(wù)。我雖然不認(rèn)識(shí)你,你也不認(rèn)識(shí)我。但先網(wǎng)站策劃后付款的網(wǎng)站建設(shè)流程,更有曲麻萊免費(fèi)網(wǎng)站建設(shè)讓你可以放心的選擇與我們合作。
爬蟲(chóng)就是一段自動(dòng)抓取互聯(lián)網(wǎng)信息的程序,從互聯(lián)網(wǎng)上抓取對(duì)于我們有價(jià)值的信息。
Python爬蟲(chóng)是用Python編程語(yǔ)言實(shí)現(xiàn)的網(wǎng)絡(luò)爬蟲(chóng),主要用于網(wǎng)絡(luò)數(shù)據(jù)的抓取和處理,相比于其他語(yǔ)言,Python是一門(mén)非常適合開(kāi)發(fā)網(wǎng)絡(luò)爬蟲(chóng)的編程語(yǔ)言,大量?jī)?nèi)置包,可以輕松實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲(chóng)功能。
Python爬蟲(chóng)可以做的事情很多,如搜索引擎、采集數(shù)據(jù)、廣告過(guò)濾等,Python爬蟲(chóng)還可以用于數(shù)據(jù)分析,在數(shù)據(jù)的抓取方面可以作用巨大!
Python爬蟲(chóng)架構(gòu)組成
Python 爬蟲(chóng)架構(gòu)主要由五個(gè)部分組成,分別是調(diào)度器、URL管理器、網(wǎng)頁(yè)下載器、網(wǎng)頁(yè)解析器、應(yīng)用程序(爬取的有價(jià)值數(shù)據(jù))。
調(diào)度器:相當(dāng)于一臺(tái)電腦的CPU,主要負(fù)責(zé)調(diào)度URL管理器、下載器、解析器之間的協(xié)調(diào)工作。
URL管理器:包括待爬取的URL地址和已爬取的URL地址,防止重復(fù)抓取URL和循環(huán)抓取URL,實(shí)現(xiàn)URL管理器主要用三種方式,通過(guò)內(nèi)存、數(shù)據(jù)庫(kù)、緩存數(shù)據(jù)庫(kù)來(lái)實(shí)現(xiàn)。
網(wǎng)頁(yè)下載器:通過(guò)傳入一個(gè)URL地址來(lái)下載網(wǎng)頁(yè),將網(wǎng)頁(yè)轉(zhuǎn)換成一個(gè)字符串,網(wǎng)頁(yè)下載器有urllib2(Python官方基礎(chǔ)模塊)包括需要登錄、代理、和cookie,requests(第三方包)
網(wǎng)頁(yè)解析器:將一個(gè)網(wǎng)頁(yè)字符串進(jìn)行解析,可以按照我們的要求來(lái)提取出我們有用的信息,也可以根據(jù)DOM樹(shù)的解析方式來(lái)解析。網(wǎng)頁(yè)解析器有正則表達(dá)式(直觀,將網(wǎng)頁(yè)轉(zhuǎn)成字符串通過(guò)模糊匹配的方式來(lái)提取有價(jià)值的信息,當(dāng)文檔比較復(fù)雜的時(shí)候,該方法提取數(shù)據(jù)的時(shí)候就會(huì)非常的困難)、html.parser(Python自帶的)、beautifulsoup(第三方插件,可以使用Python自帶的html.parser進(jìn)行解析,也可以使用lxml進(jìn)行解析,相對(duì)于其他幾種來(lái)說(shuō)要強(qiáng)大一些)、lxml(第三方插件,可以解析 xml 和 HTML),html.parser 和 beautifulsoup 以及 lxml 都是以 DOM 樹(shù)的方式進(jìn)行解析的。
應(yīng)用程序:就是從網(wǎng)頁(yè)中提取的有用數(shù)據(jù)組成的一個(gè)應(yīng)用。
Python爬蟲(chóng)工作原理
Python爬蟲(chóng)通過(guò)URL管理器,判斷是否有待爬URL,如果有待爬URL,通過(guò)調(diào)度器進(jìn)行傳遞給下載器,下載URL內(nèi)容,并通過(guò)調(diào)度器傳送給解析器,解析URL內(nèi)容,并將價(jià)值數(shù)據(jù)和新URL列表通過(guò)調(diào)度器傳遞給應(yīng)用程序,并輸出價(jià)值信息的過(guò)程。
Python爬蟲(chóng)常用框架有:
grab:網(wǎng)絡(luò)爬蟲(chóng)框架(基于pycurl/multicur);
scrapy:網(wǎng)絡(luò)爬蟲(chóng)框架(基于twisted),不支持Python3;
pyspider:一個(gè)強(qiáng)大的爬蟲(chóng)系統(tǒng);
cola:一個(gè)分布式爬蟲(chóng)框架;
portia:基于Scrapy的可視化爬蟲(chóng);
restkit:Python的HTTP資源工具包。它可以讓你輕松地訪問(wèn)HTTP資源,并圍繞它建立的對(duì)象;
demiurge:基于PyQuery的爬蟲(chóng)微框架。
Python爬蟲(chóng)應(yīng)用領(lǐng)域廣泛,在網(wǎng)絡(luò)爬蟲(chóng)領(lǐng)域處于霸主位置,Scrapy、Request、BeautifuSoap、urlib等框架的應(yīng)用,可以實(shí)現(xiàn)爬行自如的功能,只要您數(shù)據(jù)抓取想法,Python爬蟲(chóng)均可實(shí)現(xiàn)!
關(guān)于Python爬蟲(chóng)詳細(xì)介紹就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,可以學(xué)到更多知識(shí)。如果覺(jué)得文章不錯(cuò),可以把它分享出去讓更多的人看到。