真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

網(wǎng)絡(luò)爬蟲(chóng)以及Scrapy的介紹

網(wǎng)絡(luò)爬蟲(chóng)以及Scrapy的介紹?很多新手對(duì)此不是很清楚,為了幫助大家解決這個(gè)難題,下面小編將為大家詳細(xì)講解,有這方面需求的人可以來(lái)學(xué)習(xí)下,希望你能有所收獲。

創(chuàng)新互聯(lián)是一家專(zhuān)注于成都網(wǎng)站設(shè)計(jì)、網(wǎng)站建設(shè)與策劃設(shè)計(jì),柯坪網(wǎng)站建設(shè)哪家好?創(chuàng)新互聯(lián)做網(wǎng)站,專(zhuān)注于網(wǎng)站建設(shè)十年,網(wǎng)設(shè)計(jì)領(lǐng)域的專(zhuān)業(yè)建站公司;建站業(yè)務(wù)涵蓋:柯坪等地區(qū)??缕鹤鼍W(wǎng)站價(jià)格咨詢(xún):13518219792

網(wǎng)絡(luò)爬蟲(chóng)

是指程序可以自動(dòng)獲取多個(gè)頁(yè)面中的所有信息。如果使用某種技術(shù)(如正則表達(dá)式、XPath 等)來(lái)提取頁(yè)面中所有的鏈接( 元素),然后順著這些鏈接遞歸打開(kāi)對(duì)應(yīng)的頁(yè)面,最后提取頁(yè)面中的信息,這就是網(wǎng)絡(luò)爬蟲(chóng)。

我們來(lái)分析網(wǎng)絡(luò)爬蟲(chóng)具體要做哪些核心工作:

通過(guò)網(wǎng)絡(luò)向指定的 URL 發(fā)送請(qǐng)求,獲取服務(wù)器響應(yīng)內(nèi)容。

使用某種技術(shù)(如正則表達(dá)式、XPath 等)提取頁(yè)面中我們感興趣的信息。

高效地識(shí)別響應(yīng)頁(yè)面中的鏈接信息,順著這些鏈接遞歸執(zhí)行此處介紹的第 1、2、3 步;使用多線(xiàn)程有效地管理網(wǎng)絡(luò)通信交互。

如果直接使用 Python 內(nèi)置的 urllib 和 re 模塊是否能寫(xiě)出自己的網(wǎng)絡(luò)爬蟲(chóng)呢?答案是肯定的,只是比較復(fù)雜。就像我們要從廣州去韶關(guān),走路可以去嗎?答案是肯定的,只是比較麻煩。

下面繼續(xù)分析網(wǎng)絡(luò)爬蟲(chóng)的核心工作:

向 URL 發(fā)送請(qǐng)求,獲取服務(wù)器響應(yīng)內(nèi)容。這個(gè)核心工作其實(shí)是所有網(wǎng)絡(luò)爬蟲(chóng)都需要做的通用工作。一般來(lái)說(shuō),通用工作應(yīng)該由爬蟲(chóng)框架來(lái)實(shí)現(xiàn),這樣可以提供更穩(wěn)定的性能,開(kāi)發(fā)效率更高。

提取頁(yè)面中我們感興趣的信息。這個(gè)核心工作不是通用的!每個(gè)項(xiàng)目感興趣的信息都可能有所不同,但使用正則表達(dá)式提取信息是非常低效的,原因是正則表達(dá)式的設(shè)計(jì)初衷主要是處理文本信息,而 HTML 文檔不僅是文本文檔,而且是結(jié)構(gòu)化文檔,因此使用正則表達(dá)式來(lái)處理 HTML 文檔并不合適。使用 XPath 提取信息的效率要高得多。

識(shí)別響應(yīng)頁(yè)面中的鏈接信息。使用正則表達(dá)式可以實(shí)現(xiàn)這個(gè)核心工作,但是效率太低,使用 XPath 會(huì)更高效。

多線(xiàn)程管理:這個(gè)核心工作是通用的,應(yīng)該由框架來(lái)完成。

現(xiàn)在來(lái)回答上面提出的問(wèn)題,本章有存在的意義嗎?當(dāng)然有,本章并不介紹使用 urllib、re 模塊這種簡(jiǎn)陋的工具來(lái)實(shí)現(xiàn)正則表達(dá)式,而是通過(guò)專(zhuān)業(yè)的爬蟲(chóng)框架 Scrapy 來(lái)實(shí)現(xiàn)爬蟲(chóng)。

Scrapy 是一個(gè)專(zhuān)業(yè)的、高效的爬蟲(chóng)框架,它使用專(zhuān)業(yè)的 Twisted 包(基于事件驅(qū)動(dòng)的網(wǎng)絡(luò)引擎包)高效地處理網(wǎng)絡(luò)通信,使用 lxml(專(zhuān)業(yè)的 XML 處理包)、cssselect 高效地提取 HTML 頁(yè)面的有效信息,同時(shí)它也提供了有效的線(xiàn)程管理。

一言以蔽之,上面列出的網(wǎng)絡(luò)爬蟲(chóng)的核心工作,Scrapy 全部提供了實(shí)現(xiàn),開(kāi)發(fā)者只要使用 XPath 或 css 選擇器定義自己感興趣的信息即可。

看完上述內(nèi)容是否對(duì)您有幫助呢?如果還想對(duì)相關(guān)知識(shí)有進(jìn)一步的了解或閱讀更多相關(guān)文章,請(qǐng)關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝您對(duì)創(chuàng)新互聯(lián)的支持。


網(wǎng)頁(yè)標(biāo)題:網(wǎng)絡(luò)爬蟲(chóng)以及Scrapy的介紹
本文網(wǎng)址:http://weahome.cn/article/igidch.html

其他資訊

在線(xiàn)咨詢(xún)

微信咨詢(xún)

電話(huà)咨詢(xún)

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部