如何進(jìn)行Scrapy框架知識(shí)的分析

這篇文章給大家介紹如何進(jìn)行Scrapy框架知識(shí)的分析，內(nèi)容非常詳細(xì)，感興趣的小伙伴們可以參考借鑒，希望對(duì)大家能有所幫助。

10年積累的網(wǎng)站設(shè)計(jì)制作、成都網(wǎng)站設(shè)計(jì)經(jīng)驗(yàn)，可以快速應(yīng)對(duì)客戶對(duì)網(wǎng)站的新想法和需求。提供各種問(wèn)題對(duì)應(yīng)的解決方案。讓選擇我們的客戶得到更好、更有力的網(wǎng)絡(luò)服務(wù)。我雖然不認(rèn)識(shí)你，你也不認(rèn)識(shí)我。但先網(wǎng)站策劃后付款的網(wǎng)站建設(shè)流程，更有天水免費(fèi)網(wǎng)站建設(shè)讓你可以放心的選擇與我們合作。

今天就寫一下，我自己學(xué)到的關(guān)于框架的知識(shí)。

Spiders(爬蟲):它負(fù)責(zé)處理所有Responses,從中分析提取數(shù)據(jù)，獲取Item字段需要的數(shù)據(jù)，并將需要跟進(jìn)的URL提交給引擎，再次進(jìn)入Scheduler(調(diào)度器)
Engine(引擎)：負(fù)責(zé)Spider、ItemPipeline、Downloader、Scheduler中間的通訊，信號(hào)、數(shù)據(jù)傳遞等。
Scheduler(調(diào)度器)：它負(fù)責(zé)接受引擎發(fā)送過(guò)來(lái)的Request請(qǐng)求，并按照一定的方式進(jìn)行整理排列，入隊(duì)，當(dāng)引擎需要時(shí)，交還給引擎。
Downloader(下載器)：負(fù)責(zé)下載Scrapy Engine(引擎)發(fā)送的所有Requests請(qǐng)求，并將其獲取到的Responses交還給Scrapy Engine(引擎)，由引擎交給Spider來(lái)處理
ItemPipeline(管道):它負(fù)責(zé)處理Spider中獲取到的Item，并進(jìn)行進(jìn)行后期處理（詳細(xì)分析、過(guò)濾、存儲(chǔ)等）的地方.
Downloader Middlewares（下載中間件）：你可以當(dāng)作是一個(gè)可以自定義擴(kuò)展下載功能的組件。
Spider Middlewares（Spider中間件）：你可以理解為是一個(gè)可以自定擴(kuò)展和操作引擎和Spider中間
通信的功能組件（比如進(jìn)入Spider的Responses;和從Spider出去的Requests）

Scrapy 使用了 Twisted['tw?st?d](其主要對(duì)手是Tornado)異步網(wǎng)絡(luò)框架來(lái)處理網(wǎng)絡(luò)通訊，可以加快我們的下載速度，不用自己去實(shí)現(xiàn)異步框架，并且包含了各種中間件接口，可以靈活的完成各種需求。

如何進(jìn)行Scrapy框架知識(shí)的分析

scrapy的工作流程，我自己畫的圖：

如何進(jìn)行Scrapy框架知識(shí)的分析

1.首先Spiders（爬蟲）將需要發(fā)送請(qǐng)求的url(requests)經(jīng)ScrapyEngine（引擎）交給Scheduler（調(diào)度器）。

2.Scheduler（排序，入隊(duì)）處理后，經(jīng)ScrapyEngine，DownloaderMiddlewares(可選，主要有User_Agent, Proxy代理)交給Downloader。

3.Downloader向互聯(lián)網(wǎng)發(fā)送請(qǐng)求，并接收下載響應(yīng)（response）。將響應(yīng)（response）經(jīng)ScrapyEngine，SpiderMiddlewares(可選)交給Spiders。

4.Spiders處理response，提取數(shù)據(jù)并將數(shù)據(jù)經(jīng)ScrapyEngine交給ItemPipeline保存（可以是本地，可以是數(shù)據(jù)庫(kù)）。

5. 提取url重新經(jīng)ScrapyEngine交給Scheduler進(jìn)行下一個(gè)循環(huán)。直到無(wú)Url請(qǐng)求程序停止結(jié)束。

如何進(jìn)行Scrapy框架知識(shí)的分析

這就是基本的原理了，

URL ---> 會(huì)包裝成requests ---> 引擎 ---> 調(diào)度器 --->將這個(gè)requests排序，入隊(duì)列操作后 ---> 引擎 ---> 下載器 ---> 請(qǐng)求網(wǎng)頁(yè)獲取response---> 爬蟲spiders(解析響應(yīng)的數(shù)據(jù)) ---> 管道（保存數(shù)據(jù)）

---> 新的URL新的requests(繼續(xù)循環(huán)，直到?jīng)]有URL)

關(guān)于如何進(jìn)行Scrapy框架知識(shí)的分析就分享到這里了，希望以上內(nèi)容可以對(duì)大家有一定的幫助，可以學(xué)到更多知識(shí)。如果覺(jué)得文章不錯(cuò)，可以把它分享出去讓更多的人看到。

文章標(biāo)題：如何進(jìn)行Scrapy框架知識(shí)的分析
文章源于：http://weahome.cn/article/pcsssc.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

如何進(jìn)行Scrapy框架知識(shí)的分析

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管