這篇文章主要介紹了python中Scrapy數(shù)據(jù)流是什么,具有一定借鑒價值,需要的朋友可以參考下。希望大家閱讀完這篇文章后大有收獲。下面讓小編帶著大家一起了解一下。
創(chuàng)新互聯(lián)長期為上千多家客戶提供的網(wǎng)站建設服務,團隊從業(yè)經(jīng)驗10年,關注不同地域、不同群體,并針對不同對象提供差異化的產(chǎn)品和服務;打造開放共贏平臺,與合作伙伴共同營造健康的互聯(lián)網(wǎng)生態(tài)環(huán)境。為銅陵企業(yè)提供專業(yè)的網(wǎng)站設計、成都網(wǎng)站制作,銅陵網(wǎng)站改版等技術服務。擁有十年豐富建站經(jīng)驗和眾多成功案例,為您定制開發(fā)。
什么是異步:
工作涉及一次執(zhí)行多個IO操作。
什么是多線程:
多線程:允許單個任務分成不同的部分運行
相互之間是有一定的相似之處的,那我們接下來解說下 scrapy框架,然后大家自己來抉擇下哈~
Scrapy框架是通過命令行來創(chuàng)建項目的,代碼的編寫還是需要IDE。項目創(chuàng)建之后,項目文件結(jié)構(gòu)如下所示:
scrapy.cfg project/ __init__.py items.py pipelines.py settings.py middlewares.py spiders/ __init__.py spider1.py spider2.py ...復制代碼
Scrapy數(shù)據(jù)流是由執(zhí)行的核心引擎控制,流程是這樣的:
1、爬蟲引擎獲得初始請求開始抓取。
2、爬蟲引擎開始請求調(diào)度程序SCHEDULER,并準備對下一次的請求進行抓取。
3、爬蟲調(diào)度器返回下一個請求給爬蟲引擎。
4、引擎請求發(fā)送到下載器DOWNLOADER,通過下載中間件下載網(wǎng)絡數(shù)據(jù)。
5、一旦下載器完成頁面下載,將下載結(jié)果返回給爬蟲引擎。
感謝你能夠認真閱讀完這篇文章,希望小編分享python中Scrapy數(shù)據(jù)流是什么內(nèi)容對大家有幫助,同時也希望大家多多支持創(chuàng)新互聯(lián),關注創(chuàng)新互聯(lián)行業(yè)資訊頻道,遇到問題就找創(chuàng)新互聯(lián),詳細的解決方法等著你來學習!