這篇文章給大家分享的是有關(guān)python爬蟲(chóng)中pyspider怎么用的內(nèi)容。小編覺(jué)得挺實(shí)用的,因此分享給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧。
創(chuàng)新互聯(lián)是一家專注于成都網(wǎng)站設(shè)計(jì)、網(wǎng)站建設(shè)與策劃設(shè)計(jì),祥云網(wǎng)站建設(shè)哪家好?創(chuàng)新互聯(lián)做網(wǎng)站,專注于網(wǎng)站建設(shè)十多年,網(wǎng)設(shè)計(jì)領(lǐng)域的專業(yè)建站公司;建站業(yè)務(wù)涵蓋:祥云等地區(qū)。祥云做網(wǎng)站價(jià)格咨詢:13518219792pyspider是Binux做的一個(gè)爬蟲(chóng)架構(gòu)的開(kāi)源化實(shí)現(xiàn),主要功能有 :
抓取、更新調(diào)度多站點(diǎn)的特定的頁(yè)面
需要對(duì)頁(yè)面進(jìn)行結(jié)構(gòu)化信息提取
靈活可擴(kuò)展,穩(wěn)定可監(jiān)控
pyspider以去重調(diào)度,隊(duì)列抓取,異常處理,監(jiān)控等功能作為框架,只需提供給抓取腳本,并保證靈活性。最后加上web的編輯調(diào)試環(huán)境,以及web任務(wù)監(jiān)控,即成為了這套框架。pyspider的設(shè)計(jì)基礎(chǔ)是:以python腳本驅(qū)動(dòng)的抓取環(huán)模型爬蟲(chóng)
各個(gè)組件間使用消息隊(duì)列連接,除了scheduler是單點(diǎn)的,fetcher 和 processor 都是可以多實(shí)例分布式部署的。 scheduler 負(fù)責(zé)整體的調(diào)度控制
任務(wù)由 scheduler 發(fā)起調(diào)度,fetcher 抓取網(wǎng)頁(yè)內(nèi)容, processor 執(zhí)行預(yù)先編寫(xiě)的python腳本,輸出結(jié)果或產(chǎn)生新的提鏈任務(wù)(發(fā)往 scheduler),形成閉環(huán)
每個(gè)腳本可以靈活使用各種python庫(kù)對(duì)頁(yè)面進(jìn)行解析,使用框架API控制下一步抓取動(dòng)作,通過(guò)設(shè)置回調(diào)控制解析動(dòng)作。
感謝各位的閱讀!關(guān)于python爬蟲(chóng)中pyspider怎么用就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,讓大家可以學(xué)到更多知識(shí)。如果覺(jué)得文章不錯(cuò),可以把它分享出去讓更多的人看到吧!