真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

python分布式爬蟲中使用消息隊(duì)列的示例

這篇文章給大家分享的是有關(guān)python分布式爬蟲中使用消息隊(duì)列的示例的內(nèi)容。小編覺得挺實(shí)用的,因此分享給大家做個(gè)參考。一起跟隨小編過來看看吧。

創(chuàng)新互聯(lián)公司是一家專注于成都做網(wǎng)站、成都網(wǎng)站建設(shè)、成都外貿(mào)網(wǎng)站建設(shè)與策劃設(shè)計(jì),運(yùn)河網(wǎng)站建設(shè)哪家好?創(chuàng)新互聯(lián)公司做網(wǎng)站,專注于網(wǎng)站建設(shè)十多年,網(wǎng)設(shè)計(jì)領(lǐng)域的專業(yè)建站公司;建站業(yè)務(wù)涵蓋:運(yùn)河等地區(qū)。運(yùn)河做網(wǎng)站價(jià)格咨詢:028-86922220

實(shí)現(xiàn)分布式爬取的關(guān)鍵是消息隊(duì)列,這個(gè)問題以消費(fèi)端為視角更容易理解。你的爬蟲程序部署到很多臺(tái)機(jī)器上,那么他們怎么知道自己要爬什么呢?總要有一個(gè)地方存儲(chǔ)了他們需要爬取的url吧,這樣他們才能工作。

假設(shè)有1萬個(gè)url需要爬取,而你有100個(gè)爬蟲程序部署在10臺(tái)機(jī)器上,每臺(tái)10個(gè)爬蟲程序在運(yùn)行,一個(gè)url被分給爬蟲程序后,其他爬蟲不能再獲得這個(gè)url,不然,就重復(fù)爬取了,理解吧,分布式爬蟲的關(guān)鍵是怎么把任務(wù)分給這些爬蟲。

有些促銷活動(dòng)的現(xiàn)場會(huì)進(jìn)行抽獎(jiǎng)活動(dòng),工作人員捧著一個(gè)透明的箱子,參與活動(dòng)的人從箱子的小口處把手伸進(jìn)去隨機(jī)拿出一張折疊的紙條,這種模式與消息隊(duì)列十分相似。消息隊(duì)列就好比這個(gè)抽獎(jiǎng)的箱子,消費(fèi)端的爬蟲程序就好比參與活動(dòng)的顧客,爬蟲從消息隊(duì)列里拿出一個(gè)url任務(wù),然后進(jìn)行爬取,不同于抽獎(jiǎng)活動(dòng)時(shí)一個(gè)人只能拿一次,分布式爬蟲允許爬蟲在結(jié)束一個(gè)爬蟲任務(wù)后繼續(xù)從消息隊(duì)列里獲取任務(wù)。

使用redis的隊(duì)列做消息隊(duì)列

如果你只是簡單的寫一個(gè)分布式爬蟲,那么使用redis的隊(duì)列就可以了,它完全可以作為消息隊(duì)列來使用,下面的代碼是生產(chǎn)端的代碼示例

import redis
 
 
r = redis.Redis(host='127.0.0.1', port=6379,
                password='yourpassword', db=1)
 
 
# 生產(chǎn)10個(gè)url任務(wù)
for i in range(10):
    r.lpush('url_queue', i)

感謝各位的閱讀!關(guān)于python分布式爬蟲中使用消息隊(duì)列的示例就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,讓大家可以學(xué)到更多知識(shí)。如果覺得文章不錯(cuò),可以把它分享出去讓更多的人看到吧!


本文名稱:python分布式爬蟲中使用消息隊(duì)列的示例
網(wǎng)站網(wǎng)址:http://weahome.cn/article/jsscgc.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部