python爬蟲(chóng)怎么分布式獲取數(shù)據(jù)

這篇文章主要介紹python爬蟲(chóng)怎么分布式獲取數(shù)據(jù)，文中介紹的非常詳細(xì)，具有一定的參考價(jià)值，感興趣的小伙伴們一定要看完！

創(chuàng)新互聯(lián)專注于成都網(wǎng)站建設(shè)、網(wǎng)站建設(shè)、網(wǎng)頁(yè)設(shè)計(jì)、網(wǎng)站制作、網(wǎng)站開(kāi)發(fā)。公司秉持“客戶至上,用心服務(wù)”的宗旨,從客戶的利益和觀點(diǎn)出發(fā),讓客戶在網(wǎng)絡(luò)營(yíng)銷中找到自己的駐足之地。尊重和關(guān)懷每一位客戶，用嚴(yán)謹(jǐn)?shù)膽B(tài)度對(duì)待客戶，用專業(yè)的服務(wù)創(chuàng)造價(jià)值，成為客戶值得信賴的朋友，為客戶解除后顧之憂。

假設(shè)我有三臺(tái)爬蟲(chóng)服務(wù)器A、B和C。我想讓我所有的賬號(hào)登錄任務(wù)分散到三臺(tái)服務(wù)器、讓用戶抓取在A和B上執(zhí)行，讓粉絲和關(guān)注抓取在C上執(zhí)行，那么啟動(dòng)A、B、C三個(gè)服務(wù)器的celery worker的命令就分別是

celery -A tasks.workers -Q login_queue,user_crawler worker -l info -c 1 # A服務(wù)器和B服務(wù)器啟動(dòng)worker的命令，它們只會(huì)執(zhí)行登錄和用戶信息抓取任務(wù)。

celery -A tasks.workers -Q login_queue,fans_followers worker -l info -c 1 # C服務(wù)器啟動(dòng)worker的命令，它只會(huì)執(zhí)行登錄、粉絲和關(guān)注抓取任務(wù)。

然后我們通過(guò)命令行或者代碼（如下）就能發(fā)送所有任務(wù)給各個(gè)節(jié)點(diǎn)執(zhí)行了

# coding:utf-8
from tasks.workers import app
from page_get import user as user_get
from db.seed_ids import get_seed_ids, get_seed_by_id, insert_seeds, set_seed_other_crawled
 
@app.task(ignore_result=True)
def crawl_follower_fans(uid):
    seed = get_seed_by_id(uid)
    if seed.other_crawled == 0:
        rs = user_get.get_fans_or_followers_ids(uid, 1)
        rs.extend(user_get.get_fans_or_followers_ids(uid, 2))
        datas = set(rs)
        # 重復(fù)數(shù)據(jù)跳過(guò)插入
        if datas:
            insert_seeds(datas)
        set_seed_other_crawled(uid)
@app.task(ignore_result=True)
def crawl_person_infos(uid):
    """
    根據(jù)用戶id來(lái)爬取用戶相關(guān)資料和用戶的關(guān)注數(shù)和粉絲數(shù)（由于微博服務(wù)端限制，默認(rèn)爬取前五頁(yè)，企業(yè)號(hào)的關(guān)注和粉絲也不能查看）
    :param uid: 用戶id
    :return:
    """
    if not uid:
        return
 
    # 由于與別的任務(wù)共享數(shù)據(jù)表，所以需要先判斷數(shù)據(jù)庫(kù)是否有該用戶信息，再進(jìn)行抓取
    user = user_get.get_profile(uid)
    # 不抓取企業(yè)號(hào)
    if user.verify_type == 2:
        set_seed_other_crawled(uid)
        return
    app.send_task('tasks.user.crawl_follower_fans', args=(uid,), queue='fans_followers',
                  routing_key='for_fans_followers')
 
 
@app.task(ignore_result=True)
def excute_user_task():
    seeds = get_seed_ids()
    if seeds:
        for seed in seeds:
            # 在send_task的時(shí)候指定任務(wù)隊(duì)列
            app.send_task('tasks.user.crawl_person_infos', args=(seed.uid,), queue='user_crawler',
                          routing_key='for_user_info')

以上是“python爬蟲(chóng)怎么分布式獲取數(shù)據(jù)”這篇文章的所有內(nèi)容，感謝各位的閱讀！希望分享的內(nèi)容對(duì)大家有幫助，更多相關(guān)知識(shí)，歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道！

分享文章：python爬蟲(chóng)怎么分布式獲取數(shù)據(jù)
鏈接URL：http://weahome.cn/article/ipdjhh.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

python爬蟲(chóng)怎么分布式獲取數(shù)據(jù)

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管