真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

python爬蟲(chóng)中怎樣編寫(xiě)pyspider-創(chuàng)新互聯(lián)

這篇文章給大家分享的是有關(guān)python爬蟲(chóng)中怎樣編寫(xiě)pyspider的內(nèi)容。小編覺(jué)得挺實(shí)用的，因此分享給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧。

創(chuàng)新互聯(lián)是一家專(zhuān)注網(wǎng)站建設(shè)、網(wǎng)絡(luò)營(yíng)銷(xiāo)策劃、小程序開(kāi)發(fā)、電子商務(wù)建設(shè)、網(wǎng)絡(luò)推廣、移動(dòng)互聯(lián)開(kāi)發(fā)、研究、服務(wù)為一體的技術(shù)型公司。公司成立十載以來(lái)，已經(jīng)為1000多家橡塑保溫各業(yè)的企業(yè)公司提供互聯(lián)網(wǎng)服務(wù)?，F(xiàn)在，服務(wù)的1000多家客戶(hù)與我們一路同行，見(jiàn)證我們的成長(zhǎng)；未來(lái)，我們一起分享成功的喜悅。

代碼：

from pyspider.libs.base_handler import *class Handler(BaseHandler):
    crawl_config = {
    }
 
    @every(minutes=24 * 60)    def on_start(self):
        self.crawl('__START_URL__', callback=self.index_page)
 
    @config(age=10 * 24 * 60 * 60)    def index_page(self, response):        for each in response.doc('a[href^="http"]').items():
            self.crawl(each.attr.href, callback=self.detail_page)
 
    @config(priority=2)    def detail_page(self, response):        return {            "url": response.url,            "title": response.doc('title').text(),
        }

crawl_config：爬蟲(chóng)的全局參數(shù)設(shè)置，例如請(qǐng)求頭和cookies可以在這里設(shè)置（傳入關(guān)鍵字及對(duì)應(yīng)的參數(shù)即可）

on_start(self)：爬蟲(chóng)開(kāi)始爬取的入口

crawl：和requests有相同的功能，可以支持 get(默認(rèn)) 和 post，常用的參數(shù)有

data 是想要提交數(shù)據(jù)

callback 可以在執(zhí)行完 crawl后調(diào)用回調(diào)函數(shù)

method 是指定訪(fǎng)問(wèn)方法

files 上傳文件，{'key': ('file.name': 'content')}

headers 請(qǐng)求頭，類(lèi)型dict

cookies 請(qǐng)求的 Cookies 類(lèi)型 dict

timeout 請(qǐng)求內(nèi)容里較大等待秒數(shù)．默認(rèn)值：120

connect_timeout ：指定請(qǐng)求時(shí)鏈接超時(shí)時(shí)間,單位秒，默認(rèn)值：20

proxy ：可以設(shè)置代理服務(wù)器，暫時(shí)只支持http代理