真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

Pythonscrapy框架scrapy.Spider的用法

這篇文章將為大家詳細(xì)講解有關(guān)Python scrapy框架scrapy.Spider的用法,文章內(nèi)容質(zhì)量較高,因此小編分享給大家做個(gè)參考,希望大家閱讀完這篇文章后對(duì)相關(guān)知識(shí)有一定的了解。

創(chuàng)新互聯(lián)長(zhǎng)期為上千余家客戶提供的網(wǎng)站建設(shè)服務(wù),團(tuán)隊(duì)從業(yè)經(jīng)驗(yàn)10年,關(guān)注不同地域、不同群體,并針對(duì)不同對(duì)象提供差異化的產(chǎn)品和服務(wù);打造開放共贏平臺(tái),與合作伙伴共同營(yíng)造健康的互聯(lián)網(wǎng)生態(tài)環(huán)境。為雙湖企業(yè)提供專業(yè)的成都網(wǎng)站建設(shè)、成都做網(wǎng)站,雙湖網(wǎng)站改版等技術(shù)服務(wù)。擁有十載豐富建站經(jīng)驗(yàn)和眾多成功案例,為您定制開發(fā)。

Spider 類定義了如何爬取某個(gè)(或某些)網(wǎng)站。包括了爬取的動(dòng)作(例如:是否跟進(jìn)鏈接)以及如何從網(wǎng)頁的內(nèi)容中提取結(jié)構(gòu)化數(shù)據(jù)(爬取item)。 換句話說,Spider就是您定義爬取的動(dòng)作及分析某個(gè)網(wǎng)頁(或者是有些網(wǎng)頁)的地方。

對(duì)spider來說,爬取的循環(huán)類似下文:

  1. 以初始的URL初始化Request,并設(shè)置回調(diào)函數(shù)。 當(dāng)該request下載完畢并返回時(shí),將生成response,并作為參數(shù)傳給該回調(diào)函數(shù)。

spider中初始的request是通過調(diào)用 start_requests()來獲取的。 start_requests() 讀取 start_urls 中的URL,并以parse 為回調(diào)函數(shù)生成 Request。

  1. 在回調(diào)函數(shù)內(nèi)分析返回的(網(wǎng)頁)內(nèi)容,返回 Item 對(duì)象或者 Request 或者一個(gè)包括二者的可迭代容器。 返回的Request對(duì)象之后會(huì)經(jīng)過Scrapy處理,下載相應(yīng)的內(nèi)容,并調(diào)用設(shè)置的callback函數(shù)(函數(shù)可相同)。

  2. 在回調(diào)函數(shù)內(nèi),您可以使用 選擇器(Selectors) (您也可以使用BeautifulSoup, lxml 或者您想用的任何解析器) 來分析網(wǎng)頁內(nèi)容,并根據(jù)分析的數(shù)據(jù)生成item。

  3. 最后,由spider返回的item將被存到數(shù)據(jù)庫(由某些 Item Pipeline處理)或使用 Feed exports存入到文件中。

雖然該循環(huán)對(duì)任何類型的spider都(多少)適用,但Scrapy仍然為了不同的需求提供了多種默認(rèn)spider。 之后將討論這些spider。

Spider

scrapy.spider.Spider 是最簡(jiǎn)單的spider。每個(gè)其他的spider必須繼承自該類(包括Scrapy自帶的其他spider以及您自己編寫的spider)。 其僅僅請(qǐng)求給定的 start_urls / start_requests ,并根據(jù)返回的結(jié)果(resulting responses)調(diào)用 spider 的 parse 方法。

name

定義 spider 名字的字符串(string)。spider 的名字定義了 Scrapy 如何定位(并初始化) spider ,所以其必須是唯一的。不過您可以生成多個(gè)相同的 spider 實(shí)例(instance),這沒有任何限制。 name 是 spider 最重要的屬性,而且是必須的。

如果該 spider 爬取單個(gè)網(wǎng)站(single domain),一個(gè)常見的做法是以該網(wǎng)站(domain)(加或不加后綴 )來命名 spider 。 例如,如果 spider 爬取 mywebsite.com ,該spider通常會(huì)被命名為 mywebsite 。

allowed_domains

可選。包含了spider允許爬取的域名(domain)列表(list)。 當(dāng) OwsiteMiddleware 啟用時(shí), 域名不在列表中的URL不會(huì)被跟進(jìn)。

start_urls

URL 列表。當(dāng)沒有制定特定的 URL 時(shí),spider 將從該列表中開始進(jìn)行爬取。 因此,第一個(gè)被獲取到的頁面的 URL 將是該列表之一。 后續(xù)的 URL 將會(huì)從獲取到的數(shù)據(jù)中提取。

start_requests()

該方法必須返回一個(gè)可迭代對(duì)象(iterable)。該對(duì)象包含了spider用于爬取的第一個(gè) Request。

當(dāng) spider 啟動(dòng)爬取并且未制定 URL 時(shí),該方法被調(diào)用。 當(dāng)指定了URL時(shí),make_requests_from_url() 將被調(diào)用來創(chuàng)建Request 對(duì)象。 該方法僅僅會(huì)被 Scrapy 調(diào)用一次,因此您可以將其實(shí)現(xiàn)為生成器。

該方法的默認(rèn)實(shí)現(xiàn)是使用 start_urls 的url生成 Request。

如果您想要修改最初爬取某個(gè)網(wǎng)站的Request對(duì)象,您可以重寫(override)該方法。 例如,如果您需要在啟動(dòng)時(shí)以POST 登錄某個(gè)網(wǎng)站,你可以這么寫:

def start_requests(self): 
  return [scrapy.FormRequest("http://www.example.com/login",
                             formdata={'user': 'john', 'pass': 'secret'}, 
                             callback=self.logged_in)] 

def logged_in(self, response): 
## here you would extract links to follow and return Requests for 
## each of them, with another callback 
  pass

parse

當(dāng)response沒有指定回調(diào)函數(shù)時(shí),該方法是Scrapy處理下載的response的默認(rèn)方法。

parse 負(fù)責(zé)處理response并返回處理的數(shù)據(jù)以及(/或)跟進(jìn)的URL。 Spider 對(duì)其他的Request的回調(diào)函數(shù)也有相同的要求。

該方法及其他的Request回調(diào)函數(shù)必須返回一個(gè)包含 Request 及(或) Item 的可迭代的對(duì)象。

參數(shù): response– 用于分析的response

closed(reason)

當(dāng)spider關(guān)閉時(shí),該函數(shù)被調(diào)用。

啟動(dòng)方式

start_urls

start_urls 是一個(gè)列表

start_requests

使用 start_requests() 重寫 start_urls ,要使用 Request() 方法自己發(fā)送請(qǐng)求:

def start_requests(self): 
  """重寫 start_urls 規(guī)則""" 
  yield scrapy.Request(url='http://quotes.toscrape.com/page/1/', callback=self.parse)

scrapy.Request

scrapy.Request 是一個(gè)請(qǐng)求對(duì)象,創(chuàng)建時(shí)必須制定回調(diào)函數(shù)。

數(shù)據(jù)保存

可以使用 -o 將數(shù)據(jù)保存為常見的格式(根據(jù)后綴名保存)

支持的格式有下面幾種:

  • json

  • jsonlines

  • jl

  • csv

  • xml

  • marshal

  • pickle

案例:Spider 樣例

讓我們來看一個(gè)例子:

## -*- coding: utf-8 -*- 
import scrapy 

class Quotes2Spider(scrapy.Spider): 
  name = 'quotes2' 
  allowed_domains = ['toscrape.com'] 
  start_urls = ['http://quotes.toscrape.com/page/2/'] 
  def parse(self, response): 
    quotes = response.css('.quote')
    for quote in quotes: 
      text = quote.css('.text::text').extract_first() 
      auth = quote.css('.author::text').extract_first() 
      tages = quote.css('.tags a::text').extract() 
      yield dict(text=text,auth=auth,tages=tages)

url拼接

import urllib.parse 
urllib.parse.urljoin('http://quotes.toscrape.com/', '/page/2/') 
Out[6]: 'http://quotes.toscrape.com/page/2/' 
urllib.parse.urljoin('http://quotes.toscrape.com/page/2/', '/page/3/') 
Out[7]: 'http://quotes.toscrape.com/page/3/'

關(guān)于Python scrapy框架scrapy.Spider的用法就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,可以學(xué)到更多知識(shí)。如果覺得文章不錯(cuò),可以把它分享出去讓更多的人看到。


本文標(biāo)題:Pythonscrapy框架scrapy.Spider的用法
分享路徑:http://weahome.cn/article/pcpsgg.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部