真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

scrapy框架的簡單介紹

這篇文章主要介紹“scrapy框架的簡單介紹”,在日常操作中,相信很多人在scrapy框架的簡單介紹問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”scrapy框架的簡單介紹”的疑惑有所幫助!接下來,請跟著小編一起來學(xué)習(xí)吧!

網(wǎng)站建設(shè)公司,為您提供網(wǎng)站建設(shè),網(wǎng)站制作,網(wǎng)頁設(shè)計及定制網(wǎng)站建設(shè)服務(wù),專注于企業(yè)網(wǎng)站設(shè)計,高端網(wǎng)頁制作,對成都履帶攪拌車等多個行業(yè)擁有豐富的網(wǎng)站建設(shè)經(jīng)驗的網(wǎng)站建設(shè)公司。專業(yè)網(wǎng)站設(shè)計,網(wǎng)站優(yōu)化推廣哪家好,專業(yè)成都網(wǎng)站推廣優(yōu)化,H5建站,響應(yīng)式網(wǎng)站。

1.Scrapy五大基本構(gòu)成

  • Scrapy框架主要由五大組件組成,分別是調(diào)度器(Scheduler)、下載器(Downloader)、爬蟲(Spider)和實體管道(Item Pipeline)、Scrapy引擎(Scrapy Engine);

  • 調(diào)度器:可以假設(shè)成一個URL的優(yōu)先隊列,由它來決定下一個要抓取的網(wǎng)址是什么,同時去除重復(fù)的網(wǎng)址;

  • 下載器:是所有組件中負擔最大的,用于高速地下載網(wǎng)絡(luò)上的資源;

  • 爬蟲:是用戶最關(guān)心的部份,用戶定制自己的爬蟲,用于從特定的網(wǎng)頁中提取自己需要的信息,也可以從中提取出鏈接,讓Scrapy繼續(xù)抓取下一個頁面;

  • 實體管道:用于處理爬蟲提取的實體,要的功能是持久化實體、驗證實體的有效性、清除不需要的信息;

  • Scrapy引擎:是整個框架的核心,用來控制調(diào)試器、下載器、爬蟲,實際上引擎相當于計算機的CPU,控制著整個流程;

2.使用scrapy框架爬取網(wǎng)頁數(shù)據(jù)

  • 第一步:首先要使用scrapy框架需要先安裝它,可以使用pip安裝scrapy框架,注意如果在Windows系統(tǒng)下直接使用pip命令行安裝可能會報錯,這時需要手動安裝幾個依賴庫如wheel、lxml、Twisted、pywin32等,報錯信息會提示你缺少哪個庫。
    這里提一下Twisted插件的安裝,它的下載地址為: https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted , 進入后找到twisted,選擇下載對應(yīng)的版本,其中cp表示python版本,下載完成后進入終端,輸入pip install Twisted-19.2.0-cp37-cp37m-win_amd64.whl,這里注意你下載的是哪個版本就輸入哪個版本的文件名,安裝完成后再輸入pip install scrapy就能成功安裝scrapy框架了;

  • 第二步:創(chuàng)建爬蟲項目,創(chuàng)建儲存 scrapy 文件夾scrapy_python,然后在命令行工具中cd進入這個項目路徑,用 scrapy startproject  名稱命令新建項目;

scrapy框架的簡單介紹

這樣我們就成功的創(chuàng)建了一個scrapy項目,我們在PyCharm中看看

scrapy框架的簡單介紹

  • 第三步:可以在剛剛創(chuàng)建的項目的spiders文件夾中創(chuàng)建一個蜘蛛文件,用于爬取網(wǎng)頁數(shù)據(jù)的,我們試著爬取一下csdn網(wǎng)站,那么新建蜘蛛的命令行是:scrapy genspider csdn www.csdn.net,其中csdn是你創(chuàng)建的蜘蛛的文件名,而www.csdn.net表示爬取的目標網(wǎng)址的域名,你想爬取哪個網(wǎng)站就使用哪個網(wǎng)站的域名。

  • 第四步:如果要啟動我們創(chuàng)建的蜘蛛文件,我們可以使用命令行:scrapy crawl csdn,這里的csdn是蜘蛛文件中name的對應(yīng)值;

scrapy框架的簡單介紹

  • 第五步:想要測試爬去數(shù)據(jù)是否成功,我們可以在項目的模板中創(chuàng)建一個測試文件,如:start_spider.py,然后通過debug來進行項目調(diào)試,可以輸出我們想要爬取的網(wǎng)頁數(shù)據(jù);

from scrapy.cmdline import execute
execute(["scrapy", "crawl", "csdn",])
  • 第六步:爬取數(shù)據(jù)時需要遵循爬蟲協(xié)議,它用來限定爬蟲程序可以爬取的內(nèi)容范圍,位于scrapy 項目的 settings.py文件中默認 ROBOTSTXT_OBEY = True,即遵守此協(xié)議,當我們想要爬取的內(nèi)容不符合該協(xié)議但仍要爬取時,可以設(shè)置 ROBOTSTXT_OBEY = False,表示不遵守此協(xié)議;

  • 第七步:這樣我們就可以開始使用Xpath選擇器或者CSS選擇器來解析想要爬取的頁面數(shù)據(jù)了;

3.Xpath選擇器的介紹

  • XPath的全稱是XML Path Language,即XML路徑語言,它是一種在結(jié)構(gòu)化文檔中定位信息的語言,XPath使用路徑表達式來選取XML文檔中的節(jié)點或節(jié)點集。節(jié)點是通過沿著路徑 (path) 或者步 (steps) 來選取的;

  • 謂語用來查找某個特定的節(jié)點或者包含某個指定的值的節(jié)點,謂語嵌在方括號中,比如//body//a[1]表示選取屬于body 子元素的第一個 a 元素,//a[ @href ]表示選取所有擁有名為 href 的屬性的 a 元素等;

  • 除了索引、屬性外,Xpath還可以使用便捷的函數(shù)來增強定位的準確性,如contains(s1,s2)表示如果s1中包含s2則返回true,反之返回false、text()表示獲取節(jié)點中的文本內(nèi)容、starts-with()表示從起始位置匹配字符串;

  • 使用XPath選取節(jié)點的常用語法有

表達式書寫方式表達式意義
*選擇HTML頁面中任意的節(jié)點
/從根節(jié)點選取
//從匹配選擇的當前節(jié)點選擇文檔中的節(jié)點,而不考慮它們的位置
.選取當前節(jié)點
..選取當前節(jié)點的父節(jié)點
/bookstore/book[1]選取屬于 bookstore 子元素的第一個 book 元素
/bookstore/book[last()]選取屬于 bookstore 子元素的最后一個 book 元素
/bookstore/book[last()-1]選取屬于 bookstore 子元素的倒數(shù)第二個 book 元素
//title[ @lang ]選取所有擁有名為 lang 的屬性的 title 元素
//title[ @lang =’eng’]選取所有 title 元素,且這些元素擁有值為 eng 的 lang 屬性
/bookstore/book[price>35.00]選取 bookstore 元素的所有 book 元素,且其中的 price 元素的值須大于 35.00
/bookstore/book[price>35.00]/title選取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值須大于 35.00
//*選取文檔中的所有元素
//title[@*]選取所有帶有屬性的 title 元素
//book/title , //book/price選取 book 元素的所有 title 和 price 元素
//title , //price選取文檔中的所有 title 和 price 元素
child::book選取所有屬于當前節(jié)點的子元素的 book 節(jié)點
child::text()選取當前節(jié)點的所有文本子節(jié)點
/bookstore/book/title選取所有 title 節(jié)點
/bookstore/book/price/text()選取 price 節(jié)點中的所有文本
//*任意元素

使用XPath

我們來通過XPath選擇器爬取網(wǎng)站中我們想要爬取的信息,如下圖我們來爬去今日推薦中的標題
scrapy框架的簡單介紹

import scrapy
class CsDNSpider(scrapy.Spider):
    name = 'csdn'
    allowed_domains = ['www.csdn.net']
    start_urls = ['http://www.csdn.net/']
    def parse(self, response):
       # 選擇所有class="company_name"的h4元素下的a元素的文本 
       result = response.xpath('//h4[@class="company_name"]/a/text()').extract()
       # 將得到的文本列表循環(huán) 
       for i in result:
           print(i)

我們來看一下輸出打印,看看是不是我們想要的結(jié)果

scrapy框架的簡單介紹

到此,關(guān)于“scrapy框架的簡單介紹”的學(xué)習(xí)就結(jié)束了,希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學(xué)習(xí),快去試試吧!若想繼續(xù)學(xué)習(xí)更多相關(guān)知識,請繼續(xù)關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編會繼續(xù)努力為大家?guī)砀鄬嵱玫奈恼拢?/p>
分享文章:scrapy框架的簡單介紹
當前網(wǎng)址:http://weahome.cn/article/jhpgeh.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部