這篇文章將為大家詳細(xì)講解有關(guān)什么是scrapy框架,文章內(nèi)容質(zhì)量較高,因此小編分享給大家做個(gè)參考,希望大家閱讀完這篇文章后對相關(guān)知識(shí)有一定的了解。
成都創(chuàng)新互聯(lián)公司于2013年創(chuàng)立,先為亞東等服務(wù)建站,亞東等地企業(yè),進(jìn)行企業(yè)商務(wù)咨詢服務(wù)。為亞東企業(yè)網(wǎng)站制作PC+手機(jī)+微官網(wǎng)三網(wǎng)同步一站式服務(wù)解決您的所有建站問題。
一、安裝scrapy框架
pip install scrapy
二、創(chuàng)建一個(gè)scrapy項(xiàng)目
安裝完成后,python會(huì)自動(dòng)將 scrapy命令添加到環(huán)境變量中去,這時(shí)我們就可以使用 scrapy命令來創(chuàng)建我們的第一個(gè) scrapy項(xiàng)目了。
打開命令行,輸入如下命令
scrapy startproject yourproject
這里的 startproject 命令將會(huì)在當(dāng)前目錄下創(chuàng)建一個(gè) scrapy項(xiàng)目,后面跟著的參數(shù)是需要?jiǎng)?chuàng)建的項(xiàng)目的名稱。
比如這里我們會(huì)創(chuàng)建一個(gè)名為 yourproject 的項(xiàng)目,項(xiàng)目結(jié)構(gòu)如下:
yourproject/ scrapy.cfg yourproject/ __init__.py items.py pipelines.py settings.py spiders/ __init__.py ...
這些文件分別是:
scrapy.cfg: 項(xiàng)目的配置文件
yourproject/: 該項(xiàng)目的python模塊。該項(xiàng)目的所有代碼都在這個(gè)目錄下
yourproject/items.py: 項(xiàng)目中的item文件,我們在這個(gè)文件里定義要爬取的數(shù)據(jù),有點(diǎn)類似于 Django的 model。
yourproject/pipelines.py:項(xiàng)目中的pipelines文件(我把這個(gè)稱為通道文件,意思就是數(shù)據(jù)處理的通道),對爬取到的數(shù)據(jù)進(jìn)行處理(如:儲(chǔ)存)
yourproject/settings.py: 項(xiàng)目的設(shè)置文件,設(shè)置全局變量的值、通道的開啟和關(guān)閉以及多個(gè)通道和爬蟲的執(zhí)行優(yōu)先級(jí)
yourproject/spiders/: 爬蟲的主要邏輯都在這個(gè)文件夾里,包括頁面請求、數(shù)據(jù)提取、反爬措施等。
關(guān)于什么是scrapy框架就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,可以學(xué)到更多知識(shí)。如果覺得文章不錯(cuò),可以把它分享出去讓更多的人看到。