這篇“Pytho爬蟲初學(xué)者需要掌握哪些知識(shí)”文章的知識(shí)點(diǎn)大部分人都不太理解,所以小編給大家總結(jié)了以下內(nèi)容,內(nèi)容詳細(xì),步驟清晰,具有一定的借鑒價(jià)值,希望大家閱讀完這篇文章能有所收獲,下面我們一起來看看這篇“Pytho爬蟲初學(xué)者需要掌握哪些知識(shí)”文章吧。
創(chuàng)新互聯(lián)建站是一家專注于網(wǎng)站設(shè)計(jì)制作、成都網(wǎng)站建設(shè)與策劃設(shè)計(jì),根河網(wǎng)站建設(shè)哪家好?創(chuàng)新互聯(lián)建站做網(wǎng)站,專注于網(wǎng)站建設(shè)十年,網(wǎng)設(shè)計(jì)領(lǐng)域的專業(yè)建站公司;建站業(yè)務(wù)涵蓋:根河等地區(qū)。根河做網(wǎng)站價(jià)格咨詢:18980820575
1)JAVA
Java的語法比較規(guī)則,采用嚴(yán)格的面向?qū)ο缶幊谭椒?,同時(shí)有很多大型的開發(fā)框架,比較適合企業(yè)級(jí)應(yīng)用。Java的學(xué)習(xí)曲線較長(zhǎng),不僅要學(xué)習(xí)語言相關(guān)的特性,還要面向?qū)ο蟮能浖?gòu)造方法,在此之后要學(xué)習(xí)一些框架的使用方法。
(1)用途:Android & IOS 應(yīng)用開發(fā),視頻游戲開發(fā),桌面GUIs(即圖形用戶頁面),軟件開發(fā),架構(gòu)等。
(2)優(yōu)勢(shì):面向?qū)ο箝_源、跨平臺(tái)、市場(chǎng)需求旺盛;Android開發(fā)的基石, 是Web開發(fā)的主流語言;
(3)缺點(diǎn):占用大量的內(nèi)存,啟動(dòng)時(shí)間較長(zhǎng),不直接支持硬件級(jí)別的處理
2)Python
python是動(dòng)態(tài)形的靈活的解釋性語言,從軟件開發(fā)到Web開發(fā),Python都有在被使用。
因?yàn)樗墙忉屝阅_本語言,適合輕量級(jí)開發(fā)。Python是比較好學(xué)的語言。
(1)用途:爬蟲,Web開發(fā),視頻游戲開發(fā),桌面GUIs(即圖形用戶頁面),軟件開發(fā),架構(gòu)等。
(2)優(yōu)勢(shì):動(dòng)態(tài)解釋型、擁有強(qiáng)大的開源類庫、開發(fā)效率高、開源,靈活,入門低易上手
(3)缺點(diǎn):運(yùn)行速度低于編譯型語言,在移動(dòng)計(jì)算領(lǐng)域乏力
3)C++
C++更接近于底層,方便直接操作內(nèi)存。C++不僅擁有計(jì)算機(jī)高效運(yùn)行的實(shí)用性特征,同時(shí)還致力于提高大規(guī)模程序的編程質(zhì)量與程序設(shè)計(jì)語言的問題描述能力。C++運(yùn)行效率較高,同時(shí)能夠比較容易地建立大型軟件,適合對(duì)效率要求高的軟件。C++的內(nèi)容非常復(fù)雜,同時(shí)語言經(jīng)過了幾十年的演化,所以學(xué)習(xí)起來難度較大,開發(fā)效率較低。
1)用途: 機(jī)器學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)、大型游戲編程、后臺(tái)服務(wù)、桌面軟件等
2)優(yōu)勢(shì):運(yùn)行效率高、安全、面向?qū)ο?、?jiǎn)潔、可重用性好等
3)缺點(diǎn):沒有垃圾回收機(jī)制,可能引起內(nèi)存設(shè)漏; 學(xué)習(xí)難度大,開發(fā)效率相對(duì)較低;
通過在GitHub上搜索”爬蟲”,我們可以發(fā)現(xiàn),目前市面上的開源爬蟲項(xiàng)目,Python占百分八十的份額。
而且目前市面上,具有兩年以上Python爬蟲經(jīng)驗(yàn)的工程師,其工資普遍高于Java和C++爬蟲工程師。
所以,Python才是開發(fā)爬蟲不二的選擇。那么一個(gè)初學(xué)者掌握哪些知識(shí),就可以使用Python開發(fā)爬蟲呢?
1. 網(wǎng)絡(luò)
urllib -網(wǎng)絡(luò)庫(stdlib)。
requests -網(wǎng)絡(luò)庫。
grab – 網(wǎng)絡(luò)庫(基于pycurl)。
pycurl – 網(wǎng)絡(luò)庫(綁定libcurl)。
urllib3 – Python HTTP庫,安全連接池、支持文件post、可用性高。
httplib2 – 網(wǎng)絡(luò)庫。
RoboBrowser – 一個(gè)簡(jiǎn)單的、極具Python風(fēng)格的Python庫,無需獨(dú)立的瀏覽器即可瀏覽網(wǎng)頁。
MechanicalSoup -一個(gè)與網(wǎng)站自動(dòng)交互Python庫。
mechanize -有狀態(tài)、可編程的Web瀏覽庫。
socket – 底層網(wǎng)絡(luò)接口(stdlib)。
2. HTML/XML解析器
lxml – C語言編寫高效HTML/ XML處理庫。支持XPath。
cssselect – 解析DOM樹和CSS選擇器。
pyquery – 解析DOM樹和jQuery選擇器。
BeautifulSoup – 低效HTML/ XML處理庫,純Python實(shí)現(xiàn)。
html5lib – 根據(jù)WHATWG規(guī)范生成HTML/ XML文檔的DOM。該規(guī)范被用在現(xiàn)在所有的瀏覽器上。
feedparser – 解析RSS/ATOM feeds。
MarkupSafe – 為XML/HTML/XHTML提供了安全轉(zhuǎn)義的字符串。
3. 瀏覽器自動(dòng)化與仿真
selenium – 自動(dòng)化真正的瀏覽器(Chrome瀏覽器,火狐瀏覽器,Opera瀏覽器,IE瀏覽器)。
Ghost.py – 對(duì)PyQt的webkit的封裝(需要PyQT)。
Spynner – 對(duì)PyQt的webkit的封裝(需要PyQT)。
Splinter – 通用API瀏覽器模擬器(selenium web驅(qū)動(dòng),Django客戶端,Zope)。
4. 多重處理
threading – Python標(biāo)準(zhǔn)庫的線程運(yùn)行。對(duì)于I/O密集型任務(wù)很有效。對(duì)于CPU綁定的任務(wù)沒用,因?yàn)閜ython GIL。
multiprocessing – 標(biāo)準(zhǔn)的Python庫運(yùn)行多進(jìn)程。
celery – 基于分布式消息傳遞的異步任務(wù)隊(duì)列/作業(yè)隊(duì)列。
concurrent-futures – concurrent-futures 模塊為調(diào)用異步執(zhí)行提供了一個(gè)高層次的接口。
5. 異步網(wǎng)絡(luò)編程庫
asyncio – (在Python 3.4 +版本以上的 Python標(biāo)準(zhǔn)庫)異步I/O,時(shí)間循環(huán),協(xié)同程序和任務(wù)。
gevent – 一個(gè)使用greenlet 的基于協(xié)程的Python網(wǎng)絡(luò)庫。
6. 網(wǎng)頁內(nèi)容提取
HTML頁面的文本和元數(shù)據(jù)
newspaper – 用Python進(jìn)行新聞提取、文章提取和內(nèi)容策展。
html2text – 將HTML轉(zhuǎn)為Markdown格式文本。
python-goose – HTML內(nèi)容/文章提取器。
lassie – 人性化的網(wǎng)頁內(nèi)容檢索工具
了解了以上的知識(shí)點(diǎn)以后,我們獲取網(wǎng)絡(luò)數(shù)據(jù)的方式有哪些呢?
方式1:瀏覽器提交請(qǐng)求--->下載網(wǎng)頁代碼--->解析成頁面
方式2:模擬瀏覽器發(fā)送請(qǐng)求(獲取網(wǎng)頁代碼)->提取有用的數(shù)據(jù)->存放于數(shù)據(jù)庫或文件中
爬蟲要做的就是方式2。
1、發(fā)起請(qǐng)求
使用http庫向目標(biāo)站點(diǎn)發(fā)起請(qǐng)求,即發(fā)送一個(gè)Request
Request包含:請(qǐng)求頭、請(qǐng)求體等
Request模塊缺陷:不能執(zhí)行JS 和CSS 代碼
2、獲取響應(yīng)內(nèi)容
如果服務(wù)器能正常響應(yīng),則會(huì)得到一個(gè)Response
Response包含:html,json,圖片,視頻等
3、解析內(nèi)容
解析html數(shù)據(jù):正則表達(dá)式(RE模塊),第三方解析庫如Beautifulsoup,pyquery等
解析json數(shù)據(jù):json模塊
解析二進(jìn)制數(shù)據(jù):以wb的方式寫入文件
4、保存數(shù)據(jù)
數(shù)據(jù)庫(MySQL,Mongdb、redis)、文件
目前上市面上開源爬蟲項(xiàng)目主要有一下八個(gè):
1.Scrapy
Scrapy是一個(gè)為了爬取網(wǎng)站數(shù)據(jù),提取結(jié)構(gòu)性數(shù)據(jù)而編寫的應(yīng)用框架。 可以應(yīng)用在包括數(shù)據(jù)挖掘,信息處理或存儲(chǔ)歷史數(shù)據(jù)等一系列的程序中。。用這個(gè)框架可以輕松爬下來如亞馬遜商品信息之類的數(shù)據(jù)。
2.PySpider
pyspider 是一個(gè)用python實(shí)現(xiàn)的功能強(qiáng)大的網(wǎng)絡(luò)爬蟲系統(tǒng),能在瀏覽器界面上進(jìn)行腳本的編寫,功能的調(diào)度和爬取結(jié)果的實(shí)時(shí)查看,后端使用常用的數(shù)據(jù)庫進(jìn)行爬取結(jié)果的存儲(chǔ),還能定時(shí)設(shè)置任務(wù)與任務(wù)優(yōu)先級(jí)等。
3.Crawley
Crawley可以高速爬取對(duì)應(yīng)網(wǎng)站的內(nèi)容,支持關(guān)系和非關(guān)系數(shù)據(jù)庫,數(shù)據(jù)可以導(dǎo)出為JSON、XML等。
4.Portia
Portia是一個(gè)開源可視化爬蟲工具,可讓您在不需要任何編程知識(shí)的情況下爬取網(wǎng)站!簡(jiǎn)單地注釋您感興趣的頁面,Portia將創(chuàng)建一個(gè)蜘蛛來從類似的頁面提取數(shù)據(jù)。
5.Newspaper
Newspaper可以用來提取新聞、文章和內(nèi)容分析。使用多線程,支持10多種語言等。
6.Beautiful Soup
Beautiful Soup 是一個(gè)可以從HTML或XML文件中提取數(shù)據(jù)的Python庫.它能夠通過你喜歡的轉(zhuǎn)換器實(shí)現(xiàn)慣用的文檔導(dǎo)航,查找,修改文檔的方式.Beautiful Soup會(huì)幫你節(jié)省數(shù)小時(shí)甚至數(shù)天的工作時(shí)間。
7.Grab
Grab是一個(gè)用于構(gòu)建Web刮板的Python框架。借助Grab,您可以構(gòu)建各種復(fù)雜的網(wǎng)頁抓取工具,從簡(jiǎn)單的5行腳本到處理數(shù)百萬個(gè)網(wǎng)頁的復(fù)雜異步網(wǎng)站抓取工具。Grab提供一個(gè)API用于執(zhí)行網(wǎng)絡(luò)請(qǐng)求和處理接收到的內(nèi)容,例如與HTML文檔的DOM樹進(jìn)行交互。
8.Cola
Cola是一個(gè)分布式的爬蟲框架,對(duì)于用戶來說,只需編寫幾個(gè)特定的函數(shù),而無需關(guān)注分布式運(yùn)行的細(xì)節(jié)。任務(wù)會(huì)自動(dòng)分配到多臺(tái)機(jī)器上,整個(gè)過程對(duì)用戶是透明的。
以上就是關(guān)于“Pytho爬蟲初學(xué)者需要掌握哪些知識(shí)”這篇文章的內(nèi)容,相信大家都有了一定的了解,希望小編分享的內(nèi)容對(duì)大家有幫助,若想了解更多相關(guān)的知識(shí)內(nèi)容,請(qǐng)關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。