小編給大家分享一下常見(jiàn)的python爬蟲(chóng)框架有哪些,希望大家閱讀完這篇文章后大所收獲,下面讓我們一起去探討吧!
創(chuàng)新互聯(lián)公司堅(jiān)持“要么做到,要么別承諾”的工作理念,服務(wù)領(lǐng)域包括:成都網(wǎng)站建設(shè)、成都網(wǎng)站設(shè)計(jì)、企業(yè)官網(wǎng)、英文網(wǎng)站、手機(jī)端網(wǎng)站、網(wǎng)站推廣等服務(wù),滿(mǎn)足客戶(hù)于互聯(lián)網(wǎng)時(shí)代的貴州網(wǎng)站設(shè)計(jì)、移動(dòng)媒體設(shè)計(jì)的需求,幫助企業(yè)找到有效的互聯(lián)網(wǎng)解決方案。努力成為您成熟可靠的網(wǎng)絡(luò)建設(shè)合作伙伴!
常見(jiàn)python爬蟲(chóng)框架:
(1)Scrapy:很強(qiáng)大的爬蟲(chóng)框架,可以滿(mǎn)足簡(jiǎn)單的頁(yè)面爬?。ū热缈梢悦鞔_獲知url pattern的情況)。用這個(gè)框架可以輕松爬下來(lái)如亞馬遜商品信息之類(lèi)的數(shù)據(jù)。但是對(duì)于稍微復(fù)雜一點(diǎn)的頁(yè)面,如weibo的頁(yè)面信息,這個(gè)框架就滿(mǎn)足不了需求了。
(2)Crawley:高速爬取對(duì)應(yīng)網(wǎng)站的內(nèi)容,支持關(guān)系和非關(guān)系數(shù)據(jù)庫(kù),數(shù)據(jù)可以導(dǎo)出為JSON、XML等
(3)Portia:可視化爬取網(wǎng)頁(yè)內(nèi)容
(4)newspaper:提取新聞、文章以及內(nèi)容分析
(5)python-goose:java寫(xiě)的文章提取工具
(6)Beautiful Soup:名氣大,整合了一些常用爬蟲(chóng)需求。缺點(diǎn):不能加載JS。
(7)mechanize:優(yōu)點(diǎn):可以加載JS。缺點(diǎn):文檔嚴(yán)重缺失。不過(guò)通過(guò)官方的example以及人肉嘗試的方法,還是勉強(qiáng)能用的。
(8)selenium:這是一個(gè)調(diào)用瀏覽器的driver,通過(guò)這個(gè)庫(kù)你可以直接調(diào)用瀏覽器完成某些操作,比如輸入驗(yàn)證碼。
(9)cola:一個(gè)分布式爬蟲(chóng)框架。項(xiàng)目整體設(shè)計(jì)有點(diǎn)糟,模塊間耦合度較高。
看完了這篇文章,相信你對(duì)常見(jiàn)的python爬蟲(chóng)框架有哪些有了一定的了解,想了解更多相關(guān)知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝各位的閱讀!