本篇文章為大家展示了Python爬蟲解析網(wǎng)頁(yè)的4種方式分別是什么,內(nèi)容簡(jiǎn)明扼要并且容易理解,絕對(duì)能使你眼前一亮,通過(guò)這篇文章的詳細(xì)介紹希望你能有所收獲。
十載的義縣網(wǎng)站建設(shè)經(jīng)驗(yàn),針對(duì)設(shè)計(jì)、前端、開發(fā)、售后、文案、推廣等六對(duì)一服務(wù),響應(yīng)快,48小時(shí)及時(shí)工作處理。全網(wǎng)營(yíng)銷推廣的優(yōu)勢(shì)是能夠根據(jù)用戶設(shè)備顯示端的尺寸不同,自動(dòng)調(diào)整義縣建站的顯示方式,使網(wǎng)站能夠適用不同顯示終端,在瀏覽器中調(diào)整網(wǎng)站的寬度,無(wú)論在任何一種瀏覽器上瀏覽網(wǎng)站,都能展現(xiàn)優(yōu)雅布局與設(shè)計(jì),從而大程度地提升瀏覽體驗(yàn)。創(chuàng)新互聯(lián)公司從事“義縣網(wǎng)站設(shè)計(jì)”,“義縣網(wǎng)站推廣”以來(lái),每個(gè)客戶項(xiàng)目都認(rèn)真落實(shí)執(zhí)行。
用Python寫爬蟲工具在現(xiàn)在是一種司空見慣的事情,每個(gè)人都希望能夠?qū)懸欢纬绦蛉セヂ?lián)網(wǎng)上扒一點(diǎn)資料下來(lái),用于數(shù)據(jù)分析或者干點(diǎn)別的事情。
我們知道,爬蟲的原理無(wú)非是把目標(biāo)網(wǎng)址的內(nèi)容下載下來(lái)存儲(chǔ)到內(nèi)存中,這個(gè)時(shí)候它的內(nèi)容其實(shí)是一堆HTML,然后再對(duì)這些HTML內(nèi)容進(jìn)行解析,按照自己的想法提取出想要的數(shù)據(jù),所以今天我們主要來(lái)講四種在Python中解析網(wǎng)頁(yè)HTML內(nèi)容的方法,各有千秋,適合在不同的場(chǎng)合下使用。
首先我們隨意找到一個(gè)網(wǎng)址,這時(shí)我腦子里閃過(guò)了豆瓣這個(gè)網(wǎng)站。嗯,畢竟是用Python構(gòu)建的網(wǎng)站,那就拿它來(lái)做示范吧。
我們找到了豆瓣的Python爬蟲小組主頁(yè),看起來(lái)長(zhǎng)成下面這樣。
讓我們用瀏覽器開發(fā)者工具看看HTML代碼,定位到想要的內(nèi)容上,我們想要把討論組里的帖子標(biāo)題和鏈接都給扒出來(lái)。
通過(guò)分析,我們發(fā)現(xiàn)實(shí)際上我們想要的內(nèi)容在整個(gè)HTML代碼的 這個(gè)區(qū)域里,那我們只需要想辦法把這個(gè)區(qū)域內(nèi)的內(nèi)容拿出來(lái)就差不多了。
現(xiàn)在開始寫代碼。
1: 正則表達(dá)式大法
正則表達(dá)式通常被用來(lái)檢索、替換那些符合某個(gè)模式的文本,所以我們可以利用這個(gè)原理來(lái)提取我們想要的信息。
參考以下代碼。
在代碼第6行和第7行,需要手動(dòng)指定一下header的內(nèi)容,裝作自己這個(gè)請(qǐng)求是瀏覽器請(qǐng)求,否則豆瓣會(huì)視為我們不是正常請(qǐng)求會(huì)返回HTTP 418錯(cuò)誤。
在第7行我們直接用requests這個(gè)庫(kù)的get方法進(jìn)行請(qǐng)求,獲取到內(nèi)容后需要進(jìn)行一下編碼格式轉(zhuǎn)換,同樣是因?yàn)槎拱甑捻?yè)面渲染機(jī)制的問(wèn)題,正常情況下,直接獲取requests content的內(nèi)容即可。
Python模擬瀏覽器發(fā)起請(qǐng)求并解析內(nèi)容代碼:
url = 'https://www.douban.com/group/491607/'headers = {"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10.14; rv:71.0) Gecko/20100101 Firefox/71.0"}response = requests.get(url=url,headers=headers).content.decode('utf-8')
正則的好處是編寫麻煩,理解不容易,但是匹配效率很高,不過(guò)時(shí)至今日有太多現(xiàn)成的HTMl內(nèi)容解析庫(kù)之后,我個(gè)人不太建議再手動(dòng)用正則來(lái)對(duì)內(nèi)容進(jìn)行匹配了,費(fèi)時(shí)費(fèi)力。
主要解析代碼:
re_div = r'
2: requests-html
這個(gè)庫(kù)其實(shí)是我個(gè)人最喜歡的庫(kù),作則是編寫requests庫(kù)的網(wǎng)紅程序員 Kenneth Reitz,他在requests的基礎(chǔ)上加上了對(duì)html內(nèi)容的解析,就變成了requests-html這個(gè)庫(kù)了。
下面我們來(lái)看看范例:
我喜歡用requests-html來(lái)解析內(nèi)容的原因是因?yàn)樽髡咭罁?jù)幫我高度封裝過(guò)了,連請(qǐng)求返回內(nèi)容的編碼格式轉(zhuǎn)換也自動(dòng)做了,完全可以讓我的代碼邏輯簡(jiǎn)單直接,更專注于解析工作本身。
主要解析代碼:
links = response.html.find('table.olt', first=True).find('a')
安裝途徑: pip install requests-html
3: BeautifulSoup
大名鼎鼎的 BeautifulSoup庫(kù),出來(lái)有些年頭了,在Pyhton的HTML解析庫(kù)里屬于重量級(jí)的庫(kù),其實(shí)我評(píng)價(jià)它的重量是指比較臃腫,大而全。
還是來(lái)先看看代碼。
soup = BeautifulSoup(response, 'html.parser')links = soup.findAll("table", {"class": "olt"})[0].findAll('a')
BeautifulSoup解析內(nèi)容同樣需要將請(qǐng)求和解析分開,從代碼清晰程度來(lái)講還將就,不過(guò)在做復(fù)雜的解析時(shí)代碼略顯繁瑣,總體來(lái)講可以用,看個(gè)人喜好吧。
安裝途徑: pip install beautifulsoup4
4: lxml的XPath
lxml這個(gè)庫(kù)同時(shí) 支持HTML和XML的解析,支持XPath解析方式,解析效率挺高,不過(guò)我們需要熟悉它的一些規(guī)則語(yǔ)法才能使用,例如下圖這些規(guī)則。
來(lái)看看如何用XPath解析內(nèi)容。
主要解析代碼:
content = doc.xpath("http://table[@class='olt']/tr/td/a")
如上圖,XPath的解析語(yǔ)法稍顯復(fù)雜,不過(guò)熟悉了語(yǔ)法的話也不失為一種優(yōu)秀的解析手段,因?yàn)椤?/p>
安裝途徑: pip install lxml
四種方式總結(jié)
正則表達(dá)式匹配不推薦,因?yàn)橐呀?jīng)有很多現(xiàn)成的庫(kù)可以直接用,不需要我們?nèi)ゴ罅慷x正則表達(dá)式,還沒法復(fù)用,在此僅作參考了解。
BeautifulSoup是基于DOM的方式,簡(jiǎn)單的說(shuō)就是會(huì)在解析時(shí)把整個(gè)網(wǎng)頁(yè)內(nèi)容加載到DOM樹里,內(nèi)存開銷和耗時(shí)都比較高,處理海量?jī)?nèi)容時(shí)不建議使用。不過(guò)BeautifulSoup不需要結(jié)構(gòu)清晰的網(wǎng)頁(yè)內(nèi)容,因?yàn)樗梢灾苯觙ind到我們想要的標(biāo)簽,如果對(duì)于一些HTML結(jié)構(gòu)不清晰的網(wǎng)頁(yè),它比較適合。
XPath是基于SAX的機(jī)制來(lái)解析,不會(huì)像BeautifulSoup去加載整個(gè)內(nèi)容到DOM里,而是基于事件驅(qū)動(dòng)的方式來(lái)解析內(nèi)容,更加輕巧。不過(guò)XPath要求網(wǎng)頁(yè)結(jié)構(gòu)需要清晰,而且開發(fā)難度比DOM解析的方式高一點(diǎn),推薦在需要解析效率時(shí)使用。
requests-html 是比較新的一個(gè)庫(kù),高度封裝且源碼清晰,它直接整合了大量解析時(shí)繁瑣復(fù)雜的操作,同時(shí)支持DOM解析和XPath解析兩種方式,靈活方便,這是我目前用得較多的一個(gè)庫(kù)。
除了以上介紹到幾種網(wǎng)頁(yè)內(nèi)容解析方式之外還有很多解析手段,在此不一一進(jìn)行介紹了。
寫一個(gè)爬蟲,最重要的兩點(diǎn)就是如何抓取數(shù)據(jù),如何解析數(shù)據(jù),我們要活學(xué)活用,在不同的時(shí)候利用最有效的工具去完成我們的目的。
上述內(nèi)容就是Python爬蟲解析網(wǎng)頁(yè)的4種方式分別是什么,你們學(xué)到知識(shí)或技能了嗎?如果還想學(xué)到更多技能或者豐富自己的知識(shí)儲(chǔ)備,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。