真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

beautifulsoup4庫(kù)怎么用

這篇文章主要為大家展示了“beautifulsoup4庫(kù)怎么用”,內(nèi)容簡(jiǎn)而易懂,條理清晰,希望能夠幫助大家解決疑惑,下面讓小編帶領(lǐng)大家一起研究并學(xué)習(xí)一下“beautifulsoup4庫(kù)怎么用”這篇文章吧。

創(chuàng)新互聯(lián)公司堅(jiān)持“要么做到,要么別承諾”的工作理念,服務(wù)領(lǐng)域包括:網(wǎng)站設(shè)計(jì)、做網(wǎng)站、企業(yè)官網(wǎng)、英文網(wǎng)站、手機(jī)端網(wǎng)站、網(wǎng)站推廣等服務(wù),滿足客戶于互聯(lián)網(wǎng)時(shí)代的扶溝網(wǎng)站設(shè)計(jì)、移動(dòng)媒體設(shè)計(jì)的需求,幫助企業(yè)找到有效的互聯(lián)網(wǎng)解決方案。努力成為您成熟可靠的網(wǎng)絡(luò)建設(shè)合作伙伴!

beautifulsoup4庫(kù)的使用

使用requests庫(kù)獲取HTML頁(yè)面并將其轉(zhuǎn)化成字符串后,需要進(jìn)一步解析HTML頁(yè)面格式,提取有用信息,這需要處理HTML和XML的函數(shù)庫(kù)。beautifulsoup4庫(kù),也成為BeautifulSoup庫(kù)或者bs4庫(kù),用于解析和處理HTML和XML。需要注意的是,它不是BeautifulSoup庫(kù)。它的最大優(yōu)點(diǎn)是能根據(jù)HTML和XML語(yǔ)法建立解析樹(shù),進(jìn)而高效解析其中的內(nèi)容。beautifulsoup4庫(kù)采用面向?qū)ο笏枷雽?shí)現(xiàn),簡(jiǎn)單地說(shuō),它把每個(gè)頁(yè)面當(dāng)作一個(gè)對(duì)象,通過(guò)< a>.< b>()的凡是調(diào)用方法(即處理函數(shù))。

BeautifulSoup中常用的一些屬性如下:

head:HTML頁(yè)面的< head>內(nèi)容

title:HTML頁(yè)面標(biāo)題,在< head>之中,有< title>標(biāo)記

body:HTML頁(yè)面的< body>內(nèi)容

p:HTML頁(yè)面中第一個(gè)< p>內(nèi)容

strings:HTML頁(yè)面所有呈現(xiàn)在Web上的字符串,即標(biāo)簽的內(nèi)容

stripped_strings:HTML頁(yè)面所有呈現(xiàn)在Web上的非空格字符串

BeautifulSoup屬性與HTML的標(biāo)簽名稱相同,遠(yuǎn)不止這些。

標(biāo)簽對(duì)象的常用屬性:

name:字符串,標(biāo)簽的名字,比如div

attrs:字典,包含了原來(lái)頁(yè)面Tag所有的屬性,比如href

contents:列表,這個(gè)Tag下所有子Tag的內(nèi)容

string:字符串,Tag所包圍的文本,網(wǎng)頁(yè)中真是的文字,string屬性的返回值遵循如下原則:

(1)如果標(biāo)簽內(nèi)部沒(méi)有其他標(biāo)簽,string屬性返回其中的內(nèi)容。

(2)如果標(biāo)簽內(nèi)部還有其他標(biāo)簽,但只有一個(gè)標(biāo)簽,string屬性返回最里面標(biāo)簽的內(nèi)容。

(3)如果標(biāo)簽內(nèi)部有超過(guò)1層嵌套的標(biāo)簽,string屬性返回None(空字符串)。

BeautifulSoup其中的兩個(gè)方法(這兩個(gè)方法會(huì)遍歷整個(gè)HTML文檔,按照條件返回標(biāo)簽內(nèi)容):

BeautifulSboup.find_all(name,attrs,recursive,string,limit)

作用:根據(jù)參數(shù)找到對(duì)應(yīng)的標(biāo)簽,返回列表類(lèi)型。參數(shù)如下:

name:按照tag標(biāo)簽,名字用字符串形式表示,例如div、li。

attrs:按照tag標(biāo)簽屬性值檢索,需要列出屬性名稱和值,采用JSON表示。

recursive:設(shè)置查找層次,只查找當(dāng)前標(biāo)簽下一層時(shí)使用recursive=False。

string:按照關(guān)鍵字檢索string屬性內(nèi)容,采用string=開(kāi)始。

limit:返回結(jié)果的個(gè)數(shù),默認(rèn)返回全部結(jié)果。

簡(jiǎn)單地說(shuō),BeautifulSoup的find_all()方法可以根據(jù)標(biāo)簽名字、標(biāo)簽屬性和內(nèi)容檢索并返回標(biāo)簽列表,通過(guò)片段字符串檢索時(shí)需要使用正則表達(dá)式re函數(shù)庫(kù),re時(shí)Python標(biāo)準(zhǔn)庫(kù),直接通過(guò)importre即可使用。采用re.comlile('jquery')實(shí)現(xiàn)對(duì)片段字符串(如‘jquery’)的檢索。當(dāng)對(duì)標(biāo)簽屬性檢索時(shí),屬性和對(duì)應(yīng)的值采用JSON格式,例如:'src':re.compile('jquery'),其中,鍵值對(duì)中值的部分可以是字符串或者正則表達(dá)式。

除了find_all()方法,BeautifulSoup類(lèi)還提供一個(gè)find()方法,它們的區(qū)別只是前者返回全部結(jié)果而后者返回找到的第一個(gè)結(jié)果,find_all()函數(shù)由于可能返回更多結(jié)果,所以采用列表形式:find()函數(shù)返回字符串形式。

BeautifulSoup.find(name,attrs,recursive,string)

作用:根據(jù)參數(shù)找到對(duì)應(yīng)標(biāo)簽,采用字符串返回找到的第一個(gè)值。

參數(shù):與find_all()方法一樣。

以上是“beautifulsoup4庫(kù)怎么用”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對(duì)大家有所幫助,如果還想學(xué)習(xí)更多知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!


網(wǎng)站名稱:beautifulsoup4庫(kù)怎么用
文章位置:http://weahome.cn/article/gdhdcc.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部