這篇文章主要為大家展示了“beautifulsoup4庫怎么用”,內(nèi)容簡而易懂,條理清晰,希望能夠幫助大家解決疑惑,下面讓小編帶領(lǐng)大家一起研究并學(xué)習(xí)一下“beautifulsoup4庫怎么用”這篇文章吧。
為松陽等地區(qū)用戶提供了全套網(wǎng)頁設(shè)計制作服務(wù),及松陽網(wǎng)站建設(shè)行業(yè)解決方案。主營業(yè)務(wù)為做網(wǎng)站、成都做網(wǎng)站、松陽網(wǎng)站設(shè)計,以傳統(tǒng)方式定制建設(shè)網(wǎng)站,并提供域名空間備案等一條龍服務(wù),秉承以專業(yè)、用心的態(tài)度為用戶提供真誠的服務(wù)。我們深信只要達(dá)到每一位用戶的要求,就會得到認(rèn)可,從而選擇與我們長期合作。這樣,我們也可以走得更遠(yuǎn)!使用requests庫獲取HTML頁面并將其轉(zhuǎn)化成字符串后,需要進(jìn)一步解析HTML頁面格式,提取有用信息,這需要處理HTML和XML的函數(shù)庫。beautifulsoup4庫,也成為BeautifulSoup庫或者bs4庫,用于解析和處理HTML和XML。需要注意的是,它不是BeautifulSoup庫。它的較大優(yōu)點是能根據(jù)HTML和XML語法建立解析樹,進(jìn)而高效解析其中的內(nèi)容。beautifulsoup4庫采用面向?qū)ο笏枷雽崿F(xiàn),簡單地說,它把每個頁面當(dāng)作一個對象,通過< a>.< b>()的凡是調(diào)用方法(即處理函數(shù))。
head:HTML頁面的< head>內(nèi)容
title:HTML頁面標(biāo)題,在< head>之中,有< title>標(biāo)記
body:HTML頁面的< body>內(nèi)容
p:HTML頁面中第一個< p>內(nèi)容
strings:HTML頁面所有呈現(xiàn)在Web上的字符串,即標(biāo)簽的內(nèi)容
stripped_strings:HTML頁面所有呈現(xiàn)在Web上的非空格字符串
BeautifulSoup屬性與HTML的標(biāo)簽名稱相同,遠(yuǎn)不止這些。
標(biāo)簽對象的常用屬性:
name:字符串,標(biāo)簽的名字,比如div
attrs:字典,包含了原來頁面Tag所有的屬性,比如href
contents:列表,這個Tag下所有子Tag的內(nèi)容
string:字符串,Tag所包圍的文本,網(wǎng)頁中真是的文字,string屬性的返回值遵循如下原則:
(1)如果標(biāo)簽內(nèi)部沒有其他標(biāo)簽,string屬性返回其中的內(nèi)容。
(2)如果標(biāo)簽內(nèi)部還有其他標(biāo)簽,但只有一個標(biāo)簽,string屬性返回最里面標(biāo)簽的內(nèi)容。
(3)如果標(biāo)簽內(nèi)部有超過1層嵌套的標(biāo)簽,string屬性返回None(空字符串)。
BeautifulSoup其中的兩個方法(這兩個方法會遍歷整個HTML文檔,按照條件返回標(biāo)簽內(nèi)容):
BeautifulSboup.find_all(name,attrs,recursive,string,limit)
作用:根據(jù)參數(shù)找到對應(yīng)的標(biāo)簽,返回列表類型。參數(shù)如下:
name:按照tag標(biāo)簽,名字用字符串形式表示,例如div、li。
attrs:按照tag標(biāo)簽屬性值檢索,需要列出屬性名稱和值,采用JSON表示。
recursive:設(shè)置查找層次,只查找當(dāng)前標(biāo)簽下一層時使用recursive=False。
string:按照關(guān)鍵字檢索string屬性內(nèi)容,采用string=開始。
limit:返回結(jié)果的個數(shù),默認(rèn)返回全部結(jié)果。
簡單地說,BeautifulSoup的find_all()方法可以根據(jù)標(biāo)簽名字、標(biāo)簽屬性和內(nèi)容檢索并返回標(biāo)簽列表,通過片段字符串檢索時需要使用正則表達(dá)式re函數(shù)庫,re時Python標(biāo)準(zhǔn)庫,直接通過importre即可使用。采用re.comlile('jquery')實現(xiàn)對片段字符串(如‘jquery’)的檢索。當(dāng)對標(biāo)簽屬性檢索時,屬性和對應(yīng)的值采用JSON格式,例如:'src':re.compile('jquery'),其中,鍵值對中值的部分可以是字符串或者正則表達(dá)式。
除了find_all()方法,BeautifulSoup類還提供一個find()方法,它們的區(qū)別只是前者返回全部結(jié)果而后者返回找到的第一個結(jié)果,find_all()函數(shù)由于可能返回更多結(jié)果,所以采用列表形式:find()函數(shù)返回字符串形式。
BeautifulSoup.find(name,attrs,recursive,string)
作用:根據(jù)參數(shù)找到對應(yīng)標(biāo)簽,采用字符串返回找到的第一個值。
參數(shù):與find_all()方法一樣。
以上是“beautifulsoup4庫怎么用”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對大家有所幫助,如果還想學(xué)習(xí)更多知識,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!