python里bs4的使用方法-創(chuàng)新互聯(lián)

創(chuàng)新互聯(lián)www.cdcxhl.cn八線動(dòng)態(tài)BGP香港云服務(wù)器提供商，新人活動(dòng)買多久送多久，劃算不套路！

在成都做網(wǎng)站、成都網(wǎng)站建設(shè)中從網(wǎng)站色彩、結(jié)構(gòu)布局、欄目設(shè)置、關(guān)鍵詞群組等細(xì)微處著手，突出企業(yè)的產(chǎn)品/服務(wù)/品牌，幫助企業(yè)鎖定精準(zhǔn)用戶，提高在線咨詢和轉(zhuǎn)化，使成都網(wǎng)站營銷成為有效果、有回報(bào)的無錫營銷推廣。創(chuàng)新互聯(lián)專業(yè)成都網(wǎng)站建設(shè)10余年了，客戶滿意度97.8%，歡迎成都創(chuàng)新互聯(lián)客戶聯(lián)系。

python里bs4的使用方法？這個(gè)問題可能是我們?nèi)粘W(xué)習(xí)或工作經(jīng)常見到的。希望通過這個(gè)問題能讓你收獲頗深。下面是小編給大家?guī)淼膮⒖純?nèi)容，讓我們一起來看看吧！

bs4 全名 BeautifulSoup，是編寫 python 爬蟲常用庫之一，主要用來解析 html 標(biāo)簽。

初始化

from bs4 import BeautifulSoup

soup = BeautifulSoup("A Html Text", "html.parser")

兩個(gè)參數(shù)：第一個(gè)參數(shù)是要解析的html文本，第二個(gè)參數(shù)是使用那種解析器，對(duì)于HTML來講就是html.parser，這個(gè)是bs4自帶的解析器。如果一段HTML或XML文檔格式不正確的話，那么在不同的解析器中返回的結(jié)果可能是不一樣的。

python里bs4的使用方法

對(duì)象

Beautfiful Soup將復(fù)雜HTML文檔轉(zhuǎn)換成一個(gè)復(fù)雜的樹形結(jié)構(gòu)，每個(gè)節(jié)點(diǎn)都是Python對(duì)象，所有對(duì)象可以歸納為4種：tag，NavigableString，BeautifulSoup，Comment。

tag

Tag對(duì)象與 xml 或 html 原生文檔中的 tag 相同。

soup = BeautifulSoup('Extremely bold')

tag = soup.b

type(tag)

#

如果不存在，則返回 None，如果存在多個(gè)，則返回第一個(gè)。

name

每個(gè) tag 都有自己的名字

tag.name
# 'b'

attributes

tag 的屬性是一個(gè)字典

tag['class']
# 'boldest'

tag.attrs
# {'class': 'boldest'}

type(tag.attrs)
#

兩點(diǎn)注意事項(xiàng)

1、python3不再有urllib2，取而代之的是urllib.request，因此把在Python2中使用urllib2的地方全部替代為urllib.request即可
2、from BeautifulSoup import BeautifulSoup 總是會(huì)出錯(cuò)，替換為from bs4 import BeautifulSoup即可

當(dāng)然，文檔的節(jié)點(diǎn)不止這些，還有其他很多的節(jié)點(diǎn)。

感謝各位的閱讀！看完上述內(nèi)容，你們對(duì)python里bs4的使用方法大概了解了嗎？希望文章內(nèi)容對(duì)大家有所幫助。如果想了解更多相關(guān)文章內(nèi)容，歡迎關(guān)注創(chuàng)新互聯(lián)-成都網(wǎng)站建設(shè)公司行業(yè)資訊頻道。

當(dāng)前文章：python里bs4的使用方法-創(chuàng)新互聯(lián)
文章源于：http://weahome.cn/article/ieocd.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

python里bs4的使用方法-創(chuàng)新互聯(lián)

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管