Python中的BeautifulSoup模塊的用法

這篇文章主要介紹“Python中的Beautiful Soup模塊的用法”，在日常操作中，相信很多人在Python中的Beautiful Soup模塊的用法問題上存在疑惑，小編查閱了各式資料，整理出簡單好用的操作方法，希望對大家解答”Python中的Beautiful Soup模塊的用法”的疑惑有所幫助！接下來，請跟著小編一起來學習吧！

成都創(chuàng)新互聯(lián)是一家集網(wǎng)站建設,臨漳企業(yè)網(wǎng)站建設,臨漳品牌網(wǎng)站建設,網(wǎng)站定制,臨漳網(wǎng)站建設報價,網(wǎng)絡營銷,網(wǎng)絡優(yōu)化,臨漳網(wǎng)站推廣為一體的創(chuàng)新建站企業(yè)，幫助傳統(tǒng)企業(yè)提升企業(yè)形象加強企業(yè)競爭力?？沙浞譂M足這一群體相比中小企業(yè)更為豐富、高端、多元的互聯(lián)網(wǎng)需求。同時我們時刻保持專業(yè)、時尚、前沿，時刻以成就客戶成長自我，堅持不斷學習、思考、沉淀、凈化自己，讓我們?yōu)楦嗟钠髽I(yè)打造出實用型網(wǎng)站。

1.Beautiful Soup模塊的介紹

Beautiful Soup 是一個可以從HTML或XML文件中提取數(shù)據(jù)的Python庫，簡單來說，它能將HTML的標簽文件解析成樹形結(jié)構(gòu)，然后方便地獲取到指定標簽的對應屬性，還可以方便的實現(xiàn)全站點的內(nèi)容爬取和解析；
Beautiful Soup支持Python標準庫中的HTML解析器，還支持一些第三方的解析器，如果我們不安裝它，則 Python 會使用 Python默認的解析器；
lxml 是python的一個解析庫，支持HTML和XML的解析，html5lib解析器能夠以瀏覽器的方式解析，且生成HTML5文檔；

pip install beautifulsoup4
pip install html5lib
pip install lxml

2. Beautiful Soup模塊解析HTML文檔

假如現(xiàn)在有一段不完整的HTML代碼，我們現(xiàn)在要使用Beautiful Soup模塊來解析這段HTML代碼

data = '''                                         
The Dormouse's story                                             
The Dormouse's story   
Once upon a time there were three 
        
...                           
'''

首先需要導入BeautifulSoup模塊，再實例化BeautifulSoup對象

from bs4 import BeautifulSoup           
soup = BeautifulSoup(data,'lxml')

然后通過BeautifulSoup提供的方法就可以拿到HTML的元素、屬性、鏈接、文本等，BeautifulSoup模塊可以將不完整的HTML文檔，格式化為完整的HTML文檔，比如我們打印print(soup.prettify())看一下輸出什么？


 
  
   The Dormouse's story
  
 
 
  
   
    The Dormouse's story
   
  
  
   Once upon a time there were three
   
    
     ...

獲取標簽，如title標簽，a標簽等

print('title = {}'.format(soup.title))             
# 輸出：title = The Dormouse's story
print('a={}'.format(soup.a))

獲取標簽的名稱，如title標簽，body標簽等

print('title_name = {}'.format(soup.title.name))
# 輸出：title_name = title
print('body_name = {}'.format(soup.body.name))
# 輸出：body_name = body

獲取標簽的內(nèi)容，如title標簽

print('title_string = {}'.format(soup.title.string))
#  輸出：title_string = The Dormouse's story

如果想要獲取某個標簽的父標簽的名稱，可以使用parent，如title標簽，可以得到父標簽head標簽，且會自定補齊不完整的標簽；

print('title_pareat_name = {}'.format(soup.title.parent))
# 輸出：title_pareat_name = The Dormouse's story

獲取第一個p標簽

print('p = {}'.format(soup.p))
# 輸出：p = The Dormouse's story

獲取第一個p標簽的class的值，獲取第一個a標簽的class值

print('p_class = {}'.format(soup.p["class"]))
# 輸出：p_class = ['title']
print('a_class = {}'.format(soup.a["class"]))
# 輸出：a_class = ['sister']

獲取所有的標簽

#  獲取所有的a標簽
print('a = {}'.format(soup.find_all('a')))
#  獲取所有的p標簽  
print('p = {}'.format(soup.find_all('p')))

獲取id為link3的標簽

print('a_link = {}'.format(soup.find(id='title')))
# 輸出：a_link = The Dormouse's story

3.BeautifulSoup中的對象

BeautifulSoup對象分為四類，分別是Tag(獲取標簽), NavigableString(獲取標簽內(nèi)容) , BeautifulSoup(根標簽), Comment(標簽內(nèi)的所有的文本) ；

語法：

soup.標簽名：獲取HTML中的標簽；
soup.標簽名.name：獲取HTML中標簽的名稱；
soup.標簽名.attrs：獲取標簽的所有屬性；
soup.標簽名.string：獲取HTML中標簽的文本內(nèi)容；
soup.標簽名.parent：獲取HTML中標簽的父標簽；
prettify()方法：可以將Beautiful Soup的文檔樹格式化后以Unicode編碼輸出，每個XML/HTML標簽都獨占一行；

4.遍歷文檔

contents：獲取所有子節(jié)點，返回一個列表，可以通過下標取值；

soup = BeautifulSoup(html,"lxml")
# 返回一個列表
print(soup.p.contents)
# 拿到第一個子節(jié)點
print(soup.p.contents[0])

children：返回子節(jié)點的生成器對象；

for tag in soup.p.children:
    print(tag)

soup.strings：獲取所有節(jié)點的內(nèi)容，包括空格；

soup = BeautifulSoup(html,"lxml")
for content in soup.strings:
    print(repr(content))

soup.stripped_strings：獲取所有節(jié)點的內(nèi)容，不包括空格；

soup = BeautifulSoup(html,"lxml")
for tag in soup.stripped_strings:
    print(repr(tag))

5.查找標簽

find_all()：查找所有指定標簽名稱的子節(jié)點（可同時查找多個標簽），并判斷是否符合過濾器的條件，返回一個列表；

soup = BeautifulSoup(html,"lxml")
print(soup.find_all('a'))
print(soup.find_all(['a','p']))
print(soup.find_all(re.compile('^a')))

find()：和find_all()差不多，但是find_all() 方法的返回結(jié)果是值包含一個元素的列表，而 find() 方法直接返回結(jié)果；

soup = BeautifulSoup(html,"lxml")
print(soup.find('a'))

到此，關于“Python中的Beautiful Soup模塊的用法”的學習就結(jié)束了，希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習，快去試試吧！若想繼續(xù)學習更多相關知識，請繼續(xù)關注創(chuàng)新互聯(lián)網(wǎng)站，小編會繼續(xù)努力為大家?guī)砀鄬嵱玫奈恼拢?/p>
本文題目：Python中的BeautifulSoup模塊的用法
分享鏈接：http://weahome.cn/article/pecpij.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

Python中的BeautifulSoup模塊的用法

1.Beautiful Soup模塊的介紹

2. Beautiful Soup模塊解析HTML文檔

3.BeautifulSoup中的對象

4.遍歷文檔

5.查找標簽

其他資訊

網(wǎng)站制作

企業(yè)服務

網(wǎng)站建設

服務器托管