真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

使用python爬蟲怎么爬取百度音樂-創(chuàng)新互聯(lián)

今天就跟大家聊聊有關(guān)使用python爬蟲怎么爬取百度音樂，可能很多人都不太了解，為了讓大家更加了解，小編給大家總結(jié)了以下內(nèi)容，希望大家根據(jù)這篇文章可以有所收獲。

創(chuàng)新互聯(lián)建站為您提適合企業(yè)的網(wǎng)站設(shè)計?讓您的網(wǎng)站在搜索引擎具有高度排名，讓您的網(wǎng)站具備超強的網(wǎng)絡(luò)競爭力！結(jié)合企業(yè)自身，進行網(wǎng)站設(shè)計及把握，最后結(jié)合企業(yè)文化和具體宗旨等，才能創(chuàng)作出一份性化解決方案。從網(wǎng)站策劃到成都網(wǎng)站設(shè)計、做網(wǎng)站，我們的網(wǎng)頁設(shè)計師為您提供的解決方案。

如圖，筆者此次爬取的是百度音樂的頁面，所爬取的類容是上面榜單下的所有內(nèi)容（歌曲名，歌手，排名）。如果按照上次的爬蟲的方法便要寫上三個select方法，分別抓取歌曲名，歌手，排名，但筆者觀察得知這三項數(shù)據(jù)皆放在一個li標(biāo)簽內(nèi)，如圖：

使用python爬蟲怎么爬取百度音樂

這樣我們是不是直接抓取ul標(biāo)簽，再分析其中的數(shù)據(jù)便可得到全部數(shù)據(jù)了？答案是，當(dāng)然可以。

但Beaufulsoup不能直接提供這樣的方法，但Python無所不能，python里面自帶的re模塊是我見過最迷人的模塊之一。它能在字符串中找到我們讓我們roi的區(qū)域，上述的li標(biāo)簽中包含了我們需要的歌曲名，歌手，排名數(shù)據(jù)，我們只需要在li標(biāo)簽中通過re.findall()方法，便可找到我們需要的數(shù)據(jù)。這樣就能夠大大提升我們爬蟲的效率。

我們先來直接分析代碼：

def parse_one_page(html): 
 soup = BeautifulSoup(html, 'lxml') 
 data = soup.select('div.ranklist-wrapper.clearfix div.bd ul.song-list li') 
 pattern1 = re.compile(r'(.*?)

.*?title="(.*?)".*?title="(.*?)".*?', re.S) pattern2 = re.compile(r'(.*?)

.*?title="(.*?)".*?target="_blank">(.*?)', re.S) wants = [] for item in data: # print(item) final = re.findall(pattern1, str(item)) if len(final) == 1: # print(final[0]) wants.append(final[0]) else: other = re.findall(pattern2, str(item)) # print(other[0]) wants.append(other[0]) return wants

上面的代碼是我分析網(wǎng)頁數(shù)據(jù)的全部代碼，這里不得不說python語言的魅力，數(shù)十行代碼便能完成java100行的任務(wù)，C/C++1000行的任務(wù)。上述函數(shù)中，筆者首先通過Beautifulsoup得到該網(wǎng)頁的源代碼，再通過select()方法得到所有l(wèi)i標(biāo)簽中的數(shù)據(jù)。

到這里，這個爬蟲便要進入到最重要的環(huán)節(jié)了，相信很多不懂re模塊的童靴們有點慌張，在這里筆者真的是強烈推薦對python有興趣的童靴們一定要學(xué)習(xí)這個非常重要的一環(huán)。首先，我們知道re的方法大多只針對string型數(shù)據(jù)，因此我們調(diào)用str()方法將每個list中的數(shù)據(jù)（即item）轉(zhuǎn)換為string型。然后便是定義re的pattern了，這是個稍顯復(fù)雜的東西，其中主要用到re.compile()函數(shù)得到要在string中配對的pattern，這里筆者便不累述了，感興趣的童靴可以去網(wǎng)上查閱一下資料。

上述代碼中，筆者寫了兩個pattern，因為百度音樂的網(wǎng)頁里，li標(biāo)簽有兩個結(jié)構(gòu)，當(dāng)用一個pattern在li中找不到數(shù)據(jù)時，便使用另一個pattern。關(guān)于re.findadd()方法，它會返回一個list，里面裝著tuple，但其實我們知道我們找到的數(shù)據(jù)就是list[0]，再將每個數(shù)據(jù)添加到另一個List中，讓函數(shù)返回。

相信很多看到這里的小伙伴已經(jīng)云里霧里，無奈筆者對re板塊也知道的不多，對python感興趣的同學(xué)可以查閱相關(guān)資料再來看一下代碼，相信能夠如魚得水。

完整的代碼如下：

import requests 
from bs4 import BeautifulSoup 
import re 
 
 
def get_one_page(url): 
 wb_data = requests.get(url) 
 wb_data.encoding = wb_data.apparent_encoding 
 if wb_data.status_code == 200: 
  return wb_data.text 
 else: 
  return None 
 
 
def parse_one_page(html): 
 soup = BeautifulSoup(html, 'lxml') 
 data = soup.select('div.ranklist-wrapper.clearfix div.bd ul.song-list li') 
 pattern1 = re.compile(r'(.*?)

python可以做什么

Python是一種編程語言，內(nèi)置了許多有效的工具，Python幾乎無所不能，該語言通俗易懂、容易入門、功能強大，在許多領(lǐng)域中都有廣泛的應(yīng)用，例如最熱門的大數(shù)據(jù)分析，人工智能，Web開發(fā)等。

看完上述內(nèi)容，你們對使用python爬蟲怎么爬取百度音樂有進一步的了解嗎？如果還想了解更多知識或者相關(guān)內(nèi)容，請關(guān)注創(chuàng)新互聯(lián)成都網(wǎng)站設(shè)計公司行業(yè)資訊頻道，感謝大家的支持。

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn，海內(nèi)外云服務(wù)器15元起步，三天無理由+7*72小時售后在線，公司持有idc許可證，提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機、免備案服務(wù)器”等云主機租用服務(wù)以及企業(yè)上云的綜合解決方案，具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢，專為企業(yè)上云打造定制，能夠滿足用戶豐富、多元化的應(yīng)用場景需求。

http://weahome.cn/article/djhdgi.html