本篇內(nèi)容主要講解“Python怎么爬取網(wǎng)站音樂素材”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實(shí)用性強(qiáng)。下面就讓小編來帶大家學(xué)習(xí)“Python怎么爬取網(wǎng)站音樂素材”吧!
創(chuàng)新互聯(lián)公司是一家集網(wǎng)站建設(shè),興山企業(yè)網(wǎng)站建設(shè),興山品牌網(wǎng)站建設(shè),網(wǎng)站定制,興山網(wǎng)站建設(shè)報價,網(wǎng)絡(luò)營銷,網(wǎng)絡(luò)優(yōu)化,興山網(wǎng)站推廣為一體的創(chuàng)新建站企業(yè),幫助傳統(tǒng)企業(yè)提升企業(yè)形象加強(qiáng)企業(yè)競爭力??沙浞譂M足這一群體相比中小企業(yè)更為豐富、高端、多元的互聯(lián)網(wǎng)需求。同時我們時刻保持專業(yè)、時尚、前沿,時刻以成就客戶成長自我,堅(jiān)持不斷學(xué)習(xí)、思考、沉淀、凈化自己,讓我們?yōu)楦嗟钠髽I(yè)打造出實(shí)用型網(wǎng)站。
Python 3.6
Pycharm
import os import concurrent.futures import requests import parsel
安裝Python并添加到環(huán)境變量,pip安裝需要的相關(guān)模塊即可。
如果想要驗(yàn)證這個鏈接是否是音頻的真實(shí)下載地址,可以復(fù)制鏈接粘貼到新的窗口中。
https://downsc.chinaz.net/Files/DownLoad/sound1/202102/s830.mp3
老思路了,復(fù)制鏈接中的某些參數(shù)在開發(fā)者工具中進(jìn)行搜索,很明顯 s830 就是音頻的ID了。
搜索 s830 找到來源,發(fā)現(xiàn)網(wǎng)頁頁面中自帶有下載地址。獲取音頻下載地址之后需要自己拼接url。
網(wǎng)頁數(shù)據(jù)不復(fù)雜,相對而言還是比較簡單的。
1、請求當(dāng)前網(wǎng)頁數(shù)據(jù),獲取音頻地址以及音頻標(biāo)題
2、保存下載就可以了
獲取音頻ID以及音頻標(biāo)題
def main(html_url): html_data = get_response(html_url).text selector = parsel.Selector(html_data) lis = selector.css('#AudioList .container .audio-item') for li in lis: name = li.css('.name::text').get().strip() src = li.css('audio::attr(src)').get() audio_url = 'https:' + src save(name, audio_url) print(name, audio_url)
保存數(shù)據(jù)
def save(name, audio_url): header = { 'Upgrade-Insecure-Requests': '1', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36' } audio_content = requests.get(url=audio_url, headers=header).content path = 'audio\\' if not os.path.exists(path): os.mkdir(path) with open(path + name + '.mp3', mode='wb') as f: f.write(audio_content)
這里想要重新給一個headers參數(shù),不然會下載不了。代碼會一直運(yùn)行,但是沒有反應(yīng)
多線程爬取
if __name__ == '__main__': executor = concurrent.futures.ThreadPoolExecutor(max_workers=5) for page in range(1, 31): url = f'https://sc.chinaz.com/yinxiao/index_{page}.html' # main(url) executor.submit(main, url)
到此,相信大家對“Python怎么爬取網(wǎng)站音樂素材”有了更深的了解,不妨來實(shí)際操作一番吧!這里是創(chuàng)新互聯(lián)網(wǎng)站,更多相關(guān)內(nèi)容可以進(jìn)入相關(guān)頻道進(jìn)行查詢,關(guān)注我們,繼續(xù)學(xué)習(xí)!