這篇文章主要介紹“怎么用Python爬取B站動(dòng)漫番劇更新信息”,在日常操作中,相信很多人在怎么用Python爬取B站動(dòng)漫番劇更新信息問(wèn)題上存在疑惑,小編查閱了各式資料,整理出簡(jiǎn)單好用的操作方法,希望對(duì)大家解答”怎么用Python爬取B站動(dòng)漫番劇更新信息”的疑惑有所幫助!接下來(lái),請(qǐng)跟著小編一起來(lái)學(xué)習(xí)吧!
成都創(chuàng)新互聯(lián) - 棕樹(shù)數(shù)據(jù)中心,四川服務(wù)器租用,成都服務(wù)器租用,四川網(wǎng)通托管,綿陽(yáng)服務(wù)器托管,德陽(yáng)服務(wù)器托管,遂寧服務(wù)器托管,綿陽(yáng)服務(wù)器托管,四川云主機(jī),成都云主機(jī),西南云主機(jī),棕樹(shù)數(shù)據(jù)中心,西南服務(wù)器托管,四川/成都大帶寬,成都機(jī)柜租用,四川老牌IDC服務(wù)商
目標(biāo):爬取b站番劇最近更新
輸出格式:名字+播放量+簡(jiǎn)介
那么開(kāi)始擼吧~
用到的類(lèi)庫(kù):
requests:網(wǎng)絡(luò)請(qǐng)求
pyquery:解析xml文檔,像使用jquery一樣簡(jiǎn)單哦~
目標(biāo)url:
https://bangumi.bilibili.com/22/
設(shè)計(jì)video類(lèi):
import requests from pyquery import PyQuery as pq class Video(object): def __init__(self,name,see,intro): self.name=name self.see=see self.intro=intro def __str__(self): return "{}--{}--{}".format(self.name,self.see,self.intro)
分析完頁(yè)面,設(shè)取爬去類(lèi):
class bilibili(object): host="https://bangumi.bilibili.com" def __init__(self): self.dom=pq(requests.get('https://bangumi.bilibili.com/22/').text) def get_recent(self): '''最近更新''' items=self.dom('#list_bangumi_new .c-list .new .c-item') videos=[] for i in items: name=i.find('.r-i .t').attr('title') link=self.host+i.find('.r-i .t').attr('href') d=pq(requests.get(url=link).text) see=d(".info-count .info-count-item").eq(1).find('em').text() intro=d('.info-row').eq(3).find('.info-desc').text() videos.append(Video(name=name,see=see,intro=intro)) return videos
哎呀,怎么回事,居然返回為空
這種情況下不要慌,如果代碼沒(méi)有錯(cuò)誤,那么一般是由兩種情況造成
沒(méi)有選擇到目標(biāo),頁(yè)面是js動(dòng)態(tài)加載的
我們先試下第一種情況,打開(kāi)瀏覽器,f12,將選擇字符串復(fù)制到console中運(yùn)行下,我們這就是
$('#list_bangumi_new .c-list .new .c-item')
這是一個(gè)item的信息,里面有我們想要的名字信息,那接下來(lái)就是去詳情頁(yè)尋找播放量和簡(jiǎn)介了,但是詳情頁(yè)鏈接在哪那,剛剛那個(gè)接口里并沒(méi)有,我們f12,審查一下元素。
這里的鏈接是/anime/6439,剛剛的接口里并沒(méi)有這個(gè)信息啊,那這個(gè)信息應(yīng)該就是拼接出來(lái)的了,關(guān)鍵就是6439這個(gè)數(shù)字了,去剛剛那個(gè)接口信息里尋找一下,果然找到了一個(gè)season_id字段符合,那么詳情頁(yè)鏈接就構(gòu)造如下:
detail_url = "https://bangumi.bilibili.com/anime/{season_id}"
那么接下來(lái)就是去分析詳情頁(yè),爬去我們想要播放量和簡(jiǎn)介信息了,構(gòu)造爬去代碼如下:
see = d(".info-count .info-count-item").eq(1).find('em').text() intro = d('.info-desc-wrp').find('.info-desc').text()
那么最終爬取類(lèi)關(guān)鍵代碼如下:
class bilibili(object): recent_url = "https://bangumi.bilibili.com/api/timeline_v2_global" # 最近更新 detail_url = "https://bangumi.bilibili.com/anime/{season_id}" def __init__(self): self.dom=pq(requests.get('https://bangumi.bilibili.com/22/').text) def get_recent(self): '''最近更新''' items=json.loads(requests.get(self.recent_url).text)['result'] videos=[] for i in items: name=i['title'] link=self.detail_url.format(season_id=i['season_id']) d=pq(requests.get(url=link).text) see = d(".info-count .info-count-item").eq(1).find('em').text() intro = d('.info-desc-wrp').find('.info-desc').text() videos.append(Video(name=name,see=see,intro=intro)) return videos
運(yùn)行一下:
很ok,那接下來(lái)把它做成命令行~
用到的類(lèi)庫(kù):
argparse:解析命令行參數(shù)
主要代碼如下:
if __name__ == '__main__': parser=argparse.ArgumentParser() parser.add_argument('--recent',help="get the recent info",action="store_true") parser.add_argument('--num',help="The number of results returned,default show all",type=int,default=0) parser.add_argument('-v','--version',help="show version",action="store_true") args=parser.parse_args() if args.version: print("bilibili 1.0") elif args.recent: b = bilibili() b.get_recent(args.num)
看下效果:
ok,大功告成,接下來(lái)大家就自由發(fā)揮添加更多的功能吧~:)
到此,關(guān)于“怎么用Python爬取B站動(dòng)漫番劇更新信息”的學(xué)習(xí)就結(jié)束了,希望能夠解決大家的疑惑。理論與實(shí)踐的搭配能更好的幫助大家學(xué)習(xí),快去試試吧!若想繼續(xù)學(xué)習(xí)更多相關(guān)知識(shí),請(qǐng)繼續(xù)關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編會(huì)繼續(xù)努力為大家?guī)?lái)更多實(shí)用的文章!