真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

怎么使用python爬取B站千萬(wàn)級(jí)數(shù)據(jù)-創(chuàng)新互聯(lián)

小編給大家分享一下怎么使用python爬取B站千萬(wàn)級(jí)數(shù)據(jù),相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!

創(chuàng)新互聯(lián)-專(zhuān)業(yè)網(wǎng)站定制、快速模板網(wǎng)站建設(shè)、高性?xún)r(jià)比新余網(wǎng)站開(kāi)發(fā)、企業(yè)建站全套包干低至880元,成熟完善的模板庫(kù),直接使用。一站式新余網(wǎng)站制作公司更省心,省錢(qián),快速模板網(wǎng)站建設(shè)找我們,業(yè)務(wù)覆蓋新余地區(qū)。費(fèi)用合理售后完善,10年實(shí)體公司更值得信賴(lài)。

Python支持命令式程序設(shè)計(jì)、面向?qū)ο蟪绦蛟O(shè)計(jì)、函數(shù)式編程、面向切面編程、泛型編程多種編程范式。與Scheme、Ruby、Perl、Tcl等動(dòng)態(tài)語(yǔ)言一樣,Python具備垃圾回收功能,能夠自動(dòng)管理存儲(chǔ)器使用。它經(jīng)常被當(dāng)作腳本語(yǔ)言用于處理系統(tǒng)管理任務(wù)和網(wǎng)絡(luò)程序編寫(xiě),然而它也非常適合完成各種高級(jí)任務(wù)。Python虛擬機(jī)本身幾乎可以在所有的作業(yè)系統(tǒng)中運(yùn)行。使用一些諸如py2exe、PyPy、PyInstaller之類(lèi)的工具可以將Python源代碼轉(zhuǎn)換成可以脫離Python解釋器運(yùn)行的程序。

怎么使用python爬取B站千萬(wàn)級(jí)數(shù)據(jù)

粉絲獨(dú)白

說(shuō)起熱門(mén)的B站相信很多喜歡玩動(dòng)漫的,看最有創(chuàng)意的Up主的同學(xué)一定非常熟悉。我突發(fā)奇想學(xué)Python這么久了,為啥不用Python爬取B站中我關(guān)注的人,已經(jīng)關(guān)注的人他們關(guān)注的人,看看全站里面熱門(mén)的UP主都是是哪些。

要點(diǎn):

- 爬取10萬(wàn)用戶(hù)數(shù)據(jù)

- 數(shù)據(jù)存儲(chǔ)

- 數(shù)據(jù)詞云分析

1.準(zhǔn)備階段

寫(xiě)代碼前先構(gòu)思思路:既然我要爬取用戶(hù)關(guān)注的用戶(hù),那我需要存儲(chǔ)用戶(hù)之間的關(guān)系,確定誰(shuí)是主用戶(hù),誰(shuí)是follower。

存儲(chǔ)關(guān)系使用數(shù)據(jù)庫(kù)最方便,也有利于后期的數(shù)據(jù)分析,我選擇sqlite數(shù)據(jù)庫(kù),因?yàn)镻ython自帶sqlite,sqlite在Python中使用起來(lái)也非常方便。

數(shù)據(jù)庫(kù)中需要2個(gè)表,一個(gè)表存儲(chǔ)用戶(hù)的相互關(guān)注信息,另一個(gè)表存儲(chǔ)用戶(hù)的基本信息,在B站的用戶(hù)體系中,一個(gè)用戶(hù)的mid號(hào)是唯一的。

然后我還需要一個(gè)列表來(lái)存儲(chǔ)所以已經(jīng)爬取的用戶(hù),防止重復(fù)爬取,畢竟用戶(hù)之間相互關(guān)注的現(xiàn)象也是存在的,列表中存用戶(hù)的mid號(hào)就可以了。

2.新建數(shù)據(jù)庫(kù)

先寫(xiě)建數(shù)據(jù)庫(kù)的代碼,數(shù)據(jù)庫(kù)中放一個(gè)用戶(hù)表,一個(gè)關(guān)系表:

怎么使用python爬取B站千萬(wàn)級(jí)數(shù)據(jù)

3.爬取前5頁(yè)的用戶(hù)數(shù)據(jù)

我需要找到B站用戶(hù)的關(guān)注列表的json接口,很快就找到了,地址是:

https://api.bilibili.com/x/relation/followings?vmid=2&pn=1&ps=20&order=desc&jsonp=jsonp&callback=__jp7

其中vimd=后的參數(shù)就是用戶(hù)的mid號(hào)

pn=1指用戶(hù)的關(guān)注的第一面用戶(hù),一面顯示20個(gè)用戶(hù)

因?yàn)锽站的隱私設(shè)置,一個(gè)人只能爬取其他人的前5頁(yè)關(guān)注,共100人。

怎么使用python爬取B站千萬(wàn)級(jí)數(shù)據(jù)

整個(gè)爬取頁(yè)面的思路比較簡(jiǎn)單,首先設(shè)置header,用requests庫(kù)進(jìn)行API請(qǐng)求,獲得關(guān)注的用戶(hù)數(shù)據(jù)列表。

我們爬取前5頁(yè),每一頁(yè)的數(shù)據(jù)進(jìn)行簡(jiǎn)單的處理,然后轉(zhuǎn)為字典數(shù)據(jù)進(jìn)行獲取mid,uname,sign3個(gè)維度的數(shù)據(jù),最后save()函數(shù)存入db.

怎么使用python爬取B站千萬(wàn)級(jí)數(shù)據(jù)

4.存入數(shù)據(jù)庫(kù)

我們數(shù)據(jù)集里面一共有2個(gè)表,一個(gè)用戶(hù)列表,用來(lái)存儲(chǔ)所以的用戶(hù)信息,一個(gè)是用戶(hù)之間的關(guān)注信息。

怎么使用python爬取B站千萬(wàn)級(jí)數(shù)據(jù)

5.探秘是熱門(mén)UP主

打算利用已經(jīng)爬取到本地的數(shù)據(jù)進(jìn)行詞云的生成,來(lái)看一下這10萬(wàn)用戶(hù)中共同的關(guān)注的哪些UP主出現(xiàn)的次數(shù)最多。

代碼的思路主要是從數(shù)據(jù)庫(kù)中獲取用戶(hù)的名字,重復(fù)的次數(shù)越多說(shuō)明越多的用戶(hù)關(guān)注,然后我使用fate的一張圖片作為詞云的mask圖片,最后生成詞云圖片。

怎么使用python爬取B站千萬(wàn)級(jí)數(shù)據(jù)

最后一起來(lái)看一下詞云圖

怎么使用python爬取B站千萬(wàn)級(jí)數(shù)據(jù)

可以看出蕾絲,暴走漫畫(huà),木魚(yú)水心,參透之C君,papi醬等B站大UP主都是熱門(mén)關(guān)注。

以上是“怎么使用python爬取B站千萬(wàn)級(jí)數(shù)據(jù)”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對(duì)大家有所幫助,如果還想學(xué)習(xí)更多知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!


本文標(biāo)題:怎么使用python爬取B站千萬(wàn)級(jí)數(shù)據(jù)-創(chuàng)新互聯(lián)
網(wǎng)站鏈接:http://weahome.cn/article/coicoh.html

其他資訊

在線咨詢(xún)

微信咨詢(xún)

電話咨詢(xún)

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部