今天就跟大家聊聊有關太行山有Python爬取微博數(shù)據(jù),可能很多人都不太了解,為了讓大家更加了解,小編給大家總結了以下內容,希望大家根據(jù)這篇文章可以有所收獲。
創(chuàng)新互聯(lián)是一家集網(wǎng)站建設,信陽企業(yè)網(wǎng)站建設,信陽品牌網(wǎng)站建設,網(wǎng)站定制,信陽網(wǎng)站建設報價,網(wǎng)絡營銷,網(wǎng)絡優(yōu)化,信陽網(wǎng)站推廣為一體的創(chuàng)新建站企業(yè),幫助傳統(tǒng)企業(yè)提升企業(yè)形象加強企業(yè)競爭力。可充分滿足這一群體相比中小企業(yè)更為豐富、高端、多元的互聯(lián)網(wǎng)需求。同時我們時刻保持專業(yè)、時尚、前沿,時刻以成就客戶成長自我,堅持不斷學習、思考、沉淀、凈化自己,讓我們?yōu)楦嗟钠髽I(yè)打造出實用型網(wǎng)站。
爬蟲的最大功能之一就是整合數(shù)據(jù),能弄到更全面的信息,真正做好大數(shù)據(jù)的分析,在這個數(shù)據(jù)說話的年代,影響是決定性的。(注意別侵權)
?思路流程
1、利用chrome瀏覽器,獲取自己的cookie。
2、獲取你要爬取的用戶的微博User_id
3、將獲得的兩項內容填入到weibo.py中,替換代碼中的YOUR_USER_ID和#YOUR_COOKIE,運行代碼。
?完整代碼
import requestsimport reimport pandas as pdimport time as tmimport random# ------------------------id = "2304132803301701"timedata = []for p in range(1,3): page = str(p) url = "https://m.weibo.cn/api/container/getIndex?containerid=" + id + "_-_WEIBO_SECOND_PROFILE_WEIBO&luicode=10000011&lfid=" + id + "&page_type=03&page=" + page data = requests.get(url) data_text = data.text data_num = re.findall(r'\"mid\"\:\"(\d{16})\"', data_text) num = len(data_num) for i in range(0,num): url_detail = "https://m.weibo.cn/detail/" + data_num[i] html = requests.get(url_detail) time = re.search(r'\"created_at\"\:\s\"(\w\w\w\s\w\w\w\s\d\d\s\d\d\:\d\d\:\d\d)\s\+\d{4}\s\d{4}\"', html.text) timedata.append(time.group(1)) tm.sleep(random.uniform(1,4)) #反爬間隔 print("采集第%d頁第%d條微博數(shù)據(jù)"%(p,i))name =["time"]data_save = pd.DataFrame(columns=name, data=timedata)data_save.to_csv('./data.csv')
用wordcloud等軟件生成詞云,它會根據(jù)信息的頻率、權重按比列顯示關鍵字的字體大小。
看完上述內容,你們對太行山有Python爬取微博數(shù)據(jù)有進一步的了解嗎?如果還想了解更多知識或者相關內容,請關注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝大家的支持。