真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

如何用Python爬取指定關(guān)鍵詞

這篇文章主要介紹了如何用Python爬取指定關(guān)鍵詞,具有一定借鑒價值,感興趣的朋友可以參考下,希望大家閱讀完這篇文章之后大有收獲,下面讓小編帶著大家一起了解一下。

在壺關(guān)等地區(qū),都構(gòu)建了全面的區(qū)域性戰(zhàn)略布局,加強發(fā)展的系統(tǒng)性、市場前瞻性、產(chǎn)品創(chuàng)新能力,以專注、極致的服務(wù)理念,為客戶提供網(wǎng)站制作、成都做網(wǎng)站 網(wǎng)站設(shè)計制作按需定制制作,公司網(wǎng)站建設(shè),企業(yè)網(wǎng)站建設(shè),品牌網(wǎng)站建設(shè),營銷型網(wǎng)站建設(shè),外貿(mào)網(wǎng)站建設(shè),壺關(guān)網(wǎng)站建設(shè)費用合理。

01分析頁面

我們此次選擇的是從移動端來對微博進行爬取。移動端的反爬就是信息校驗反爬蟲的cookie反爬蟲,所以我們首先要登陸獲取cookie。

如何用Python爬取指定關(guān)鍵詞

登陸過后我們就可以獲取到自己的cookie了,有不懂的小伙伴可以看這篇文章學(xué)會Cookie,解決登錄爬取的困擾!。然后我們來觀察用戶是如何搜索微博內(nèi)容的。

平時我們都是在這個地方輸入關(guān)鍵字,來進行搜索微博。

如何用Python爬取指定關(guān)鍵詞

我通過在開發(fā)者模式下對這個頁面觀察發(fā)現(xiàn),它每次對關(guān)鍵字發(fā)起請求后,就會返回一個XHR響應(yīng)。

如何用Python爬取指定關(guān)鍵詞

我們現(xiàn)在已經(jīng)找到數(shù)據(jù)真實存在的頁面了,那就可以進行爬蟲的常規(guī)操作了。

02數(shù)據(jù)采集

在上面我們已經(jīng)找到了數(shù)據(jù)存儲的真實網(wǎng)頁,現(xiàn)在我們只需對該網(wǎng)頁發(fā)起請求,然后提取數(shù)據(jù)即可。

01發(fā)起請求

通過對請求頭進行觀察,我們不難構(gòu)造出請求代碼。

如何用Python爬取指定關(guān)鍵詞

代碼如下:

key = input("請輸入爬取關(guān)鍵字:") for page in range(1,10):    params = (        ('containerid', f'100103type=1&q={key}'),        ('page_type', 'searchall'),        ('page', str(page)),    )     response = requests.get('https://m.weibo.cn/api/container/getIndex', headers=headers, params=params)

02提取數(shù)據(jù)

從上面我們觀察發(fā)現(xiàn)這個數(shù)據(jù)可以轉(zhuǎn)化成字典來進行爬取,但是經(jīng)過我實際測試發(fā)現(xiàn),用正則來提取是最為簡單方便的,所以這里展示的是正則提取的方式,有興趣的讀者可以嘗試用字典方式來提取數(shù)據(jù)。代碼如下:

r = response.text title = re.findall('"page_title":"(.*?)"',r) comments_count = re.findall('"comments_count":(.*?),',r) attitudes_count = re.findall('"attitudes_count":(.*?),',r) for i in range(len(title)):    print(eval(f"'{title[i]}'"),comments_count[i],attitudes_count[i])

在這里有一個小問題要注意,微博的標題是用Unicode編碼的,如果直接爬取存儲,將存儲的是Unicode編碼,在這里要感謝大佬—小明哥的幫助,志斌在網(wǎng)上搜了好多解決方法都沒有成功,最后小明哥一個簡單的函數(shù)就給解決了,實在是佩服!

解決方案:用eval()來輸出標題,就可以將Unicode轉(zhuǎn)換成漢字了。

感謝你能夠認真閱讀完這篇文章,希望小編分享的“如何用Python爬取指定關(guān)鍵詞”這篇文章對大家有幫助,同時也希望大家多多支持創(chuàng)新互聯(lián),關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,更多相關(guān)知識等著你來學(xué)習(xí)!


新聞標題:如何用Python爬取指定關(guān)鍵詞
文章URL:http://weahome.cn/article/pjssoo.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部