這篇文章主要講解了“怎么用python爬蟲(chóng)爬取人人網(wǎng)上面的信息”,文中的講解內(nèi)容簡(jiǎn)單清晰,易于學(xué)習(xí)與理解,下面請(qǐng)大家跟著小編的思路慢慢深入,一起來(lái)研究和學(xué)習(xí)“怎么用python爬蟲(chóng)爬取人人網(wǎng)上面的信息”吧!
超過(guò)十年行業(yè)經(jīng)驗(yàn),技術(shù)領(lǐng)先,服務(wù)至上的經(jīng)營(yíng)模式,全靠網(wǎng)絡(luò)和口碑獲得客戶,為自己降低成本,也就是為客戶降低成本。到目前業(yè)務(wù)范圍包括了:網(wǎng)站建設(shè)、網(wǎng)站制作,成都網(wǎng)站推廣,成都網(wǎng)站優(yōu)化,整體網(wǎng)絡(luò)托管,小程序定制開(kāi)發(fā),微信開(kāi)發(fā),app軟件定制開(kāi)發(fā),同時(shí)也可以讓客戶的網(wǎng)站和網(wǎng)絡(luò)營(yíng)銷和我們一樣獲得訂單和生意!requests 提供了一個(gè)叫做session類,來(lái)實(shí)現(xiàn)客戶端和服務(wù)端的會(huì)話保持
使用方法
1.實(shí)例化一個(gè)session對(duì)象
2.讓session發(fā)送get或者post請(qǐng)求
session = requests.session() session.get(url,headers)
下面就用人人網(wǎng)來(lái)實(shí)戰(zhàn)一下
# coding=utf-8 import requests session = requests.session() # 登錄的表單url post_url = "http://www.renren.com/PLogin.do" post_data = {"email": "your_email", "password": "your_password"} headers = { "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36" } # 使用session發(fā)送post請(qǐng)求,cookie保存在其中 session.post(post_url, data=post_data, headers=headers) # 在使用session進(jìn)行請(qǐng)求登陸之后才能訪問(wèn)的地址 # 這是個(gè)人首頁(yè)url r = session.get("http://www.renren.com/327550088/profile", headers=headers) # 保存頁(yè)面到本地 with open("renren1.html", "w", encoding="utf-8") as f: f.write(r.content.decode('utf-8'))
就這么簡(jiǎn)單,模擬登錄上人人網(wǎng)并且獲取了個(gè)人首頁(yè)信息頁(yè)面保存到本地。
其實(shí)網(wǎng)站記錄登錄狀態(tài)就是通過(guò)cookie里面攜帶的信息,如果我們發(fā)送請(qǐng)求的時(shí)候帶上登錄的cookie能不能夠訪問(wèn)到只有登錄才能訪問(wèn)的頁(yè)面,當(dāng)然是可以的
請(qǐng)看代碼
# coding=utf-8 import requests headers = { "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36", "Cookie":"你的登錄cookie" } r = requests.get("http://www.renren.com/327550088/profile",headers=headers) #保存頁(yè)面 with open("renren2.html","w",encoding="utf-8") as f: f.write(r.content.decode())
可以看到, Cookie 可以放在 headers 中,其實(shí) requests 中也有一個(gè)參數(shù)用來(lái)傳遞cookie,這個(gè)參數(shù)就是 cookies
請(qǐng)看代碼
# 字典生成器的用法 cookies = {i.split("=")[0]:i.split("=")[1] for i in cookies.split("; ")} print(cookies) r = requests.get("http://www.renren.com/327550088/profile",headers=headers,cookies=cookies)
感謝各位的閱讀,以上就是“怎么用python爬蟲(chóng)爬取人人網(wǎng)上面的信息”的內(nèi)容了,經(jīng)過(guò)本文的學(xué)習(xí)后,相信大家對(duì)怎么用python爬蟲(chóng)爬取人人網(wǎng)上面的信息這一問(wèn)題有了更深刻的體會(huì),具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是創(chuàng)新互聯(lián),小編將為大家推送更多相關(guān)知識(shí)點(diǎn)的文章,歡迎關(guān)注!