真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

使用爬蟲遇到的一些問題

本博客會記錄博主在使用爬蟲過程中遇到的問題，不斷更新，希望以后再遇到這些問題的時候，可以快速解決。

創(chuàng)新互聯(lián)是一家集網(wǎng)站建設(shè),麻山企業(yè)網(wǎng)站建設(shè),麻山品牌網(wǎng)站建設(shè),網(wǎng)站定制,麻山網(wǎng)站建設(shè)報價,網(wǎng)絡(luò)營銷,網(wǎng)絡(luò)優(yōu)化,麻山網(wǎng)站推廣為一體的創(chuàng)新建站企業(yè)，幫助傳統(tǒng)企業(yè)提升企業(yè)形象加強企業(yè)競爭力?？沙浞譂M足這一群體相比中小企業(yè)更為豐富、高端、多元的互聯(lián)網(wǎng)需求。同時我們時刻保持專業(yè)、時尚、前沿，時刻以成就客戶成長自我，堅持不斷學(xué)習(xí)、思考、沉淀、凈化自己，讓我們?yōu)楦嗟钠髽I(yè)打造出實用型網(wǎng)站。

1、在爬取和訊博客的時候發(fā)現(xiàn)閱讀數(shù)和評論數(shù)無法正常讀取。通過抓包工具抓取到了閱讀數(shù)和評論數(shù)的URL，但是復(fù)制到瀏覽器上打開發(fā)現(xiàn)一片空白。在抓包工具Raw里發(fā)現(xiàn)，有一項Refere，后面將此項加到headers信息里，數(shù)據(jù)可以正常顯示出來了。代碼如下：

import urllib.request

url='http://click.tool.hexun.com/click.aspx?articleid=116367158&blogid=19050645'

data={

"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36",
"Referer":"http://27783968.blog.hexun.com/116367158_d.html",

}

request=urllib.request.Request(url,headers = data)
data=urllib.request.urlopen(request).read().decode("utf-8","ignore")
print(data)

此次難點在于不熟悉urllib庫是如何添加更多的請求信息到heagers里，在以上代碼中，data里還可以添加更加多的請求，比如cookie等信息，記錄此次代碼的目的在于熟悉urllib.request.Reques的用法

網(wǎng)站欄目：使用爬蟲遇到的一些問題
本文來源：http://weahome.cn/article/pijjed.html