urllib.request庫(kù) 是 Python3 自帶的模塊(不需要下載,導(dǎo)入即可使用)
python 自帶的模塊庫(kù)文件都是在C:\Python\Lib目錄下(C:\Python是我Python的安裝目錄),python第三方模塊庫(kù)都是在C:\Python\Lib\site-packages 下。
urllib.request庫(kù)在windows下的路徑(C:\Python\Lib\urllib)。
成都網(wǎng)站建設(shè)、成都網(wǎng)站制作,成都做網(wǎng)站公司-成都創(chuàng)新互聯(lián)公司已向上千多家企業(yè)提供了,網(wǎng)站設(shè)計(jì),網(wǎng)站制作,網(wǎng)絡(luò)營(yíng)銷等服務(wù)!設(shè)計(jì)與技術(shù)結(jié)合,多年網(wǎng)站推廣經(jīng)驗(yàn),合理的價(jià)格為您打造企業(yè)品質(zhì)網(wǎng)站。
import urllib.request # 導(dǎo)入urllib.request 庫(kù)
response = urllib.request.urlopen("https://blog.51cto.com/alun51cto") # 向指定的url發(fā)送請(qǐng)求,并返回服務(wù)器響應(yīng)的類文件對(duì)象。urlopen方法支持重定向
# 服務(wù)器返回的類文件對(duì)象支持Python文件對(duì)象的操作方法,如read()方法讀取文件全部?jī)?nèi)容,返回字符串
html = response.read()
print(html) # 打印響應(yīng)的內(nèi)容
注:urllib.request 里的 urlopen()不支持構(gòu)造HTTP請(qǐng)求,不能給編寫的請(qǐng)求添加head,無法模擬真實(shí)的瀏覽器發(fā)送請(qǐng)求。
python的“User-agent”默認(rèn)的是client_version,而client_version = "Python-urllib/%s" % version。
urllib.request庫(kù)的urlopen()方法默認(rèn)的“User-agent”是本機(jī)Python的版本(User-agent:Python-urllib/3.4),對(duì)于服務(wù)器而言,一下就能識(shí)別出這是爬蟲。
urlopen()的參數(shù)就是一個(gè)url地址;但是如果需要執(zhí)行更復(fù)雜的操作,比如增加HTTP報(bào)頭,必須創(chuàng)建一個(gè) Request 實(shí)例來作為urlopen()的參數(shù);而需要訪問的url地址則作為 Request 實(shí)例的參數(shù)。
import urllib.request # url 作為Request()方法的參數(shù),構(gòu)造并返回一個(gè)Request對(duì)象
request = urllib.request.Request("https://blog.51cto.com/alun51cto") # Request對(duì)象作為urlopen()方法的參數(shù),發(fā)送給服務(wù)器并接收響應(yīng)
response = urllib.request.urlopen(request)
html = response.read()
print(html)
運(yùn)行結(jié)果:跟第一個(gè)代碼是一樣。
Request實(shí)例,除了必須要有 url 參數(shù)之外,還可以設(shè)置另外兩個(gè)參數(shù):
data:如果是GET請(qǐng)求,data(默認(rèn)空),如果是POST請(qǐng)求,需要加上data參數(shù),伴隨 url 提交的數(shù)據(jù)。
headers(默認(rèn)空):是一個(gè)字典,包含了需要發(fā)送的HTTP報(bào)頭的鍵值對(duì)。
通過抓包可以抓到https://blog.51cto.com/alun51cto 請(qǐng)求的head信息
【Host】:主域 (發(fā)請(qǐng)求時(shí),可以不寫)
【Connection: keep-alive】:保持登錄后的長(zhǎng)連接
【User-Agent】:最重要的參數(shù)
【Accept】:接受數(shù)據(jù)的格式,例如:text文本、json等
【Accept-Encoding】:數(shù)據(jù)的壓縮方式 (爬蟲不是服務(wù)器,沒有解壓方法,不能寫)
【Accept-Language】:支持的語言 (可以不寫)
【Cookie】:緩存,Cookie在爬蟲里主要獲取登錄后的狀態(tài),跟登錄相關(guān)的可以用Cookie處理,如果只是獲取一個(gè)靜態(tài)頁面的數(shù)據(jù),就不需要用Cookie。
web項(xiàng)目通過都是通過瀏覽器去訪問,要想真實(shí)模擬一個(gè)用戶用瀏覽器去訪問web項(xiàng)目,在發(fā)送請(qǐng)求的時(shí)候,會(huì)有不同的User-Agent頭。 urllib默認(rèn)的User-Agent頭為:Python-urllib/x.y,所以就需要我們?cè)诎l(fā)request請(qǐng)求的時(shí)候添加一個(gè)head信息
import urllib.request
header={"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36"
}
request = urllib.request.Request("https://blog.51cto.com/alun51cto") # url 作為Request()方法的參數(shù),構(gòu)造并返回一個(gè)Request對(duì)象
response = urllib.request.urlopen(request) # Request對(duì)象作為urlopen()方法的參數(shù),發(fā)送給服務(wù)器并接收響應(yīng)
html = response.read()
print(html)
四:Request.get_header()與Request.add_header()
import urllib.request
url ="https://blog.51cto.com/alun51cto"
header={"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36"
}
request = urllib.request.Request(url) # url 作為Request()方法的參數(shù),構(gòu)造并返回一個(gè)Request對(duì)象
request.add_header("Connection", "keep-alive") #也可以通過調(diào)用request.add_header() 添加/修改一個(gè)特定的header
print(request.get_header(header_name="Connection")) # 也可以通過調(diào)用Request.get_header()來查看header信息
response = urllib.request.urlopen(request) # Request對(duì)象作為urlopen()方法的參數(shù),發(fā)送給服務(wù)器并接收響應(yīng)
html = response.read()
#print(html)
import urllib.request
import random
url = "https://blog.51cto.com/alun51cto"
#定義一個(gè)User-Agent列表
user_agent_list = [
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36,",
"Mozilla/5.0 (X11; CrOS i686 2268.111.0)... ",
"Mozilla/5.0 (Macintosh; U; PPC Mac OS X.... ",
"Mozilla/5.0 (Macintosh; Intel Mac OS... "
]
user_agent = random.choice(user_agent_list) #隨機(jī)抽取一個(gè)User-Agent值
request = urllib.request.Request(url) # url 作為Request()方法的參數(shù),構(gòu)造并返回一個(gè)Request對(duì)象
request.add_header("User-Agent", user_agent) #通過調(diào)用Request.add_header() 添加一個(gè)特定的header
print(request.get_header("User-agent")) # 第一個(gè)字母大寫,后面的全部小寫
response = urllib.request.urlopen(request) # Request對(duì)象作為urlopen()方法的參數(shù),發(fā)送給服務(wù)器并接收響應(yīng)
html = response.read()
print(html)