真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

Python爬蟲怎么請(qǐng)求報(bào)頭

今天就跟大家聊聊有關(guān)Python爬蟲怎么請(qǐng)求報(bào)頭,可能很多人都不太了解,為了讓大家更加了解,小編給大家總結(jié)了以下內(nèi)容,希望大家根據(jù)這篇文章可以有所收獲。

創(chuàng)新互聯(lián)專注于興隆網(wǎng)站建設(shè)服務(wù)及定制,我們擁有豐富的企業(yè)做網(wǎng)站經(jīng)驗(yàn)。 熱誠(chéng)為您提供興隆營(yíng)銷型網(wǎng)站建設(shè),興隆網(wǎng)站制作、興隆網(wǎng)頁(yè)設(shè)計(jì)、興隆網(wǎng)站官網(wǎng)定制、微信小程序開發(fā)服務(wù),打造興隆網(wǎng)絡(luò)公司原創(chuàng)品牌,更為您提供興隆網(wǎng)站排名全網(wǎng)營(yíng)銷落地服務(wù)。

客戶端HTTP請(qǐng)求

URL只是標(biāo)識(shí)資源的位置,而HTTP是用來(lái)提交和獲取資源??蛻舳税l(fā)送一個(gè)HTTP請(qǐng)求到服務(wù)器的請(qǐng)求消息,包括以下格式:

請(qǐng)求行、請(qǐng)求頭部、空行、請(qǐng)求數(shù)據(jù)

一個(gè)典型的HTTP請(qǐng)求

GET https://www.baidu.com/ HTTP/1.1
Host: www.baidu.com
Connection: keep-alive
Upgrade-Insecure-Requests: 1
User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.101 
Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8
Accept-Encoding: gzip, deflate, br
Accept-Language: zh,zh-CN;q=0.8,ar;q=0.6,zh-TW;q=0.4
Cookie: BAIDUID=AE4D1DA6B2D6689BB8C557B3436893E3:FG=1; BIDUPSID=AE4D1DA6B2D6689BB8C557B3436893E3; PSTM=1501466227; 
BD_UPN=12314353; BD_CK_SAM=1; PSINO=1; H_PS_PSSID=1420_25548_21080_20929; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; 
BDSVRTM=0

常用請(qǐng)求報(bào)頭

1. Host (主機(jī)和端口號(hào))

Host:對(duì)應(yīng)網(wǎng)址URL中的Web名稱和端口號(hào),用于指定被請(qǐng)求資源的Internet主機(jī)和端口號(hào),通常屬于URL的一部分。

2. Connection (鏈接類型)

Connection:表示客戶端與服務(wù)連接類型。

Client 發(fā)起一個(gè)包含 Connection:keep-alive 的請(qǐng)求,HTTP/1.1使用 keep-alive 為默認(rèn)值。

Server收到請(qǐng)求后:

如果 Server 支持 keep-alive,回復(fù)一個(gè)包含 Connection:keep-alive 的響應(yīng),不關(guān)閉連接;

如果 Server 不支持 keep-alive,回復(fù)一個(gè)包含 Connection:close 的響應(yīng),關(guān)閉連接。

如果client收到包含 Connection:keep-alive 的響應(yīng),向同一個(gè)連接發(fā)送下一個(gè)請(qǐng)求,直到一方主動(dòng)關(guān)閉連接。

keep-alive在很多情況下能夠重用連接,減少資源消耗,縮短響應(yīng)時(shí)間,比如當(dāng)瀏覽器需要多個(gè)文件時(shí)(比如一個(gè)HTML文件和相關(guān)的圖形文件),不需要每次都去請(qǐng)求建立連接。

3. Upgrade-Insecure-Requests (升級(jí)為HTTPS請(qǐng)求)

Upgrade-Insecure-Requests:升級(jí)不安全的請(qǐng)求,意思是會(huì)在加載 http 資源時(shí)自動(dòng)替換成 https 請(qǐng)求,讓瀏覽器不再顯示https頁(yè)面中的http請(qǐng)求警報(bào)。

HTTPS 是以安全為目標(biāo)的 HTTP 通道,所以在 HTTPS 承載的頁(yè)面上不允許出現(xiàn) HTTP 請(qǐng)求,一旦出現(xiàn)就是提示或報(bào)錯(cuò)。

4. User-Agent (瀏覽器名稱)

User-Agent:是客戶瀏覽器的名稱,以后會(huì)詳細(xì)講。

5. Accept (傳輸文件類型)

Accept:指瀏覽器或其他客戶端可以接受的MIME(Multipurpose Internet Mail Extensions(多用途互聯(lián)網(wǎng)郵件擴(kuò)展))文件類型,服務(wù)器可以根據(jù)它判斷并返回適當(dāng)?shù)奈募袷健?/p>

舉例:

Accept: */*:表示什么都可以接收。

Accept:image/gif:表明客戶端希望接受GIF圖像格式的資源;

Accept:text/html:表明客戶端希望接受html文本。

Accept: text/html, application/xhtml+xml;q=0.9, image/*;q=0.8:表示瀏覽器支持的 MIME 類型分別是 html文本、xhtml和xml文檔、所有的圖像格式資源。

q是權(quán)重系數(shù),范圍 0 =< q <= 1,q 值越大,請(qǐng)求越傾向于獲得其“;”之前的類型表示的內(nèi)容。若沒有指定q值,則默認(rèn)為1,按從左到右排序順序;若被賦值為0,則用于表示瀏覽器不接受此內(nèi)容類型。

Text:用于標(biāo)準(zhǔn)化地表示的文本信息,文本消息可以是多種字符集和或者多種格式的;Application:用于傳輸應(yīng)用程序數(shù)據(jù)或者二進(jìn)制數(shù)據(jù)。詳細(xì)請(qǐng)點(diǎn)擊

6. Referer (頁(yè)面跳轉(zhuǎn)處)

Referer:表明產(chǎn)生請(qǐng)求的網(wǎng)頁(yè)來(lái)自于哪個(gè)URL,用戶是從該 Referer頁(yè)面訪問(wèn)到當(dāng)前請(qǐng)求的頁(yè)面。這個(gè)屬性可以用來(lái)跟蹤Web請(qǐng)求來(lái)自哪個(gè)頁(yè)面,是從什么網(wǎng)站來(lái)的等。

有時(shí)候遇到下載某網(wǎng)站圖片,需要對(duì)應(yīng)的referer,否則無(wú)法下載圖片,那是因?yàn)槿思易隽朔辣I鏈,原理就是根據(jù)referer去判斷是否是本網(wǎng)站的地址,如果不是,則拒絕,如果是,就可以下載;

7. Accept-Encoding(文件編解碼格式)

Accept-Encoding:指出瀏覽器可以接受的編碼方式。編碼方式不同于文件格式,它是為了壓縮文件并加速文件傳遞速度。瀏覽器在接收到Web響應(yīng)之后先解碼,然后再檢查文件格式,許多情形下這可以減少大量的下載時(shí)間。

舉例:Accept-Encoding:gzip;q=1.0, identity; q=0.5, *;q=0

如果有多個(gè)Encoding同時(shí)匹配, 按照q值順序排列,本例中按順序支持 gzip, identity壓縮編碼,支持gzip的瀏覽器會(huì)返回經(jīng)過(guò)gzip編碼的HTML頁(yè)面。 如果請(qǐng)求消息中沒有設(shè)置這個(gè)域服務(wù)器假定客戶端對(duì)各種內(nèi)容編碼都可以接受。

8. Accept-Language(語(yǔ)言種類)

Accept-Langeuage:指出瀏覽器可以接受的語(yǔ)言種類,如en或en-us指英語(yǔ),zh或者zh-cn指中文,當(dāng)服務(wù)器能夠提供一種以上的語(yǔ)言版本時(shí)要用到。

9. Accept-Charset(字符編碼)

Accept-Charset:指出瀏覽器可以接受的字符編碼。

舉例:

Accept-Charset:iso-8859-1,gb2312,utf-8

ISO8859-1:通常叫做Latin-1。Latin-1包括了書寫所有西方歐洲語(yǔ)言不可缺少的附加字符,英文瀏覽器的默認(rèn)值是ISO-8859-1.

gb2312:標(biāo)準(zhǔn)簡(jiǎn)體中文字符集;

utf-8:UNICODE 的一種變長(zhǎng)字符編碼,可以解決多種語(yǔ)言文本顯示問(wèn)題,從而實(shí)現(xiàn)應(yīng)用國(guó)際化和本地化。

如果在請(qǐng)求消息中沒有設(shè)置這個(gè)域,缺省是任何字符集都可以接受。

10. Cookie (Cookie)

Cookie:瀏覽器用這個(gè)屬性向服務(wù)器發(fā)送Cookie。Cookie是在瀏覽器中寄存的小型數(shù)據(jù)體,它可以記載和服務(wù)器相關(guān)的用戶信息,也可以用來(lái)實(shí)現(xiàn)會(huì)話功能,以后會(huì)詳細(xì)講。

11. Content-Type (POST數(shù)據(jù)類型)

Content-Type:POST請(qǐng)求里用來(lái)表示的內(nèi)容類型。

舉例:Content-Type = Text/XML; charset=gb2312:

指明該請(qǐng)求的消息體中包含的是純文本的XML類型的數(shù)據(jù),字符編碼采用“gb2312”。

看完上述內(nèi)容,你們對(duì)Python爬蟲怎么請(qǐng)求報(bào)頭有進(jìn)一步的了解嗎?如果還想了解更多知識(shí)或者相關(guān)內(nèi)容,請(qǐng)關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝大家的支持。


本文題目:Python爬蟲怎么請(qǐng)求報(bào)頭
分享網(wǎng)址:http://weahome.cn/article/jpgghj.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部