關(guān)于Python3爬蟲中HTTP的基本原理分析-創(chuàng)新互聯(lián)

創(chuàng)新互聯(lián)www.cdcxhl.cn八線動態(tài)BGP香港云服務(wù)器提供商，新人活動買多久送多久，劃算不套路！

創(chuàng)新互聯(lián)公司是一家專注于成都網(wǎng)站設(shè)計、成都網(wǎng)站建設(shè)與策劃設(shè)計,友誼網(wǎng)站建設(shè)哪家好?創(chuàng)新互聯(lián)公司做網(wǎng)站,專注于網(wǎng)站建設(shè)十年,網(wǎng)設(shè)計領(lǐng)域的專業(yè)建站公司;建站業(yè)務(wù)涵蓋:友誼等地區(qū)。友誼做網(wǎng)站價格咨詢:028-86922220

這篇文章給大家分享的是有關(guān)關(guān)于Python3爬蟲中HTTP的基本原理分析的內(nèi)容。小編覺得挺實用的，因此分享給大家做個參考。一起跟隨小編過來看看吧。

詳細(xì)了解HTTP的基本原理，了解在瀏覽器中敲入URL到獲取網(wǎng)頁內(nèi)容之間發(fā)生了什么。了解了這些內(nèi)容，有助于我們進(jìn)一步了解爬蟲的基本原理。

1. URI和URL

這里我們先了解一下URI和URL，URI的全稱為Uniform Resource Identifier，即統(tǒng)一資源標(biāo)志符，URL的全稱為Universal Resource Locator，即統(tǒng)一資源定位符。

舉例來說，https://github.com/favicon.ico是GitHub的網(wǎng)站圖標(biāo)鏈接，它是一個URL，也是一個URI。即有這樣的一個圖標(biāo)資源，我們用URL/URI來唯一指定了它的訪問方式，這其中包括了訪問協(xié)議https、訪問路徑（/即根目錄）和資源名稱favicon.ico。通過這樣一個鏈接，我們便可以從互聯(lián)網(wǎng)上找到這個資源，這就是URL/URI。

URL是URI的子集，也就是說每個URL都是URI，但不是每個URI都是URL。那么，怎樣的URI不是URL呢？URI還包括一個子類叫作URN，它的全稱為Universal Resource Name，即統(tǒng)一資源名稱。URN只命名資源而不指定如何定位資源，比如urn:isbn:0451450523指定了一本書的ISBN，可以唯一標(biāo)識這本書，但是沒有指定到哪里定位這本書，這就是URN。URL、URN和URI的關(guān)系可以用圖2-1表示。

關(guān)于Python3爬蟲中HTTP的基本原理分析

但是在目前的互聯(lián)網(wǎng)中，URN用得非常少，所以幾乎所有的URI都是URL，一般的網(wǎng)頁鏈接我們既可以稱為URL，也可以稱為URI，我個人習(xí)慣稱為URL。

2. 超文本

接下來，我們再了解一個概念——超文本，其英文名稱叫作hypertext，我們在瀏覽器里看到的網(wǎng)頁就是超文本解析而成的，其網(wǎng)頁源代碼是一系列HTML代碼，里面包含了一系列標(biāo)簽，比如img顯示圖片，p指定顯示段落等。瀏覽器解析這些標(biāo)簽后，便形成了我們平?？吹降木W(wǎng)頁，而網(wǎng)頁的源代碼HTML就可以稱作超文本。

例如，我們在Chrome瀏覽器里面打開任意一個頁面，如淘寶首頁，右擊任一地方并選擇“檢查”項（或者直接按快捷鍵F12），即可打開瀏覽器的開發(fā)者工具，這時在Elements選項卡即可看到當(dāng)前網(wǎng)頁的源代碼，這些源代碼都是超文本，如圖2-2所示。

關(guān)于Python3爬蟲中HTTP的基本原理分析

3. HTTP和HTTPS

在淘寶的首頁https://www.taobao.com/中，URL的開頭會有http或https，這就是訪問資源需要的協(xié)議類型。有時，我們還會看到ftp、sftp、smb開頭的URL，它們都是協(xié)議類型。在爬蟲中，我們抓取的頁面通常就是http或https協(xié)議的，這里首先了解一下這兩個協(xié)議的含義。

HTTP的全稱是Hyper Text Transfer Protocol，中文名叫作超文本傳輸協(xié)議。HTTP協(xié)議是用于從網(wǎng)絡(luò)傳輸超文本數(shù)據(jù)到本地瀏覽器的傳送協(xié)議，它能保證高效而準(zhǔn)確地傳送超文本文檔。HTTP由萬維網(wǎng)協(xié)會（World Wide Web Consortium）和Internet工作小組IETF（Internet Engineering Task Force）共同合作制定的規(guī)范，目前廣泛使用的是HTTP 1.1版本。

HTTPS的全稱是Hyper Text Transfer Protocol over Secure Socket Layer，是以安全為目標(biāo)的HTTP通道，簡單講是HTTP的安全版，即HTTP下加入SSL層，簡稱為HTTPS。

HTTPS的安全基礎(chǔ)是SSL，因此通過它傳輸?shù)膬?nèi)容都是經(jīng)過SSL加密的，它的主要作用可以分為兩種。

建立一個信息安全通道來保證數(shù)據(jù)傳輸?shù)陌踩?/p>

確認(rèn)網(wǎng)站的真實性，凡是使用了HTTPS的網(wǎng)站，都可以通過點擊瀏覽器地址欄的鎖頭標(biāo)志來查看網(wǎng)站認(rèn)證之后的真實信息，也可以通過CA機(jī)構(gòu)頒發(fā)的安全簽章來查詢。

現(xiàn)在越來越多的網(wǎng)站和App都已經(jīng)向HTTPS方向發(fā)展，例如：

蘋果公司強(qiáng)制所有iOS App在2017年1月1日前全部改為使用HTTPS加密，否則App就無法在應(yīng)用商店上架；

谷歌從2017年1月推出的Chrome 56開始，對未進(jìn)行HTTPS加密的網(wǎng)址鏈接亮出風(fēng)險提示，即在地址欄的顯著位置提醒用戶“此網(wǎng)頁不安全”；

騰訊微信小程序的官方需求文檔要求后臺使用HTTPS請求進(jìn)行網(wǎng)絡(luò)通信，不滿足條件的域名和協(xié)議無法請求。

而某些網(wǎng)站雖然使用了HTTPS協(xié)議，但還是會被瀏覽器提示不安全，例如我們在Chrome瀏覽器里面打開12306，鏈接為：https://www.12306.cn/，這時瀏覽器就會提示“您的連接不是私密連接”這樣的話，如圖2-3所示。

關(guān)于Python3爬蟲中HTTP的基本原理分析

這是因為12306的CA證書是中國鐵道部自行簽發(fā)的，而這個證書是不被CA機(jī)構(gòu)信任的，所以這里證書驗證就不會通過而提示這樣的話，但是實際上它的數(shù)據(jù)傳輸依然是經(jīng)過SSL加密的。如果要爬取這樣的站點，就需要設(shè)置忽略證書的選項，否則會提示SSL鏈接錯誤。

4. HTTP請求過程

我們在瀏覽器中輸入一個URL，回車之后便會在瀏覽器中觀察到頁面內(nèi)容。實際上，這個過程是瀏覽器向網(wǎng)站所在的服務(wù)器發(fā)送了一個請求，網(wǎng)站服務(wù)器接收到這個請求后進(jìn)行處理和解析，然后返回對應(yīng)的響應(yīng)，接著傳回給瀏覽器。響應(yīng)里包含了頁面的源代碼等內(nèi)容，瀏覽器再對其進(jìn)行解析，便將網(wǎng)頁呈現(xiàn)了出來，模型如圖2-4所示。

關(guān)于Python3爬蟲中HTTP的基本原理分析

此處客戶端即代表我們自己的PC或手機(jī)瀏覽器，服務(wù)器即要訪問的網(wǎng)站所在的服務(wù)器。

為了更直觀地地說明這個過程，這里用Chrome瀏覽器的開發(fā)者模式下的Network監(jiān)聽組件來做下演示，它可以顯示訪問當(dāng)前請求網(wǎng)頁時發(fā)生的所有網(wǎng)絡(luò)請求和響應(yīng)。

打開Chrome瀏覽器，右擊并選擇“檢查”項，即可打開瀏覽器的開發(fā)者工具。這里訪問百度http://www.baidu.com/，輸入該URL后回車，觀察這個過程中發(fā)生了怎樣的網(wǎng)絡(luò)請求?？梢钥吹剑贜etwork頁面下方出現(xiàn)了一個個的條目，其中一個條目就代表一次發(fā)送請求和接收響應(yīng)的過程，如圖2-5所示。

關(guān)于Python3爬蟲中HTTP的基本原理分析

我們先觀察第一個網(wǎng)絡(luò)請求，即www.baidu.com。

其中各列的含義如下。

第一列Name：請求的名稱，一般會將URL的最后一部分內(nèi)容當(dāng)作名稱。

第二列Status：響應(yīng)的狀態(tài)碼，這里顯示為200，代表響應(yīng)是正常的。通過狀態(tài)碼，我們可以判斷發(fā)送了請求之后是否得到了正常的響應(yīng)。

第三列Type：請求的文檔類型。這里為document，代表我們這次請求的是一個HTML文檔，內(nèi)容就是一些HTML代碼。

第四列Initiator：請求源。用來標(biāo)記請求是由哪個對象或進(jìn)程發(fā)起的。

第五列Size：從服務(wù)器下載的文件和請求的資源大小。如果是從緩存中取得的資源，則該列會顯示from cache。

第六列Time：發(fā)起請求到獲取響應(yīng)所用的總時間。

第七列Waterfall：網(wǎng)絡(luò)請求的可視化瀑布流。

點擊這個條目，即可看到更詳細(xì)的信息，如圖2-6所示。

關(guān)于Python3爬蟲中HTTP的基本原理分析

首先是General部分，Request URL為請求的URL，Request Method為請求的方法，Status Code為響應(yīng)狀態(tài)碼，Remote Address為遠(yuǎn)程服務(wù)器的地址和端口，Referrer Policy為Referrer判別策略。

再繼續(xù)往下看，可以看到，有Response Headers和Request Headers，這分別代表響應(yīng)頭和請求頭。請求頭里帶有許多請求信息，例如瀏覽器標(biāo)識、Cookies、Host等信息，這是請求的一部分，服務(wù)器會根據(jù)請求頭內(nèi)的信息判斷請求是否合法，進(jìn)而作出對應(yīng)的響應(yīng)。圖中看到的Response Headers就是響應(yīng)的一部分，例如其中包含了服務(wù)器的類型、文檔類型、日期等信息，瀏覽器接受到響應(yīng)后，會解析響應(yīng)內(nèi)容，進(jìn)而呈現(xiàn)網(wǎng)頁內(nèi)容。

下面我們分別來介紹一下請求和響應(yīng)都包含哪些內(nèi)容。

5. 請求

請求，由客戶端向服務(wù)端發(fā)出，可以分為4部分內(nèi)容：請求方法（Request Method）、請求的網(wǎng)址（Request URL）、請求頭（Request Headers）、請求體（Request Body）。

(1) 請求方法

常見的請求方法有兩種：GET和POST。

在瀏覽器中直接輸入URL并回車，這便發(fā)起了一個GET請求，請求的參數(shù)會直接包含到URL里。例如，在百度中搜索Python，這就是一個GET請求，鏈接為https://www.baidu.com/s?wd=Python，其中URL中包含了請求的參數(shù)信息，這里參數(shù)wd表示要搜尋的關(guān)鍵字。POST請求大多在表單提交時發(fā)起。比如，對于一個登錄表單，輸入用戶名和密碼后，點擊“登錄”按鈕，這通常會發(fā)起一個POST請求，其數(shù)據(jù)通常以表單的形式傳輸，而不會體現(xiàn)在URL中。

GET和POST請求方法有如下區(qū)別。

GET請求中的參數(shù)包含在URL里面，數(shù)據(jù)可以在URL中看到，而POST請求的URL不會包含這些數(shù)據(jù)，數(shù)據(jù)都是通過表單形式傳輸?shù)?，會包含在請求體中。

GET請求提交的數(shù)據(jù)最多只有1024字節(jié)，而POST方式?jīng)]有限制。

一般來說，登錄時，需要提交用戶名和密碼，其中包含了敏感信息，使用GET方式請求的話，密碼就會暴露在URL里面，造成密碼泄露，所以這里最好以POST方式發(fā)送。上傳文件時，由于文件內(nèi)容比較大，也會選用POST方式。

我們平常遇到的絕大部分請求都是GET或POST請求，另外還有一些請求方法，如GET、HEAD、POST、PUT、DELETE、OPTIONS、CONNECT、TRACE等，我們簡單將其總結(jié)為表2-1。

關(guān)于Python3爬蟲中HTTP的基本原理分析

本表參考：http://www.runoob.com/http/http-methods.html。

(2) 請求的網(wǎng)址

請求的網(wǎng)址，即統(tǒng)一資源定位符URL，它可以唯一確定我們想請求的資源。

(3) 請求頭

請求頭，用來說明服務(wù)器要使用的附加信息，比較重要的信息有Cookie、Referer、User-Agent等。下面簡要說明一些常用的頭信息。

Accept：請求報頭域，用于指定客戶端可接受哪些類型的信息。

Accept-Language：指定客戶端可接受的語言類型。

Accept-Encoding：指定客戶端可接受的內(nèi)容編碼。

Host：用于指定請求資源的主機(jī)IP和端口號，其內(nèi)容為請求URL的原始服務(wù)器或網(wǎng)關(guān)的位置。從HTTP 1.1版本開始，請求必須包含此內(nèi)容。

Cookie：也常用復(fù)數(shù)形式 Cookies，這是網(wǎng)站為了辨別用戶進(jìn)行會話跟蹤而存儲在用戶本地的數(shù)據(jù)。它的主要功能是維持當(dāng)前訪問會話。例如，我們輸入用戶名和密碼成功登錄某個網(wǎng)站后，服務(wù)器會用會話保存登錄狀態(tài)信息，后面我們每次刷新或請求該站點的其他頁面時，會發(fā)現(xiàn)都是登錄狀態(tài)，這就是Cookies的功勞。Cookies里有信息標(biāo)識了我們所對應(yīng)的服務(wù)器的會話，每次瀏覽器在請求該站點的頁面時，都會在請求頭中加上Cookies并將其發(fā)送給服務(wù)器，服務(wù)器通過Cookies識別出是我們自己，并且查出當(dāng)前狀態(tài)是登錄狀態(tài)，所以返回結(jié)果就是登錄之后才能看到的網(wǎng)頁內(nèi)容。

Referer：此內(nèi)容用來標(biāo)識這個請求是從哪個頁面發(fā)過來的，服務(wù)器可以拿到這一信息并做相應(yīng)的處理，如作來源統(tǒng)計、防盜鏈處理等。

User-Agent：簡稱UA，它是一個特殊的字符串頭，可以使服務(wù)器識別客戶使用的操作系統(tǒng)及版本、瀏覽器及版本等信息。在做爬蟲時加上此信息，可以偽裝為瀏覽器；如果不加，很可能會被識別出為爬蟲。

Content-Type：也叫互聯(lián)網(wǎng)媒體類型（Internet Media Type）或者M(jìn)IME類型，在HTTP協(xié)議消息頭中，它用來表示具體請求中的媒體類型信息。例如，text/html代表HTML格式，image/gif代表GIF圖片，application/json代表JSON類型，更多對應(yīng)關(guān)系可以查看此對照表：http://tool.oschina.net/commons。

因此，請求頭是請求的重要組成部分，在寫爬蟲時，大部分情況下都需要設(shè)定請求頭。

(4) 請求體

請求體一般承載的內(nèi)容是POST請求中的表單數(shù)據(jù)，而對于GET請求，請求體則為空。

例如，這里我登錄GitHub時捕獲到的請求和響應(yīng)如圖2-7所示。

關(guān)于Python3爬蟲中HTTP的基本原理分析

登錄之前，我們填寫了用戶名和密碼信息，提交時這些內(nèi)容就會以表單數(shù)據(jù)的形式提交給服務(wù)器，此時需要注意Request Headers中指定Content-Type為application/x-www-form-urlencoded。只有設(shè)置Content-Type為application/x-www-form-urlencoded，才會以表單數(shù)據(jù)的形式提交。另外，我們也可以將Content-Type設(shè)置為application/json來提交JSON數(shù)據(jù)，或者設(shè)置為multipart/form-data來上傳文件。

表2-2列出了Content-Type和POST提交數(shù)據(jù)方式的關(guān)系。

關(guān)于Python3爬蟲中HTTP的基本原理分析

在爬蟲中，如果要構(gòu)造POST請求，需要使用正確的Content-Type，并了解各種請求庫的各個參數(shù)設(shè)置時使用的是哪種Content-Type，不然可能會導(dǎo)致POST提交后無法正常響應(yīng)。

6. 響應(yīng)

響應(yīng)，由服務(wù)端返回給客戶端，可以分為三部分：響應(yīng)狀態(tài)碼（Response Status Code）、響應(yīng)頭（Response Headers）和響應(yīng)體（Response Body）。

(1) 響應(yīng)狀態(tài)碼

響應(yīng)狀態(tài)碼表示服務(wù)器的響應(yīng)狀態(tài)，如200代表服務(wù)器正常響應(yīng)，404代表頁面未找到，500代表服務(wù)器內(nèi)部發(fā)生錯誤。在爬蟲中，我們可以根據(jù)狀態(tài)碼來判斷服務(wù)器響應(yīng)狀態(tài)，如狀態(tài)碼為200，則證明成功返回數(shù)據(jù)，再進(jìn)行進(jìn)一步的處理，否則直接忽略。表2-3列出了常見的錯誤代碼及錯誤原因。

關(guān)于Python3爬蟲中HTTP的基本原理分析

(2) 響應(yīng)頭

響應(yīng)頭包含了服務(wù)器對請求的應(yīng)答信息，如Content-Type、Server、Set-Cookie等。下面簡要說明一些常用的頭信息。

Date：標(biāo)識響應(yīng)產(chǎn)生的時間。

Last-Modified：指定資源的最后修改時間。

Content-Encoding：指定響應(yīng)內(nèi)容的編碼。

Server：包含服務(wù)器的信息，比如名稱、版本號等。

Content-Type：文檔類型，指定返回的數(shù)據(jù)類型是什么，如text/html代表返回HTML文檔，application/x-javascript則代表返回JavaScript文件，image/jpeg則代表返回圖片。

Set-Cookie：設(shè)置Cookies。響應(yīng)頭中的Set-Cookie告訴瀏覽器需要將此內(nèi)容放在Cookies中，下次請求攜帶Cookies請求。

Expires：指定響應(yīng)的過期時間，可以使代理服務(wù)器或瀏覽器將加載的內(nèi)容更新到緩存中。如果再次訪問時，就可以直接從緩存中加載，降低服務(wù)器負(fù)載，縮短加載時間。

(3) 響應(yīng)體

最重要的當(dāng)屬響應(yīng)體的內(nèi)容了。響應(yīng)的正文數(shù)據(jù)都在響應(yīng)體中，比如請求網(wǎng)頁時，它的響應(yīng)體就是網(wǎng)頁的HTML代碼；請求一張圖片時，它的響應(yīng)體就是圖片的二進(jìn)制數(shù)據(jù)。我們做爬蟲請求網(wǎng)頁后，要解析的內(nèi)容就是響應(yīng)體，如圖2-8所示。

關(guān)于Python3爬蟲中HTTP的基本原理分析

在瀏覽器開發(fā)者工具中點擊Preview，就可以看到網(wǎng)頁的源代碼，也就是響應(yīng)體的內(nèi)容，它是解析的目標(biāo)。

在做爬蟲時，我們主要通過響應(yīng)體得到網(wǎng)頁的源代碼、JSON數(shù)據(jù)等，然后從中做相應(yīng)內(nèi)容的提取。

感謝各位的閱讀！關(guān)于關(guān)于Python3爬蟲中HTTP的基本原理分析就分享到這里了，希望以上內(nèi)容可以對大家有一定的幫助，讓大家可以學(xué)到更多知識。如果覺得文章不錯，可以把它分享出去讓更多的人看到吧！

當(dāng)前名稱：關(guān)于Python3爬蟲中HTTP的基本原理分析-創(chuàng)新互聯(lián)
當(dāng)前網(wǎng)址：http://weahome.cn/article/jpojs.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

關(guān)于Python3爬蟲中HTTP的基本原理分析-創(chuàng)新互聯(lián)

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管