創(chuàng)新互聯(lián)www.cdcxhl.cn八線動態(tài)BGP香港云服務(wù)器提供商,新人活動買多久送多久,劃算不套路!
創(chuàng)新互聯(lián)公司是一家專注于成都網(wǎng)站設(shè)計、成都網(wǎng)站建設(shè)與策劃設(shè)計,友誼網(wǎng)站建設(shè)哪家好?創(chuàng)新互聯(lián)公司做網(wǎng)站,專注于網(wǎng)站建設(shè)十年,網(wǎng)設(shè)計領(lǐng)域的專業(yè)建站公司;建站業(yè)務(wù)涵蓋:友誼等地區(qū)。友誼做網(wǎng)站價格咨詢:028-86922220這篇文章給大家分享的是有關(guān)關(guān)于Python3爬蟲中HTTP的基本原理分析的內(nèi)容。小編覺得挺實用的,因此分享給大家做個參考。一起跟隨小編過來看看吧。
詳細(xì)了解HTTP的基本原理,了解在瀏覽器中敲入URL到獲取網(wǎng)頁內(nèi)容之間發(fā)生了什么。了解了這些內(nèi)容,有助于我們進(jìn)一步了解爬蟲的基本原理。
1. URI和URL
這里我們先了解一下URI和URL,URI的全稱為Uniform Resource Identifier,即統(tǒng)一資源標(biāo)志符,URL的全稱為Universal Resource Locator,即統(tǒng)一資源定位符。
舉例來說,https://github.com/favicon.ico是GitHub的網(wǎng)站圖標(biāo)鏈接,它是一個URL,也是一個URI。即有這樣的一個圖標(biāo)資源,我們用URL/URI來唯一指定了它的訪問方式,這其中包括了訪問協(xié)議https、訪問路徑(/即根目錄)和資源名稱favicon.ico。通過這樣一個鏈接,我們便可以從互聯(lián)網(wǎng)上找到這個資源,這就是URL/URI。
URL是URI的子集,也就是說每個URL都是URI,但不是每個URI都是URL。那么,怎樣的URI不是URL呢?URI還包括一個子類叫作URN,它的全稱為Universal Resource Name,即統(tǒng)一資源名稱。URN只命名資源而不指定如何定位資源,比如urn:isbn:0451450523指定了一本書的ISBN,可以唯一標(biāo)識這本書,但是沒有指定到哪里定位這本書,這就是URN。URL、URN和URI的關(guān)系可以用圖2-1表示。
但是在目前的互聯(lián)網(wǎng)中,URN用得非常少,所以幾乎所有的URI都是URL,一般的網(wǎng)頁鏈接我們既可以稱為URL,也可以稱為URI,我個人習(xí)慣稱為URL。
2. 超文本
接下來,我們再了解一個概念——超文本,其英文名稱叫作hypertext,我們在瀏覽器里看到的網(wǎng)頁就是超文本解析而成的,其網(wǎng)頁源代碼是一系列HTML代碼,里面包含了一系列標(biāo)簽,比如img顯示圖片,p指定顯示段落等。瀏覽器解析這些標(biāo)簽后,便形成了我們平??吹降木W(wǎng)頁,而網(wǎng)頁的源代碼HTML就可以稱作超文本。
例如,我們在Chrome瀏覽器里面打開任意一個頁面,如淘寶首頁,右擊任一地方并選擇“檢查”項(或者直接按快捷鍵F12),即可打開瀏覽器的開發(fā)者工具,這時在Elements選項卡即可看到當(dāng)前網(wǎng)頁的源代碼,這些源代碼都是超文本,如圖2-2所示。
3. HTTP和HTTPS
在淘寶的首頁https://www.taobao.com/中,URL的開頭會有http或https,這就是訪問資源需要的協(xié)議類型。有時,我們還會看到ftp、sftp、smb開頭的URL,它們都是協(xié)議類型。在爬蟲中,我們抓取的頁面通常就是http或https協(xié)議的,這里首先了解一下這兩個協(xié)議的含義。
HTTP的全稱是Hyper Text Transfer Protocol,中文名叫作超文本傳輸協(xié)議。HTTP協(xié)議是用于從網(wǎng)絡(luò)傳輸超文本數(shù)據(jù)到本地瀏覽器的傳送協(xié)議,它能保證高效而準(zhǔn)確地傳送超文本文檔。HTTP由萬維網(wǎng)協(xié)會(World Wide Web Consortium)和Internet工作小組IETF(Internet Engineering Task Force)共同合作制定的規(guī)范,目前廣泛使用的是HTTP 1.1版本。
HTTPS的全稱是Hyper Text Transfer Protocol over Secure Socket Layer,是以安全為目標(biāo)的HTTP通道,簡單講是HTTP的安全版,即HTTP下加入SSL層,簡稱為HTTPS。
HTTPS的安全基礎(chǔ)是SSL,因此通過它傳輸?shù)膬?nèi)容都是經(jīng)過SSL加密的,它的主要作用可以分為兩種。
建立一個信息安全通道來保證數(shù)據(jù)傳輸?shù)陌踩?/p>
確認(rèn)網(wǎng)站的真實性,凡是使用了HTTPS的網(wǎng)站,都可以通過點擊瀏覽器地址欄的鎖頭標(biāo)志來查看網(wǎng)站認(rèn)證之后的真實信息,也可以通過CA機(jī)構(gòu)頒發(fā)的安全簽章來查詢。
現(xiàn)在越來越多的網(wǎng)站和App都已經(jīng)向HTTPS方向發(fā)展,例如:
蘋果公司強(qiáng)制所有iOS App在2017年1月1日前全部改為使用HTTPS加密,否則App就無法在應(yīng)用商店上架;
谷歌從2017年1月推出的Chrome 56開始,對未進(jìn)行HTTPS加密的網(wǎng)址鏈接亮出風(fēng)險提示,即在地址欄的顯著位置提醒用戶“此網(wǎng)頁不安全”;
騰訊微信小程序的官方需求文檔要求后臺使用HTTPS請求進(jìn)行網(wǎng)絡(luò)通信,不滿足條件的域名和協(xié)議無法請求。
而某些網(wǎng)站雖然使用了HTTPS協(xié)議,但還是會被瀏覽器提示不安全,例如我們在Chrome瀏覽器里面打開12306,鏈接為:https://www.12306.cn/,這時瀏覽器就會提示“您的連接不是私密連接”這樣的話,如圖2-3所示。
這是因為12306的CA證書是中國鐵道部自行簽發(fā)的,而這個證書是不被CA機(jī)構(gòu)信任的,所以這里證書驗證就不會通過而提示這樣的話,但是實際上它的數(shù)據(jù)傳輸依然是經(jīng)過SSL加密的。如果要爬取這樣的站點,就需要設(shè)置忽略證書的選項,否則會提示SSL鏈接錯誤。
4. HTTP請求過程
我們在瀏覽器中輸入一個URL,回車之后便會在瀏覽器中觀察到頁面內(nèi)容。實際上,這個過程是瀏覽器向網(wǎng)站所在的服務(wù)器發(fā)送了一個請求,網(wǎng)站服務(wù)器接收到這個請求后進(jìn)行處理和解析,然后返回對應(yīng)的響應(yīng),接著傳回給瀏覽器。響應(yīng)里包含了頁面的源代碼等內(nèi)容,瀏覽器再對其進(jìn)行解析,便將網(wǎng)頁呈現(xiàn)了出來,模型如圖2-4所示。
此處客戶端即代表我們自己的PC或手機(jī)瀏覽器,服務(wù)器即要訪問的網(wǎng)站所在的服務(wù)器。
為了更直觀地地說明這個過程,這里用Chrome瀏覽器的開發(fā)者模式下的Network監(jiān)聽組件來做下演示,它可以顯示訪問當(dāng)前請求網(wǎng)頁時發(fā)生的所有網(wǎng)絡(luò)請求和響應(yīng)。
打開Chrome瀏覽器,右擊并選擇“檢查”項,即可打開瀏覽器的開發(fā)者工具。這里訪問百度http://www.baidu.com/,輸入該URL后回車,觀察這個過程中發(fā)生了怎樣的網(wǎng)絡(luò)請求??梢钥吹剑贜etwork頁面下方出現(xiàn)了一個個的條目,其中一個條目就代表一次發(fā)送請求和接收響應(yīng)的過程,如圖2-5所示。
我們先觀察第一個網(wǎng)絡(luò)請求,即www.baidu.com。
其中各列的含義如下。
第一列Name:請求的名稱,一般會將URL的最后一部分內(nèi)容當(dāng)作名稱。
第二列Status:響應(yīng)的狀態(tài)碼,這里顯示為200,代表響應(yīng)是正常的。通過狀態(tài)碼,我們可以判斷發(fā)送了請求之后是否得到了正常的響應(yīng)。
第三列Type:請求的文檔類型。這里為document,代表我們這次請求的是一個HTML文檔,內(nèi)容就是一些HTML代碼。
第四列Initiator:請求源。用來標(biāo)記請求是由哪個對象或進(jìn)程發(fā)起的。
第五列Size:從服務(wù)器下載的文件和請求的資源大小。如果是從緩存中取得的資源,則該列會顯示from cache。
第六列Time:發(fā)起請求到獲取響應(yīng)所用的總時間。
第七列Waterfall:網(wǎng)絡(luò)請求的可視化瀑布流。
點擊這個條目,即可看到更詳細(xì)的信息,如圖2-6所示。
首先是General部分,Request URL為請求的URL,Request Method為請求的方法,Status Code為響應(yīng)狀態(tài)碼,Remote Address為遠(yuǎn)程服務(wù)器的地址和端口,Referrer Policy為Referrer判別策略。
再繼續(xù)往下看,可以看到,有Response Headers和Request Headers,這分別代表響應(yīng)頭和請求頭。請求頭里帶有許多請求信息,例如瀏覽器標(biāo)識、Cookies、Host等信息,這是請求的一部分,服務(wù)器會根據(jù)請求頭內(nèi)的信息判斷請求是否合法,進(jìn)而作出對應(yīng)的響應(yīng)。圖中看到的Response Headers就是響應(yīng)的一部分,例如其中包含了服務(wù)器的類型、文檔類型、日期等信息,瀏覽器接受到響應(yīng)后,會解析響應(yīng)內(nèi)容,進(jìn)而呈現(xiàn)網(wǎng)頁內(nèi)容。
下面我們分別來介紹一下請求和響應(yīng)都包含哪些內(nèi)容。
5. 請求
請求,由客戶端向服務(wù)端發(fā)出,可以分為4部分內(nèi)容:請求方法(Request Method)、請求的網(wǎng)址(Request URL)、請求頭(Request Headers)、請求體(Request Body)。
(1) 請求方法
常見的請求方法有兩種:GET和POST。
在瀏覽器中直接輸入URL并回車,這便發(fā)起了一個GET請求,請求的參數(shù)會直接包含到URL里。例如,在百度中搜索Python,這就是一個GET請求,鏈接為https://www.baidu.com/s?wd=Python,其中URL中包含了請求的參數(shù)信息,這里參數(shù)wd表示要搜尋的關(guān)鍵字。POST請求大多在表單提交時發(fā)起。比如,對于一個登錄表單,輸入用戶名和密碼后,點擊“登錄”按鈕,這通常會發(fā)起一個POST請求,其數(shù)據(jù)通常以表單的形式傳輸,而不會體現(xiàn)在URL中。
GET和POST請求方法有如下區(qū)別。
GET請求中的參數(shù)包含在URL里面,數(shù)據(jù)可以在URL中看到,而POST請求的URL不會包含這些數(shù)據(jù),數(shù)據(jù)都是通過表單形式傳輸?shù)?,會包含在請求體中。
GET請求提交的數(shù)據(jù)最多只有1024字節(jié),而POST方式?jīng)]有限制。
一般來說,登錄時,需要提交用戶名和密碼,其中包含了敏感信息,使用GET方式請求的話,密碼就會暴露在URL里面,造成密碼泄露,所以這里最好以POST方式發(fā)送。上傳文件時,由于文件內(nèi)容比較大,也會選用POST方式。
我們平常遇到的絕大部分請求都是GET或POST請求,另外還有一些請求方法,如GET、HEAD、POST、PUT、DELETE、OPTIONS、CONNECT、TRACE等,我們簡單將其總結(jié)為表2-1。
本表參考:http://www.runoob.com/http/http-methods.html。
(2) 請求的網(wǎng)址
請求的網(wǎng)址,即統(tǒng)一資源定位符URL,它可以唯一確定我們想請求的資源。
(3) 請求頭
請求頭,用來說明服務(wù)器要使用的附加信息,比較重要的信息有Cookie、Referer、User-Agent等。下面簡要說明一些常用的頭信息。
Accept:請求報頭域,用于指定客戶端可接受哪些類型的信息。
Accept-Language:指定客戶端可接受的語言類型。
Accept-Encoding:指定客戶端可接受的內(nèi)容編碼。
Host:用于指定請求資源的主機(jī)IP和端口號,其內(nèi)容為請求URL的原始服務(wù)器或網(wǎng)關(guān)的位置。從HTTP 1.1版本開始,請求必須包含此內(nèi)容。
Cookie:也常用復(fù)數(shù)形式 Cookies,這是網(wǎng)站為了辨別用戶進(jìn)行會話跟蹤而存儲在用戶本地的數(shù)據(jù)。它的主要功能是維持當(dāng)前訪問會話。例如,我們輸入用戶名和密碼成功登錄某個網(wǎng)站后,服務(wù)器會用會話保存登錄狀態(tài)信息,后面我們每次刷新或請求該站點的其他頁面時,會發(fā)現(xiàn)都是登錄狀態(tài),這就是Cookies的功勞。Cookies里有信息標(biāo)識了我們所對應(yīng)的服務(wù)器的會話,每次瀏覽器在請求該站點的頁面時,都會在請求頭中加上Cookies并將其發(fā)送給服務(wù)器,服務(wù)器通過Cookies識別出是我們自己,并且查出當(dāng)前狀態(tài)是登錄狀態(tài),所以返回結(jié)果就是登錄之后才能看到的網(wǎng)頁內(nèi)容。
Referer:此內(nèi)容用來標(biāo)識這個請求是從哪個頁面發(fā)過來的,服務(wù)器可以拿到這一信息并做相應(yīng)的處理,如作來源統(tǒng)計、防盜鏈處理等。
User-Agent:簡稱UA,它是一個特殊的字符串頭,可以使服務(wù)器識別客戶使用的操作系統(tǒng)及版本、瀏覽器及版本等信息。在做爬蟲時加上此信息,可以偽裝為瀏覽器;如果不加,很可能會被識別出為爬蟲。
Content-Type:也叫互聯(lián)網(wǎng)媒體類型(Internet Media Type)或者M(jìn)IME類型,在HTTP協(xié)議消息頭中,它用來表示具體請求中的媒體類型信息。例如,text/html代表HTML格式,image/gif代表GIF圖片,application/json代表JSON類型,更多對應(yīng)關(guān)系可以查看此對照表:http://tool.oschina.net/commons。
因此,請求頭是請求的重要組成部分,在寫爬蟲時,大部分情況下都需要設(shè)定請求頭。
(4) 請求體
請求體一般承載的內(nèi)容是POST請求中的表單數(shù)據(jù),而對于GET請求,請求體則為空。
例如,這里我登錄GitHub時捕獲到的請求和響應(yīng)如圖2-7所示。
登錄之前,我們填寫了用戶名和密碼信息,提交時這些內(nèi)容就會以表單數(shù)據(jù)的形式提交給服務(wù)器,此時需要注意Request Headers中指定Content-Type為application/x-www-form-urlencoded。只有設(shè)置Content-Type為application/x-www-form-urlencoded,才會以表單數(shù)據(jù)的形式提交。另外,我們也可以將Content-Type設(shè)置為application/json來提交JSON數(shù)據(jù),或者設(shè)置為multipart/form-data來上傳文件。
表2-2列出了Content-Type和POST提交數(shù)據(jù)方式的關(guān)系。
在爬蟲中,如果要構(gòu)造POST請求,需要使用正確的Content-Type,并了解各種請求庫的各個參數(shù)設(shè)置時使用的是哪種Content-Type,不然可能會導(dǎo)致POST提交后無法正常響應(yīng)。
6. 響應(yīng)
響應(yīng),由服務(wù)端返回給客戶端,可以分為三部分:響應(yīng)狀態(tài)碼(Response Status Code)、響應(yīng)頭(Response Headers)和響應(yīng)體(Response Body)。
(1) 響應(yīng)狀態(tài)碼
響應(yīng)狀態(tài)碼表示服務(wù)器的響應(yīng)狀態(tài),如200代表服務(wù)器正常響應(yīng),404代表頁面未找到,500代表服務(wù)器內(nèi)部發(fā)生錯誤。在爬蟲中,我們可以根據(jù)狀態(tài)碼來判斷服務(wù)器響應(yīng)狀態(tài),如狀態(tài)碼為200,則證明成功返回數(shù)據(jù),再進(jìn)行進(jìn)一步的處理,否則直接忽略。表2-3列出了常見的錯誤代碼及錯誤原因。
(2) 響應(yīng)頭
響應(yīng)頭包含了服務(wù)器對請求的應(yīng)答信息,如Content-Type、Server、Set-Cookie等。下面簡要說明一些常用的頭信息。
Date:標(biāo)識響應(yīng)產(chǎn)生的時間。
Last-Modified:指定資源的最后修改時間。
Content-Encoding:指定響應(yīng)內(nèi)容的編碼。
Server:包含服務(wù)器的信息,比如名稱、版本號等。
Content-Type:文檔類型,指定返回的數(shù)據(jù)類型是什么,如text/html代表返回HTML文檔,application/x-javascript則代表返回JavaScript文件,image/jpeg則代表返回圖片。
Set-Cookie:設(shè)置Cookies。響應(yīng)頭中的Set-Cookie告訴瀏覽器需要將此內(nèi)容放在Cookies中,下次請求攜帶Cookies請求。
Expires:指定響應(yīng)的過期時間,可以使代理服務(wù)器或瀏覽器將加載的內(nèi)容更新到緩存中。如果再次訪問時,就可以直接從緩存中加載,降低服務(wù)器負(fù)載,縮短加載時間。
(3) 響應(yīng)體
最重要的當(dāng)屬響應(yīng)體的內(nèi)容了。響應(yīng)的正文數(shù)據(jù)都在響應(yīng)體中,比如請求網(wǎng)頁時,它的響應(yīng)體就是網(wǎng)頁的HTML代碼;請求一張圖片時,它的響應(yīng)體就是圖片的二進(jìn)制數(shù)據(jù)。我們做爬蟲請求網(wǎng)頁后,要解析的內(nèi)容就是響應(yīng)體,如圖2-8所示。
在瀏覽器開發(fā)者工具中點擊Preview,就可以看到網(wǎng)頁的源代碼,也就是響應(yīng)體的內(nèi)容,它是解析的目標(biāo)。
在做爬蟲時,我們主要通過響應(yīng)體得到網(wǎng)頁的源代碼、JSON數(shù)據(jù)等,然后從中做相應(yīng)內(nèi)容的提取。
感謝各位的閱讀!關(guān)于關(guān)于Python3爬蟲中HTTP的基本原理分析就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,讓大家可以學(xué)到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到吧!