python爬蟲---初識爬蟲

我們開始來談?wù)刾ython的爬蟲。

10多年的米東網(wǎng)站建設(shè)經(jīng)驗，針對設(shè)計、前端、開發(fā)、售后、文案、推廣等六對一服務(wù)，響應(yīng)快，48小時及時工作處理。營銷型網(wǎng)站的優(yōu)勢是能夠根據(jù)用戶設(shè)備顯示端的尺寸不同，自動調(diào)整米東建站的顯示方式，使網(wǎng)站能夠適用不同顯示終端，在瀏覽器中調(diào)整網(wǎng)站的寬度，無論在任何一種瀏覽器上瀏覽網(wǎng)站，都能展現(xiàn)優(yōu)雅布局與設(shè)計，從而大程度地提升瀏覽體驗。成都創(chuàng)新互聯(lián)公司從事“米東網(wǎng)站設(shè)計”,“米東網(wǎng)站推廣”以來，每個客戶項目都認(rèn)真落實執(zhí)行。

1.什么是爬蟲：

網(wǎng)絡(luò)爬蟲是一種按照一定的規(guī)則，自動地抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲?；ヂ?lián)網(wǎng)猶如一個大蜘蛛網(wǎng)，我們的爬蟲就猶如一個蜘蛛，當(dāng)在互聯(lián)網(wǎng)遇到所需要的資源，我們就會爬取下來，即為爬蟲是一個請求網(wǎng)站并且提取數(shù)據(jù)的自動化程序。

2.下面我們來提到兩個名詞：

1）請求，request即為我們的請求，當(dāng)我們在瀏覽器內(nèi)輸入網(wǎng)址，敲擊回車時，這時瀏覽器就會發(fā)送消息給該網(wǎng)址所在的服務(wù)器，這個過程叫做HTTP Request

2）響應(yīng)，response即為我們的響應(yīng)，服務(wù)器在接收到瀏覽器發(fā)送的消息后，能夠根據(jù)瀏覽器發(fā)送消息的內(nèi)容做出相應(yīng)的處理，然后把消息回傳給瀏覽器。這個過程就做HTTP Response。瀏覽器收到服務(wù)器的Response信息后，會對信息進行處理，然后展示。

3.Request中包含什么？

1）請求方式，請求方式主要包含get，post，另外還有put，head，delete，options等，但我們常用的、常見的還是get和post請求。

get請求：get請求方式所有的參數(shù)都包含在URL地址里，get請求可以直接在瀏覽器地址欄內(nèi)輸入URL地址，然后直接訪問。

post請求：比get方式多包含一個formdata數(shù)據(jù)，且參數(shù)沒有在URL地址內(nèi)。不可以直接在地址欄訪問，需要構(gòu)造一個form表單，進行提交訪問。

同時post請求所有參數(shù)不顯示地址欄內(nèi)，相對于get請求來說更安全。

2）請求URL，URL全稱統(tǒng)一資源定位符，如一個網(wǎng)頁文檔、一張圖片、一個視頻等都可以用URL唯一來確定。

3）請求頭，包含請求時的頭部信息，如User-Agent、Host、Cookies等信息，請求頭是一個很重要的參數(shù)，在很多爬蟲里需要設(shè)置請求頭信息，

一般權(quán)限驗證，瀏覽器類型等信息，如下圖所示：

4）請求體，請求時額外攜帶的數(shù)據(jù)，如表單提交時的表單數(shù)據(jù)，一般來說get方式請求時，都沒有請求體。

4.Response中包含什么？

1）響應(yīng)狀態(tài)，有多種響應(yīng)狀態(tài)，如200代表成功，404找不到頁面，500服務(wù)器錯誤

擴展：

-1xx ：報告的 -請求被接收到，繼續(xù)處理

-2xx ：成功 - 被成功地接收（received），理解（understood），接受（accepted）的動作。

-3xx ：重發(fā) - 為了完成請求必須采取進一步的動作。

-4xx ：客戶端出錯 - 請求包括錯的語法或不能被滿足。

-5xx ：服務(wù)器出錯 - 服務(wù)器無法完成顯然有效的請求。

2）響應(yīng)頭，如內(nèi)容類型、內(nèi)容長度、服務(wù)器信息、設(shè)置Cookie等等信息。如圖所示：

3）響應(yīng)體，最主要的部分，包含了請求資源的內(nèi)容，如網(wǎng)頁HTML，圖片，二進制數(shù)據(jù)（視頻，圖片等）等信息。

我們爬取的數(shù)據(jù)大部分就是從這個部分獲取的

5，我們所需要的環(huán)境和資源

1）python環(huán)境，最好是python3，python2在2020年就不再維護了，語法還是有一定差異的，我建議使用python3。

2）redis，mongo分關(guān)系型數(shù)據(jù)庫，安裝過程自行百度。（后期會有專門的博客來說明講解非關(guān)系型數(shù)據(jù)庫）。

3）scrapy環(huán)境，pip install scrapy即可安裝。

4）Urllib庫，Requests庫，BeautifulSoup庫，PyQuery，Selenium和與其相關(guān)聯(lián)的環(huán)境配置（后面我們會逐個來說明每一個庫和其操作使用方法）。

總結(jié)：爬蟲是一個請求網(wǎng)站并且提取數(shù)據(jù)的自動化程序。有的是通過原生html標(biāo)簽就可以獲取到數(shù)據(jù)，則有的需要通過解析ajax請求來取得數(shù)據(jù)。

#×××和學(xué)習(xí)資料。

當(dāng)前文章：python爬蟲---初識爬蟲
瀏覽路徑：http://weahome.cn/article/ggcids.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

python爬蟲---初識爬蟲

1.什么是爬蟲：

2.下面我們來提到兩個名詞：

3.Request中包含什么？

4.Response中包含什么？

5，我們所需要的環(huán)境和資源

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

python爬蟲---初識爬蟲

1.什么是爬蟲：

2.下面我們來提到兩個名詞：

3.Request中包含什么？

4.Response中包含什么？

5，我們所需要的環(huán)境和資源

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管

3.Request中包含什么？

4.Response中包含什么？