Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)-17、爬蟲(chóng)基本原理-創(chuàng)新互聯(lián)

爬蟲(chóng)，即網(wǎng)絡(luò)爬蟲(chóng)，我們可以把互聯(lián)網(wǎng)就比作一張大網(wǎng)，而爬蟲(chóng)便是在網(wǎng)上爬行的蜘蛛，我們可以把網(wǎng)的節(jié)點(diǎn)比做一個(gè)個(gè)網(wǎng)頁(yè)，爬蟲(chóng)爬到這就相當(dāng)于訪問(wèn)了該頁(yè)面獲取了其信息，節(jié)點(diǎn)間的連線可以比做網(wǎng)頁(yè)與網(wǎng)頁(yè)之間的鏈接關(guān)系，這樣蜘蛛通過(guò)一個(gè)節(jié)點(diǎn)后可以順著節(jié)點(diǎn)連線繼續(xù)爬行到達(dá)下一個(gè)節(jié)點(diǎn)，即通過(guò)一個(gè)網(wǎng)頁(yè)繼續(xù)獲取后續(xù)的網(wǎng)頁(yè)，這樣整個(gè)網(wǎng)的節(jié)點(diǎn)便可以被蜘蛛全部爬行到，這樣網(wǎng)站的數(shù)據(jù)就可以被抓取下來(lái)了。

白水ssl適用于網(wǎng)站、小程序/APP、API接口等需要進(jìn)行數(shù)據(jù)傳輸應(yīng)用場(chǎng)景，ssl證書(shū)未來(lái)市場(chǎng)廣闊！成為創(chuàng)新互聯(lián)的ssl證書(shū)銷(xiāo)售渠道，可以享受市場(chǎng)價(jià)格4-6折優(yōu)惠！如果有意向歡迎電話聯(lián)系或者加微信：13518219792（備注：SSL證書(shū)合作）期待與您的合作！

1. 爬蟲(chóng)概述

可能上面的說(shuō)明還是難以具體地描述爬蟲(chóng)究竟是個(gè)什么，簡(jiǎn)單來(lái)說(shuō)，爬蟲(chóng)就是獲取網(wǎng)頁(yè)并提取和保存信息的自動(dòng)化程序，接下來(lái)對(duì)各個(gè)點(diǎn)進(jìn)行說(shuō)明：

獲取網(wǎng)頁(yè)

爬蟲(chóng)首先要做的工作就是獲取網(wǎng)頁(yè)，在這里獲取網(wǎng)頁(yè)即獲取網(wǎng)頁(yè)的源代碼，源代碼里面必然包含了網(wǎng)頁(yè)的部分有用的信息，所以只要把源代碼獲取下來(lái)了，就可以從中提取我們想要的信息了。

在前面我們講到了 Request 和 Response 的概念，我們向網(wǎng)站的服務(wù)器發(fā)送一個(gè) Request，返回的 Response 的 Body 便是網(wǎng)頁(yè)源代碼。所以最關(guān)鍵的部分就是構(gòu)造一個(gè) Request 并發(fā)送給服務(wù)器，然后接收到 Response 并將其解析出來(lái)，那這個(gè)流程可以怎樣來(lái)實(shí)現(xiàn)呢？總不能手工去截取網(wǎng)頁(yè)源碼把？

不用擔(dān)心，Python 里面提供了許多庫(kù)來(lái)幫助我們實(shí)現(xiàn)這個(gè)操作，如 Urllib、Requests 等，我們可以用這些庫(kù)來(lái)幫助我們實(shí)現(xiàn) HTTP 請(qǐng)求操作，Request 和 Response 都可以用類(lèi)庫(kù)提供的數(shù)據(jù)結(jié)構(gòu)來(lái)表示，得到 Response 之后只需要解析數(shù)據(jù)結(jié)構(gòu)中的 Body 部分即可，即得到網(wǎng)頁(yè)的源代碼，這樣我們可以用程序來(lái)實(shí)現(xiàn)獲取網(wǎng)頁(yè)的過(guò)程了。
提取信息

我們?cè)诘谝徊将@取了網(wǎng)頁(yè)源代碼之后，接下來(lái)的工作就是分析網(wǎng)頁(yè)源代碼，從中提取我們想要的數(shù)據(jù)，首先最通用的方法便是采用正則表達(dá)式提取，這是一個(gè)萬(wàn)能的方法，但是在構(gòu)造正則表達(dá)式的時(shí)候比較復(fù)雜且容易出錯(cuò)。

另外由于網(wǎng)頁(yè)的結(jié)構(gòu)是有一定規(guī)則的，所以還有一些根據(jù)網(wǎng)頁(yè)節(jié)點(diǎn)屬性、CSS 選擇器或 XPath 來(lái)提取網(wǎng)頁(yè)信息的庫(kù)，如 BeautifulSoup、PyQuery、LXML 等，使用這些庫(kù)可以高效快速地從中提取網(wǎng)頁(yè)信息，如節(jié)點(diǎn)的屬性、文本值等內(nèi)容。

提取信息是爬蟲(chóng)非常重要的部分，它可以使雜亂的數(shù)據(jù)變得清晰條理，以便于我們后續(xù)在對(duì)數(shù)據(jù)進(jìn)行處理和分析。

保存數(shù)據(jù)

提取信息之后我們一般會(huì)將提取到的數(shù)據(jù)保存到某處以便后續(xù)數(shù)據(jù)處理使用。保存形式有多種多樣，如可以簡(jiǎn)單保存為 TXT 文本或 Json 文本，也可以保存到數(shù)據(jù)庫(kù)，如 MySQL、MongoDB 等，也可保存至遠(yuǎn)程服務(wù)器，如借助 Sftp 進(jìn)行操作等。

自動(dòng)化程序

說(shuō)到自動(dòng)化程序，意思即是說(shuō)爬蟲(chóng)可以代替人來(lái)完成這些操作。首先我們手工當(dāng)然是可以提取這些信息的，但是當(dāng)量特別大或者想快速獲取大量數(shù)據(jù)的話，肯定還是借助于程序。所以爬蟲(chóng)就是代替我們來(lái)完成這份爬取數(shù)據(jù)的工作的自動(dòng)化程序，它可以在抓取過(guò)程中進(jìn)行各種異常處理、錯(cuò)誤重試等操作，確保爬取持續(xù)高效地運(yùn)行。

2. 能抓怎樣的數(shù)據(jù)

在網(wǎng)頁(yè)中我們能看到各種各樣的信息，最常見(jiàn)的便是常規(guī)網(wǎng)頁(yè)，其都對(duì)應(yīng)著 HTML 代碼，而最常見(jiàn)的抓取便是抓取 HTML 源代碼。

另外可能有些網(wǎng)頁(yè)返回的不是 HTML 代碼，而是返回一個(gè) Json 字符串，API 接口大多采用這樣的形式，方便數(shù)據(jù)的傳輸和解析，這種數(shù)據(jù)同樣可以抓取，而且數(shù)據(jù)提取更加方便。

此外我們還可以看到各種二進(jìn)制數(shù)據(jù)，如圖片、視頻、音頻等等，我們可以利用爬蟲(chóng)將它們的二進(jìn)制數(shù)據(jù)抓取下來(lái)，然后保存成對(duì)應(yīng)的文件名即可。

另外我們還可以看到各種擴(kuò)展名的文件，如 CSS、JavaScript、配置文件等等，這些其實(shí)也是最普通的文件，只要在瀏覽器里面訪問(wèn)到，我們就可以將其抓取下來(lái)。

以上的內(nèi)容其實(shí)都對(duì)應(yīng)著各自的URL，是基于 HTTP 或 HTTPS 協(xié)議的，只要是這種數(shù)據(jù)爬蟲(chóng)都可以進(jìn)行抓取。

3. JavaScript渲染頁(yè)面

有時(shí)候我們?cè)谟?Urllib 或 Requests 抓取網(wǎng)頁(yè)時(shí)，得到的源代碼實(shí)際和瀏覽器中看到的是不一樣的。

這個(gè)問(wèn)題是一個(gè)非常常見(jiàn)的問(wèn)題，現(xiàn)在網(wǎng)頁(yè)越來(lái)越多地采用 Ajax、前端模塊化工具來(lái)構(gòu)建網(wǎng)頁(yè)，整個(gè)網(wǎng)頁(yè)可能都是由 JavaScript 渲染出來(lái)的，意思就是說(shuō)原始的 HTML 代碼就是一個(gè)空殼，例如：



    
        
        This is a Demo
    
    
        
        
    
    

Python資源分享qun 784758214 ,內(nèi)有安裝包，PDF，學(xué)習(xí)視頻，這里是Python學(xué)習(xí)者的聚集地，零基礎(chǔ)，進(jìn)階，都?xì)g迎

body 節(jié)點(diǎn)里面只有一個(gè) id 為 container 的節(jié)點(diǎn)，但是注意到在 body 節(jié)點(diǎn)后引入了一個(gè) app.js，這個(gè)便負(fù)責(zé)了整個(gè)網(wǎng)站的渲染。

在瀏覽器打開(kāi)這個(gè)頁(yè)面時(shí)，首先會(huì)加載這個(gè) HTML 內(nèi)容，接著瀏覽器會(huì)發(fā)現(xiàn)其中里面引入了一個(gè) app.js 文件，然后瀏覽器便會(huì)接著去請(qǐng)求這個(gè)文件，獲取到該文件之后便會(huì)執(zhí)行其中的 JavaScript 代碼，而 JavaScript 則會(huì)改變 HTML 中的節(jié)點(diǎn)，向內(nèi)添加內(nèi)容，最后得到完整的頁(yè)面。

但是在用 Urllib 或 Requests 等庫(kù)來(lái)請(qǐng)求當(dāng)前頁(yè)面時(shí)，我們得到的只是這個(gè) HTML 代碼，它不會(huì)幫助我們?nèi)ダ^續(xù)加載這個(gè) JavaScript 文件，這樣也就看不到瀏覽器中看到的內(nèi)容了。

這也解釋了為什么有時(shí)我們得到的源代碼和瀏覽器中看到的是不一樣的。

所以使用基本 HTTP 請(qǐng)求庫(kù)得到的結(jié)果源代碼可能跟瀏覽器中的頁(yè)面源代碼不太一樣。對(duì)于這樣的情況，我們可以分析其后臺(tái) Ajax 接口，也可使用 Selenium、Splash 這樣的庫(kù)來(lái)實(shí)現(xiàn)模擬 JavaScript 渲染，這樣我們便可以爬取 JavaScript 渲染的網(wǎng)頁(yè)的內(nèi)容了。

在后文我們會(huì)詳細(xì)介紹對(duì)于 JavaScript 渲染的網(wǎng)頁(yè)的采集方法。

4. 結(jié)語(yǔ)

本節(jié)介紹了爬蟲(chóng)的一些基本原理，了解了如上內(nèi)容可以幫助我們?cè)诤竺婢帉?xiě)爬蟲(chóng)的時(shí)候更加得心應(yīng)手。

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)cdcxhl.cn，海內(nèi)外云服務(wù)器15元起步，三天無(wú)理由+7*72小時(shí)售后在線，公司持有idc許可證，提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案，具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì)，專為企業(yè)上云打造定制，能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。

新聞名稱：Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)-17、爬蟲(chóng)基本原理-創(chuàng)新互聯(lián)
網(wǎng)站URL：http://weahome.cn/article/ccjjss.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)-17、爬蟲(chóng)基本原理-創(chuàng)新互聯(lián)

1. 爬蟲(chóng)概述

獲取網(wǎng)頁(yè)

保存數(shù)據(jù)

自動(dòng)化程序

2. 能抓怎樣的數(shù)據(jù)

3. JavaScript渲染頁(yè)面

4. 結(jié)語(yǔ)

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)-17、爬蟲(chóng)基本原理-創(chuàng)新互聯(lián)

1. 爬蟲(chóng)概述

獲取網(wǎng)頁(yè)

保存數(shù)據(jù)

自動(dòng)化程序

2. 能抓怎樣的數(shù)據(jù)

3. JavaScript渲染頁(yè)面

4. 結(jié)語(yǔ)

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管

Python3網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)-17、爬蟲(chóng)基本原理-創(chuàng)新互聯(lián)