真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

爬蟲所需要的爬蟲代理ip究竟是什么?-創(chuàng)新互聯(lián)

爬蟲所需要的爬蟲代理ip究竟是什么

創(chuàng)新互聯(lián)主營通山網(wǎng)站建設(shè)的網(wǎng)絡(luò)公司,主營網(wǎng)站建設(shè)方案,APP應(yīng)用開發(fā),通山h5微信小程序開發(fā)搭建,通山網(wǎng)站營銷推廣歡迎通山等地區(qū)企業(yè)咨詢

當(dāng)我們對(duì)某些網(wǎng)站進(jìn)行爬去的時(shí)候,我們經(jīng)常會(huì)換IP來避免爬蟲程序被封鎖。其實(shí)也是一個(gè)比較簡單的操作,目前網(wǎng)絡(luò)上有很多IP代理商,例如西刺,芝麻,犀牛等等。這些代理商一般都會(huì)提供透明代理,匿名代理,高匿代理。那么這幾種代理的區(qū)別是什么?我們?cè)撊绾芜x擇呢?本文的主要內(nèi)容是講解各種代理 IP 背后的原理。
1 代理類型
代理IP一共可以分成4種類型。前面提到過的透明代理IP,匿名代理IP,高匿名代理IP,還有一種就是混淆代理IP。最基礎(chǔ)的安全程度來說呢,他們的排列順序應(yīng)該是這個(gè)樣子的高匿 > 混淆 > 匿名 > 透明。
2 代理原理
代理類型主要取決于代理服務(wù)器端的配置。不同配置會(huì)形成不同的代理類型。在配置中,這三個(gè)變量REMOTE_ADDR,HTTP_VIA,HTTP_X_FORWARDED_FOR?是決定性因素。
1) REMOTE_ADDR
REMOTE_ADDR 表示客戶端的 IP,但是它的值不是由客戶端提供的,而是服務(wù)器根據(jù)客戶端的 IP 指定的。
如果使用瀏覽器直接訪問某個(gè)網(wǎng)站,那么網(wǎng)站的 web 服務(wù)器(Nginx、Apache等)就會(huì)把 REMOTE_ADDR 設(shè)為客戶端的 IP 地址。
如果我們給瀏覽器設(shè)置代理,我們?cè)L問目標(biāo)網(wǎng)站的請(qǐng)求會(huì)先經(jīng)過代理服務(wù)器,然后由代理服務(wù)器將請(qǐng)求轉(zhuǎn)化到目標(biāo)網(wǎng)站。那么網(wǎng)站的 web 代理服務(wù)器就會(huì)把 REMOTE_ADDR 設(shè)為代理服務(wù)器的 IP。
2)X-Forwarded-For(XFF)
X-Forwarded-For 是一個(gè) HTTP 擴(kuò)展頭部,用來表示 HTTP 請(qǐng)求端真實(shí) IP。當(dāng)客戶端使用了代理時(shí),web 代理服務(wù)器就不知道客戶端的真實(shí) IP 地址。為了避免這個(gè)情況,代理服務(wù)器通常會(huì)增加一個(gè) X-Forwarded-For 的頭信息,把客戶端的 IP 添加到頭信息里面。
X-Forwarded-For 請(qǐng)求頭格式如下:
X-Forwarded-For:?client,?proxy1,?proxy2
client 表示客戶端的 IP 地址;proxy1 是離服務(wù)端最遠(yuǎn)的設(shè)備 IP; proxy2 是次級(jí)代理設(shè)備的 IP;從格式中,可以看出從 client 到 server 是可以有多層代理的。
如果一個(gè) HTTP 請(qǐng)求到達(dá)服務(wù)器之前,經(jīng)過了三個(gè)代理 Proxy1、Proxy2、Proxy3,IP 分別為 IP1、IP2、IP3,用戶真實(shí) IP 為 IP0,那么按照 XFF 標(biāo)準(zhǔn),服務(wù)端最終會(huì)收到以下信息:
X-Forwarded-For:?IP0,?IP1,?IP2
Proxy3 直連服務(wù)器,它會(huì)給 XFF 追加 IP2,表示它是在幫 Proxy2 轉(zhuǎn)發(fā)請(qǐng)求。列表中并沒有 IP3,IP3 可以在服務(wù)端通過 Remote Address 字段獲得。我們知道 HTTP 連接基于 TCP 連接,HTTP 協(xié)議中沒有 IP 的概念,Remote Address 來自 TCP 連接,表示與服務(wù)端建立 TCP 連接的設(shè)備 IP,在這個(gè)例子里就是 IP3。
3)HTTP_VIA
via 是 HTTP 協(xié)議里面的一個(gè)header,記錄了一次 HTTP 請(qǐng)求所經(jīng)過的代理和網(wǎng)關(guān),經(jīng)過1個(gè)代理服務(wù)器,就添加一個(gè)代理服務(wù)器的信息,經(jīng)過2個(gè)就添加2個(gè)。
3 代理類型區(qū)別
1) 透明代理(Transparent Proxy)
代理服務(wù)器的配置如下:
REMOTE_ADDR?=?Proxy?IP
HTTP_VIA?=?Proxy?IP
HTTP_X_FORWARDED_FOR?=?Your?IP
透明代理雖然可以直接“隱藏”客戶端的 IP 地址,但是還是可以從HTTP_X_FORWARDED_FOR來查到客戶端的 IP 地址。
2) 匿名代理(Anonymous Proxy)
代理服務(wù)器的配置如下:
REMOTE_ADDR?=?proxy?IP
HTTP_VIA?=?proxy?IP
HTTP_X_FORWARDED_FOR?=?proxy?IP
匿名代理能提供隱藏客戶端 IP 地址的功能。使用匿名代理,服務(wù)器能知道客戶端使用用了代理,當(dāng)無法知道客戶端真實(shí) IP 地址。
3) 混淆代理(Distorting Proxy)
代理服務(wù)器的配置如下:
REMOTE_ADDR?=?Proxy?IP
HTTP_VIA?=?Proxy?IP
HTTP_X_FORWARDED_FOR?=?Random?IP?address
與匿名代理的原理相似,但是會(huì)偽裝得更逼真。如果客戶端使用了混淆代理,服務(wù)器還是能知道客戶端在使用代理,但是會(huì)得到一個(gè)假的客戶端 IP 地址。
2) 高匿代理(Elite ?Proxy 或 High Anonymity Proxy)
代理服務(wù)器的配置如下:
REMOTE_ADDR?=?Proxy?IP
HTTP_VIA?=?not?determined
HTTP_X_FORWARDED_FOR?=?not?determined
高匿代理既能讓服務(wù)器不清楚客戶端是否在使用代理,也能保證服務(wù)器獲取不到客戶端的真實(shí) IP 地址。
4 代理的選擇
普通的匿名代理IP能隱藏客戶機(jī)的真是IP,但是也會(huì)改變我們的請(qǐng)求信息,服務(wù)器端有可能會(huì)認(rèn)為我們使用了代理。不過使用此種代理時(shí),雖然被訪問的網(wǎng)站不能知道客戶端的 IP 地址,但仍然可以知道你在使用代理,當(dāng)然某些能夠偵測(cè) IP 的網(wǎng)頁仍然可以查到客戶端的 IP。
而不改變客戶機(jī)的請(qǐng)求,這樣在服務(wù)器看來就像有個(gè)真正的客戶瀏覽器在訪問它,這時(shí)客戶的真實(shí)IP是隱藏的,服務(wù)器端不會(huì)認(rèn)為我們使用了代理。
因此,爬蟲程序需要使用到爬蟲代理ip 時(shí),盡量選擇普通匿名代理和高匿名代理。另外,如果要保證數(shù)據(jù)不被代理服務(wù)器知道,推薦使用 HTTPS 協(xié)議的代理。

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。


網(wǎng)頁題目:爬蟲所需要的爬蟲代理ip究竟是什么?-創(chuàng)新互聯(lián)
瀏覽路徑:http://weahome.cn/article/phghj.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部