在使用爬蟲爬取網(wǎng)絡(luò)數(shù)據(jù)時(shí),如果長時(shí)間對一個(gè)網(wǎng)站進(jìn)行抓取時(shí)可能會遇到IP被封的情況,這種情況可以使用代理更換ip來突破服務(wù)器封IP的限制。
創(chuàng)新互聯(lián)公司堅(jiān)持“要么做到,要么別承諾”的工作理念,服務(wù)領(lǐng)域包括:網(wǎng)站建設(shè)、網(wǎng)站設(shè)計(jì)、企業(yè)官網(wǎng)、英文網(wǎng)站、手機(jī)端網(wǎng)站、網(wǎng)站推廣等服務(wù),滿足客戶于互聯(lián)網(wǎng)時(shí)代的廣東網(wǎng)站設(shè)計(jì)、移動媒體設(shè)計(jì)的需求,幫助企業(yè)找到有效的互聯(lián)網(wǎng)解決方案。努力成為您成熟可靠的網(wǎng)絡(luò)建設(shè)合作伙伴!隨手在百度上搜索免費(fèi)代理IP,可以得到一系列的網(wǎng)站,這里我們通過對西刺網(wǎng)站的抓取來舉例。
通過編寫一個(gè)爬蟲來抓取網(wǎng)站上面的IP地址,端口,及類型,把這些信息存到本地。這里不做介紹。
驗(yàn)證代理IP是否可用。原理是使用代理IP訪問指定網(wǎng)站,如果返回狀態(tài)為200,表示這個(gè)代理是可以使用的。
# _*_ coding:utf-8 _*_ import urllib2 import re class TestProxy(object): def __init__(self): self.ip = '106.46.136.64' self.port = '808' self.url = 'http://www.baidu.com' self.timeout = 3 self.regex = re.compile(r'baidu.com') self.run() def run(self): self.linkWithProxy() def linkWithProxy(self): server = 'http://'+ self.ip + ':'+ self.port opener = urllib2.build_opener(urllib2.ProxyHandler({'http':server})) urllib2.install_opener(opener) try: response = urllib2.urlopen(self.url, timeout=self.timeout) except: print '%s connect failed' % server return else: try: str = response.read() except: print '%s connect failed' % server return if self.regex.search(str): print '%s connect success .......' % server print self.ip + ':' + self.port if __name__ == '__main__': Tp = TestProxy()