小編給大家分享一下python爬蟲之如何抓取高匿ip代理,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!
成都創(chuàng)新互聯(lián)公司專注為客戶提供全方位的互聯(lián)網(wǎng)綜合服務(wù),包含不限于做網(wǎng)站、成都做網(wǎng)站、甘州網(wǎng)絡(luò)推廣、成都微信小程序、甘州網(wǎng)絡(luò)營銷、甘州企業(yè)策劃、甘州品牌公關(guān)、搜索引擎seo、人物專訪、企業(yè)宣傳片、企業(yè)代運(yùn)營等,從售前售中售后,我們都將竭誠為您服務(wù),您的肯定,是我們最大的嘉獎(jiǎng);成都創(chuàng)新互聯(lián)公司為所有大學(xué)生創(chuàng)業(yè)者提供甘州建站搭建服務(wù),24小時(shí)服務(wù)熱線:028-86922220,官方網(wǎng)址:www.cdcxhl.com
很多網(wǎng)站都有反爬蟲機(jī)制,只用一個(gè)ip去頻繁訪問網(wǎng)站的話,很容易引起網(wǎng)站管理員的注意,如果管理員將這個(gè)ip加入黑名單,那么這個(gè)爬蟲就廢掉了。所以,想要做大型的爬蟲的話,基本上是必須要面對(duì)ip的問題。
那么問題來了,我們?nèi)ツ睦锔愦韎p呢??第一種方法就是買買買?。]有什么事情是用錢解決不了的,如果有,那就加倍。
當(dāng)然,網(wǎng)上也有一堆免費(fèi)的ip代理,但是,免費(fèi)的質(zhì)量參差不齊,所以就需要進(jìn)行篩選。以西刺代理為例:用爬蟲爬取國內(nèi)的高匿代理IP,并進(jìn)行驗(yàn)證。(只爬取前五頁,后面的失效太多,沒有必要去驗(yàn)證了。)
class XiciSpider(scrapy.Spider): name = 'xici' allowed_domains = ['xicidaili.com'] start_urls = [] for i in range(1, 6): start_urls.append('http://www.xicidaili.com/nn/' + str(i)) def parse(self, response): ip = response.xpath('//tr[@class]/td[2]/text()').extract() port = response.xpath('//tr[@class]/td[3]/text()').extract() agreement_type = response.xpath('//tr[@class]/td[6]/text()').extract() proxies = zip(ip, port, agreement_type) # print(proxies) # 驗(yàn)證代理是否可用 for ip, port, agreement_type in proxies: proxy = {'http': agreement_type.lower() + '://' + ip + ':' + port, 'https': agreement_type.lower() + '://' + ip + ':' + port} try: # 設(shè)置代理鏈接 如果狀態(tài)碼為200 則表示該代理可以使用 print(proxy) resp = requests.get('http://icanhazip.com', proxies=proxy, timeout=2) print(resp.status_code) if resp.status_code == 200: print(resp.text) # print('success %s' % ip) item = DailiItem() item['proxy'] = proxy yield item except: print('fail %s' % ip)
Pipeline:
class DailiPipeline(object): def __init__(self): self.file = open('proxy.txt', 'w') def process_item(self, item, spider): self.file.write(str(item['proxy']) + '\n') return item def close_spider(self, spider): self.file.close()
以上是“python爬蟲之如何抓取高匿ip代理”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對(duì)大家有所幫助,如果還想學(xué)習(xí)更多知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!