寫python協(xié)程時使用gevent模塊和queue模塊可以大大提高爬蟲速度。在同時爬取多個網(wǎng)站時,原來用for循環(huán)一個網(wǎng)站一個網(wǎng)站按循序順序爬,就像先燒飯后燒菜,兩個步驟異步進行。使用多協(xié)程可以讓爬蟲自己選擇爬取順序,就像邊燒飯邊燒菜,兩個步驟同步進行,速度自然快了。
不多說了,來看下代碼吧:
越城網(wǎng)站制作公司哪家好,找創(chuàng)新互聯(lián)!從網(wǎng)頁設(shè)計、網(wǎng)站建設(shè)、微信開發(fā)、APP開發(fā)、成都響應(yīng)式網(wǎng)站建設(shè)公司等網(wǎng)站項目制作,到程序開發(fā),運營維護。創(chuàng)新互聯(lián)從2013年開始到現(xiàn)在10年的時間,我們擁有了豐富的建站經(jīng)驗和運維經(jīng)驗,來保證我們的工作的順利進行。專注于網(wǎng)站建設(shè)就選創(chuàng)新互聯(lián)。
from gevent import monkey
monkey.patch_all()
#打上多協(xié)程布丁,下面的程序就可以執(zhí)行多協(xié)程了
import requests,gevent,csv
from gevent.queue import Queue
from bs4 import BeautifulSoup
#把所有URL都放到一個列表里:
url_list=[]
i=1
for i in range(10):
i=i+1
url='http://www.mtime.com/top/tv/top100/index-'+str(i)+'.html'
url_list.append(url)
#第一個url和別的不一樣,需要單獨加入
url_0='http://www.mtime.com/top/tv/top100/'
url_list.append(url_0)
headers={
'User-Agent':
}
csv_file=open('時光網(wǎng)電影列表.csv','a+',newline='',encoding='utf-8')
writer=csv.writer(csv_file)
file_head=['電影名稱','導演','主演','簡介']
writer.writerow(file_head)
def list(movies):
for movie in movies:
title=movie.find('h3',class_="px14 pb6").find('a').text
acts=movie.find_all('p')
try:
dic=acts[0].text
except IndexError:
dic='none'
try:
actor=acts[1].text
except IndexError:
actor='none'
try:
bief=movie.find('p',class_="mt3").text
except AttributeError:
bief='none'
writer.writerow([title,dic,actor,bief])
#所有url都放到‘不用等’房間里:
work=Queue()
for url in url_list:
work.put_nowait(url)
#爬蟲對象:
def crawler():
while not work.empty():
url=work.get_nowait()
res=requests.get(url,headers=headers)
soup=BeautifulSoup(res.text,'html.parser')
movies=soup.find_all('div',class_="mov_con")
list(movies)
print(url,work.qsize(),res.status_code)
#建立多協(xié)程任務(wù),任務(wù)不用建太多,2個就夠,太多的話對方服務(wù)器承受不了
tasks_list=[]
for x in range(2):
task=gevent.spawn(crawler)
tasks_list.append(task)
gevent.joinall(tasks_list)
csv_file.close()