真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網站制作重慶分公司

python爬蟲爬取幽默笑話網站-創(chuàng)新互聯(lián)

爬取網站為:http://xiaohua.zol.com.cn/youmo/

創(chuàng)新互聯(lián)公司2013年開創(chuàng)至今,是專業(yè)互聯(lián)網技術服務公司,擁有項目成都網站制作、網站設計網站策劃,項目實施與項目整合能力。我們以讓每一個夢想脫穎而出為使命,1280元梧州做網站,已為上家服務,為梧州各地企業(yè)和個人服務,聯(lián)系電話:18980820575

查看網頁機構,爬取笑話內容時存在如下問題:

1、每頁需要進入“查看更多”鏈接下面網頁進行進一步爬取內容每頁查看更多鏈接內容比較多,多任務進行,這里采用線程池的方式,可以有效地控制系統(tǒng)中并發(fā)線程的數(shù)量。避免當系統(tǒng)中包含有大量的并發(fā)線程時,導致系統(tǒng)性能下降,甚至導致 Python 解釋器崩潰,引入線程池,花費時間更少,更效率。

  • 創(chuàng)建線程 池threadpool.ThreadPool()
  • 創(chuàng)建需要線程池處理的任務即threadpool.makeRequests(),makeRequests存放的是要開啟多線程的函數(shù),以及函數(shù)相關參數(shù)和回調函數(shù),其中回調函數(shù)可以不寫(默認是無)。
  • 將創(chuàng)建的多個任務put到線程池中,threadpool.putRequest()
  • 等到所有任務處理完畢theadpool.pool()

2、查看鏈接笑話頁內容,div元素內部文本分布比較混亂。有的分布在

鏈接內有的屬于div的文本,可采用正則表達式的方式解決。

注意2種獲取元素節(jié)點的方式:

1)lxml獲取節(jié)點字符串

res=requests.get(url,headers=headers)
html = res.text
 
lxml 獲取節(jié)點寫法
element=etree.HTML(html)
divEle=element.xpath("http://div[@class='article-text']")[0]  # 獲取div節(jié)點
div= etree.tostring(divEle, encoding = 'utf-8' ).decode('utf-8') # 轉換為div字符串

網頁標題:python爬蟲爬取幽默笑話網站-創(chuàng)新互聯(lián)
文章源于:http://weahome.cn/article/heiid.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部