真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

python爬蟲爬取幽默笑話網站-創(chuàng)新互聯(lián)

爬取網站為：http://xiaohua.zol.com.cn/youmo/

創(chuàng)新互聯(lián)公司2013年開創(chuàng)至今，是專業(yè)互聯(lián)網技術服務公司，擁有項目成都網站制作、網站設計網站策劃，項目實施與項目整合能力。我們以讓每一個夢想脫穎而出為使命，1280元梧州做網站,已為上家服務,為梧州各地企業(yè)和個人服務,聯(lián)系電話:18980820575

查看網頁機構，爬取笑話內容時存在如下問題：

1、每頁需要進入“查看更多”鏈接下面網頁進行進一步爬取內容每頁查看更多鏈接內容比較多，多任務進行，這里采用線程池的方式，可以有效地控制系統(tǒng)中并發(fā)線程的數(shù)量。避免當系統(tǒng)中包含有大量的并發(fā)線程時，導致系統(tǒng)性能下降，甚至導致 Python 解釋器崩潰，引入線程池，花費時間更少，更效率。

創(chuàng)建線程池threadpool.ThreadPool()
創(chuàng)建需要線程池處理的任務即threadpool.makeRequests()，makeRequests存放的是要開啟多線程的函數(shù)，以及函數(shù)相關參數(shù)和回調函數(shù)，其中回調函數(shù)可以不寫（默認是無）。
將創(chuàng)建的多個任務put到線程池中,threadpool.putRequest()
等到所有任務處理完畢theadpool.pool()

2、查看鏈接笑話頁內容，div元素內部文本分布比較混亂。有的分布在

鏈接內有的屬于div的文本，可采用正則表達式的方式解決。

注意2種獲取元素節(jié)點的方式：

1）lxml獲取節(jié)點字符串

res=requests.get(url,headers=headers)
html = res.text
 
lxml 獲取節(jié)點寫法
element=etree.HTML(html)
divEle=element.xpath("http://div[@class='article-text']")[0]  # 獲取div節(jié)點
div= etree.tostring(divEle, encoding = 'utf-8' ).decode('utf-8') # 轉換為div字符串

網頁標題：python爬蟲爬取幽默笑話網站-創(chuàng)新互聯(lián)
文章源于：http://weahome.cn/article/heiid.html