爬取網站為:http://xiaohua.zol.com.cn/youmo/
創(chuàng)新互聯(lián)公司2013年開創(chuàng)至今,是專業(yè)互聯(lián)網技術服務公司,擁有項目成都網站制作、網站設計網站策劃,項目實施與項目整合能力。我們以讓每一個夢想脫穎而出為使命,1280元梧州做網站,已為上家服務,為梧州各地企業(yè)和個人服務,聯(lián)系電話:18980820575查看網頁機構,爬取笑話內容時存在如下問題:
1、每頁需要進入“查看更多”鏈接下面網頁進行進一步爬取內容每頁查看更多鏈接內容比較多,多任務進行,這里采用線程池的方式,可以有效地控制系統(tǒng)中并發(fā)線程的數(shù)量。避免當系統(tǒng)中包含有大量的并發(fā)線程時,導致系統(tǒng)性能下降,甚至導致 Python 解釋器崩潰,引入線程池,花費時間更少,更效率。
2、查看鏈接笑話頁內容,div元素內部文本分布比較混亂。有的分布在
鏈接內有的屬于div的文本,可采用正則表達式的方式解決。
注意2種獲取元素節(jié)點的方式:
1)lxml獲取節(jié)點字符串
res=requests.get(url,headers=headers) html = res.text lxml 獲取節(jié)點寫法 element=etree.HTML(html) divEle=element.xpath("http://div[@class='article-text']")[0] # 獲取div節(jié)點 div= etree.tostring(divEle, encoding = 'utf-8' ).decode('utf-8') # 轉換為div字符串