真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

Python怎么爬取一些簡單的論壇、帖子、網(wǎng)頁

這篇文章主要講解了“Python怎么爬取一些簡單的論壇、帖子、網(wǎng)頁”,文中的講解內(nèi)容簡單清晰,易于學(xué)習(xí)與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學(xué)習(xí)“Python怎么爬取一些簡單的論壇、帖子、網(wǎng)頁”吧!

創(chuàng)新互聯(lián)憑借專業(yè)的設(shè)計團隊扎實的技術(shù)支持、優(yōu)質(zhì)高效的服務(wù)意識和豐厚的資源優(yōu)勢,提供專業(yè)的網(wǎng)站策劃、成都網(wǎng)站建設(shè)、成都網(wǎng)站制作、網(wǎng)站優(yōu)化、軟件開發(fā)、網(wǎng)站改版等服務(wù),在成都10多年的網(wǎng)站建設(shè)設(shè)計經(jīng)驗,為成都上千家中小型企業(yè)策劃設(shè)計了網(wǎng)站。

引言

用最短的時間寫一個最簡單的爬蟲,可以抓一些簡單的論壇、帖子、網(wǎng)頁。

入門

1.準備工作

  • 安裝Python

  • 安裝scrapy框架

  • 一個IDE或者可以用自帶的

2.開始寫爬蟲

Python怎么爬取一些簡單的論壇、帖子、網(wǎng)頁

Python怎么爬取一些簡單的論壇、帖子、網(wǎng)頁

在spiders文件夾中創(chuàng)建一個python文件,比如miao.py,來作為爬蟲的腳本。

代碼如下:

Python怎么爬取一些簡單的論壇、帖子、網(wǎng)頁

3.運行一下

如果用命令行的話就這樣:

Python怎么爬取一些簡單的論壇、帖子、網(wǎng)頁

Python怎么爬取一些簡單的論壇、帖子、網(wǎng)頁

解析

1.試試神奇的xpath

Python怎么爬取一些簡單的論壇、帖子、網(wǎng)頁

Python怎么爬取一些簡單的論壇、帖子、網(wǎng)頁

Python怎么爬取一些簡單的論壇、帖子、網(wǎng)頁

2.看看xpath的效果

在最上面加上引用:

from scrapy import Selector

把parse函數(shù)改成:

Python怎么爬取一些簡單的論壇、帖子、網(wǎng)頁

我們再次運行一下,你就可以看到輸出“壇星際區(qū)”***頁所有帖子的標題和url了。

遞歸

Python怎么爬取一些簡單的論壇、帖子、網(wǎng)頁

完整的代碼如下:

Python怎么爬取一些簡單的論壇、帖子、網(wǎng)頁

Python怎么爬取一些簡單的論壇、帖子、網(wǎng)頁

Pipelines——管道

現(xiàn)在是對已抓取、解析后的內(nèi)容的處理,我們可以通過管道寫入本地文件、數(shù)據(jù)庫。

1.定義一個Item

在miao文件夾中創(chuàng)建一個items.py文件

Python怎么爬取一些簡單的論壇、帖子、網(wǎng)頁

這里我們定義了兩個簡單的class用來描述我們爬取的結(jié)果。

2. 處理方法

Python怎么爬取一些簡單的論壇、帖子、網(wǎng)頁

Python怎么爬取一些簡單的論壇、帖子、網(wǎng)頁

3.在爬蟲中調(diào)用這個處理方法。

Python怎么爬取一些簡單的論壇、帖子、網(wǎng)頁

Python怎么爬取一些簡單的論壇、帖子、網(wǎng)頁

4.在配置文件里指定這個pipeline

Python怎么爬取一些簡單的論壇、帖子、網(wǎng)頁

Python怎么爬取一些簡單的論壇、帖子、網(wǎng)頁

可以這樣配置多個pipeline:

Python怎么爬取一些簡單的論壇、帖子、網(wǎng)頁

Middleware——中間件

Python怎么爬取一些簡單的論壇、帖子、網(wǎng)頁

1.Middleware的配置

Python怎么爬取一些簡單的論壇、帖子、網(wǎng)頁

Python怎么爬取一些簡單的論壇、帖子、網(wǎng)頁

2.破網(wǎng)站查UA, 我要換UA

Python怎么爬取一些簡單的論壇、帖子、網(wǎng)頁

Python怎么爬取一些簡單的論壇、帖子、網(wǎng)頁

這里就是一個簡單的隨機更換UA的中間件,agents的內(nèi)容可以自行擴充。

3.破網(wǎng)站封IP,我要用代理

Python怎么爬取一些簡單的論壇、帖子、網(wǎng)頁

Python怎么爬取一些簡單的論壇、帖子、網(wǎng)頁

Python怎么爬取一些簡單的論壇、帖子、網(wǎng)頁

感謝各位的閱讀,以上就是“Python怎么爬取一些簡單的論壇、帖子、網(wǎng)頁”的內(nèi)容了,經(jīng)過本文的學(xué)習(xí)后,相信大家對Python怎么爬取一些簡單的論壇、帖子、網(wǎng)頁這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是創(chuàng)新互聯(lián),小編將為大家推送更多相關(guān)知識點的文章,歡迎關(guān)注!


新聞標題:Python怎么爬取一些簡單的論壇、帖子、網(wǎng)頁
文章位置:http://weahome.cn/article/pehpeh.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部