真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

一步步教你用python的scrapy編寫一個(gè)爬蟲(chóng)-創(chuàng)新互聯(lián)

介紹

為曹縣等地區(qū)用戶提供了全套網(wǎng)頁(yè)設(shè)計(jì)制作服務(wù),及曹縣網(wǎng)站建設(shè)行業(yè)解決方案。主營(yíng)業(yè)務(wù)為成都網(wǎng)站設(shè)計(jì)、成都網(wǎng)站建設(shè)、曹縣網(wǎng)站設(shè)計(jì),以傳統(tǒng)方式定制建設(shè)網(wǎng)站,并提供域名空間備案等一條龍服務(wù),秉承以專業(yè)、用心的態(tài)度為用戶提供真誠(chéng)的服務(wù)。我們深信只要達(dá)到每一位用戶的要求,就會(huì)得到認(rèn)可,從而選擇與我們長(zhǎng)期合作。這樣,我們也可以走得更遠(yuǎn)!

本文將介紹我是如何在python爬蟲(chóng)里面一步一步踩坑,然后慢慢走出來(lái)的,期間碰到的所有問(wèn)題我都會(huì)詳細(xì)說(shuō)明,讓大家以后碰到這些問(wèn)題時(shí)能夠快速確定問(wèn)題的來(lái)源,后面的代碼只是貼出了核心代碼,更詳細(xì)的代碼暫時(shí)沒(méi)有貼出來(lái)。


流程一覽


首先我是想爬某個(gè)網(wǎng)站上面的所有文章內(nèi)容,但是由于之前沒(méi)有做過(guò)爬蟲(chóng)(也不知道到底那個(gè)語(yǔ)言最方便),所以這里想到了是用python來(lái)做一個(gè)爬蟲(chóng)(畢竟人家的名字都帶有爬蟲(chóng)的含義😄),我這邊是打算先將所有從網(wǎng)站上爬下來(lái)的數(shù)據(jù)放到ElasticSearch里面, 選擇ElasticSearch的原因是速度快,里面分詞插件,倒排索引,需要數(shù)據(jù)的時(shí)候查詢效率會(huì)非常好(畢竟爬的東西比較多😄),然后我會(huì)將所有的數(shù)據(jù)在ElasticSearch的老婆kibana里面將數(shù)據(jù)進(jìn)行可視化出來(lái),并且分析這些文章內(nèi)容,可以先看一下預(yù)期可視化的效果(上圖了),這個(gè)效果圖是kibana6.4系統(tǒng)給予的幫助效果圖(就是說(shuō)你可以弄成這樣,我也想弄成這樣😁)。后面我會(huì)發(fā)一個(gè)dockerfile上來(lái)(現(xiàn)在還沒(méi)弄😳)。

環(huán)境需求

  • Jdk (Elasticsearch需要)
  • ElasticSearch (用來(lái)存儲(chǔ)數(shù)據(jù))
  • Kinaba (用來(lái)操作ElasticSearch和數(shù)據(jù)可視化)
  • Python (編寫爬蟲(chóng))
  • Redis (數(shù)據(jù)排重)

這些東西可以去找相應(yīng)的教程安裝,我這里只有ElasticSearch的安裝😢點(diǎn)我獲取安裝教程


第一步,使用python的pip來(lái)安裝需要的插件(第一個(gè)坑在這兒)

1.tomd:將html轉(zhuǎn)換成markdown

pip3 install tomd

文章題目:一步步教你用python的scrapy編寫一個(gè)爬蟲(chóng)-創(chuàng)新互聯(lián)
URL網(wǎng)址:http://weahome.cn/article/cojcjs.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部