介紹
為曹縣等地區(qū)用戶提供了全套網(wǎng)頁(yè)設(shè)計(jì)制作服務(wù),及曹縣網(wǎng)站建設(shè)行業(yè)解決方案。主營(yíng)業(yè)務(wù)為成都網(wǎng)站設(shè)計(jì)、成都網(wǎng)站建設(shè)、曹縣網(wǎng)站設(shè)計(jì),以傳統(tǒng)方式定制建設(shè)網(wǎng)站,并提供域名空間備案等一條龍服務(wù),秉承以專業(yè)、用心的態(tài)度為用戶提供真誠(chéng)的服務(wù)。我們深信只要達(dá)到每一位用戶的要求,就會(huì)得到認(rèn)可,從而選擇與我們長(zhǎng)期合作。這樣,我們也可以走得更遠(yuǎn)!本文將介紹我是如何在python爬蟲(chóng)里面一步一步踩坑,然后慢慢走出來(lái)的,期間碰到的所有問(wèn)題我都會(huì)詳細(xì)說(shuō)明,讓大家以后碰到這些問(wèn)題時(shí)能夠快速確定問(wèn)題的來(lái)源,后面的代碼只是貼出了核心代碼,更詳細(xì)的代碼暫時(shí)沒(méi)有貼出來(lái)。
流程一覽
首先我是想爬某個(gè)網(wǎng)站上面的所有文章內(nèi)容,但是由于之前沒(méi)有做過(guò)爬蟲(chóng)(也不知道到底那個(gè)語(yǔ)言最方便),所以這里想到了是用python來(lái)做一個(gè)爬蟲(chóng)(畢竟人家的名字都帶有爬蟲(chóng)的含義😄),我這邊是打算先將所有從網(wǎng)站上爬下來(lái)的數(shù)據(jù)放到ElasticSearch里面, 選擇ElasticSearch的原因是速度快,里面分詞插件,倒排索引,需要數(shù)據(jù)的時(shí)候查詢效率會(huì)非常好(畢竟爬的東西比較多😄),然后我會(huì)將所有的數(shù)據(jù)在ElasticSearch的老婆kibana里面將數(shù)據(jù)進(jìn)行可視化出來(lái),并且分析這些文章內(nèi)容,可以先看一下預(yù)期可視化的效果(上圖了),這個(gè)效果圖是kibana6.4系統(tǒng)給予的幫助效果圖(就是說(shuō)你可以弄成這樣,我也想弄成這樣😁)。后面我會(huì)發(fā)一個(gè)dockerfile上來(lái)(現(xiàn)在還沒(méi)弄😳)。
環(huán)境需求
這些東西可以去找相應(yīng)的教程安裝,我這里只有ElasticSearch的安裝😢點(diǎn)我獲取安裝教程
第一步,使用python的pip來(lái)安裝需要的插件(第一個(gè)坑在這兒)
1.tomd:將html轉(zhuǎn)換成markdown
pip3 install tomd