介紹
本文將介紹我是如何在python爬蟲(chóng)里面一步一步踩坑,然后慢慢走出來(lái)的,期間碰到的所有問(wèn)題我都會(huì)詳細(xì)說(shuō)明,讓大家以后碰到這些問(wèn)題時(shí)能夠快速確定問(wèn)題的來(lái)源,后面的代碼只是貼出了核心代碼,更詳細(xì)的代碼暫時(shí)沒(méi)有貼出來(lái)。
流程一覽
首先我是想爬某個(gè)網(wǎng)站上面的所有文章內(nèi)容,但是由于之前沒(méi)有做過(guò)爬蟲(chóng)(也不知道到底那個(gè)語(yǔ)言最方便),所以這里想到了是用python來(lái)做一個(gè)爬蟲(chóng)(畢竟人家的名字都帶有爬蟲(chóng)的含義😄),我這邊是打算先將所有從網(wǎng)站上爬下來(lái)的數(shù)據(jù)放到ElasticSearch里面, 選擇ElasticSearch的原因是速度快,里面分詞插件,倒排索引,需要數(shù)據(jù)的時(shí)候查詢效率會(huì)非常好(畢竟爬的東西比較多😄),然后我會(huì)將所有的數(shù)據(jù)在ElasticSearch的老婆kibana里面將數(shù)據(jù)進(jìn)行可視化出來(lái),并且分析這些文章內(nèi)容,可以先看一下預(yù)期可視化的效果(上圖了),這個(gè)效果圖是kibana6.4系統(tǒng)給予的幫助效果圖(就是說(shuō)你可以弄成這樣,我也想弄成這樣😁)。后面我會(huì)發(fā)一個(gè)dockerfile上來(lái)(現(xiàn)在還沒(méi)弄😳)。
環(huán)境需求
這些東西可以去找相應(yīng)的教程安裝,我這里只有ElasticSearch的安裝😢點(diǎn)我獲取安裝教程
第一步,使用python的pip來(lái)安裝需要的插件(第一個(gè)坑在這兒)
1.tomd:將html轉(zhuǎn)換成markdown
pip3 install tomd