一個熟悉爬蟲技術(shù)的人的獨白!
為化隆等地區(qū)用戶提供了全套網(wǎng)頁設(shè)計制作服務(wù),及化隆網(wǎng)站建設(shè)行業(yè)解決方案。主營業(yè)務(wù)為做網(wǎng)站、網(wǎng)站建設(shè)、化隆網(wǎng)站設(shè)計,以傳統(tǒng)方式定制建設(shè)網(wǎng)站,并提供域名空間備案等一條龍服務(wù),秉承以專業(yè)、用心的態(tài)度為用戶提供真誠的服務(wù)。我們深信只要達(dá)到每一位用戶的要求,就會得到認(rèn)可,從而選擇與我們長期合作。這樣,我們也可以走得更遠(yuǎn)!不得不說,Python爬蟲對于我來說真是個神器。之前在分析-些經(jīng)濟數(shù)據(jù)的時候,需要從網(wǎng)上抓取一些數(shù)據(jù)下來,想了很多方法,一開始是通過Excel,但是Excel只能爬下表格,局限性太大了。之后問了學(xué)編程的朋友,他說JavaScrip也能實現(xiàn),于是懵懵董董地就去學(xué)Java (我那朋友是學(xué)Java的,我當(dāng)時問他用Java能不能實現(xiàn),他說JavaScript好像可以,當(dāng)時我什么都不懂,就把JavaScript理解成是Java下的一個分支,以為JavaScript只是ava其中-個包什么的,于是我便去學(xué)了一小會Java,無知惹的禍啊。。。)。
但整個Java體系也太龐大了 ,學(xué)起來力不從心,畢竟我只是要運用其中一部分功能而已,于是學(xué)沒多久我就放棄了。就在我迷茫的時候,我發(fā)現(xiàn)了Python.....
廢話說多了,說說自己的學(xué)習(xí)經(jīng)歷吧。也給想學(xué)Python,想寫爬蟲的人一個參考。
一開始我是在網(wǎng)上自己找了個基礎(chǔ)的視頻來學(xué),Python真是門簡單的語言,之前懂一點Visual Basic,感覺Python也很適合給無編程基礎(chǔ)的人學(xué)習(xí)。
入門視頻到最后,就做出了我的第一個爬蟲一百度貼吧圖片爬蟲 (相信很多的教程都是以百度貼吧爬蟲為經(jīng)典例子來說的。)
一開始代碼很簡單,只能爬取第一頁的數(shù)據(jù),于是我加了一一個循環(huán),就能夠爬取制定頁數(shù)的圖片了。并且圖片是有按順序排列的,非常方便。在篩選網(wǎng)址的時候用正則表達(dá)式就好了。
可是我不經(jīng)?;熨N吧啊,也很少有要下載貼吧圖片的需求?;貧w初衷吧。我對投資有興趣,學(xué)編程有一個原因也是為了投資服務(wù)。在7月股災(zāi)進(jìn)行時的時候,我錯過了一個明顯的“撿錢”的機會,并非自身專業(yè)知識不夠,而是當(dāng)時在準(zhǔn)備考試,很少去看股市,這讓我心有不甘:要是有個東西能夠幫我自動爬取數(shù)據(jù)分析并推送就好了,于是有了以下學(xué)習(xí)軌跡:
一、爬取數(shù)據(jù)
在此順便提一下,可以到公眾號菜單欄的學(xué)習(xí)福利里面逛逛。里面有些教程還是挺不錯的。兩個可以替代Python里urlib和re正則表達(dá)式的庫,它們分別叫做requests和Ixml。
第一個庫挺不錯的,現(xiàn)在在獲取網(wǎng)頁源代碼時,我都用這個庫,大家如果有不懂的可以看看那個網(wǎng)站。第二個庫由于我是用3.4版本的Python,折騰了很久沒折騰進(jìn)去,于是我發(fā)現(xiàn)了另一個不錯的庫BeautifulSoup,詳細(xì)教程參考: Python爬蟲入門八之Beautiful Soup的用法
有了requests和Beautifulsoup,基本上可以實現(xiàn)我想要的很多功能了。我便做了一一個抓取分級基金數(shù)據(jù)的爬蟲:
二、分析并推送
其實在此分析其實還談不上,頂多算是篩選。(不過我相信隨著 我數(shù)學(xué)能力提升會能有進(jìn)一步的分析的,美好的祝愿。。。)篩選很簡單,就是漲幅或收益率等等滿足一定條件就保留下來,保留下來干嘛?推送啊! ! !
將保存下來的數(shù)據(jù)通過郵件發(fā)送到自己的郵箱,手機上下載個軟件,一切就大功告成了!
至此當(dāng)時學(xué)習(xí)Python的目的就達(dá)到了,當(dāng)時激動地要炸了! ! !
不過....那么好玩的東西,怎么能這么快就結(jié)束了?再折騰吧!
三、簡單的界面
等等! Python好像不能直接弄成exe可執(zhí)行文件,不能每次運行都開Python的窗口啊!強迫癥怎么能忍! 1上網(wǎng)搜搜發(fā)現(xiàn)有諸如py2exe的包可以轉(zhuǎn)換,可是老子是3.4版本啊! 折騰半天沒搞定,算了!我不是會點VB嗎,用那個吧。于是連界面都有了