早在2016年,我用我的 阿里云ECS上運(yùn)行了一個(gè)長期性質(zhì)的爬蟲程序,內(nèi)容是采集風(fēng)云二號(hào)氣象衛(wèi)星照片,現(xiàn)在假期終于有時(shí)間回來查看結(jié)果,簡單統(tǒng)計(jì)如下(附圖):
超過十載行業(yè)經(jīng)驗(yàn),技術(shù)領(lǐng)先,服務(wù)至上的經(jīng)營模式,全靠網(wǎng)絡(luò)和口碑獲得客戶,為自己降低成本,也就是為客戶降低成本。到目前業(yè)務(wù)范圍包括了:做網(wǎng)站、網(wǎng)站建設(shè),成都網(wǎng)站推廣,成都網(wǎng)站優(yōu)化,整體網(wǎng)絡(luò)托管,微信平臺(tái)小程序開發(fā),微信開發(fā),成都app軟件開發(fā),同時(shí)也可以讓客戶的網(wǎng)站和網(wǎng)絡(luò)營銷和我們一樣獲得訂單和生意!
圖片總數(shù):45869 個(gè)文件
最早文件:201609131345.jpg
最晚文件:201910091415.jpg
1,數(shù)據(jù)源:
當(dāng)時(shí)意外獲得一個(gè)長期有效的數(shù)據(jù)來源,其URL參數(shù),為時(shí)間格式,也就是說有著明顯的規(guī)律。適合爬蟲運(yùn)行
2,爬蟲運(yùn)行:
這個(gè)爬蟲的運(yùn)行條件其實(shí)有2個(gè):1定時(shí)下載;2不停機(jī)運(yùn)行;
既然是氣象數(shù)據(jù),當(dāng)然得定時(shí)抓取,所以我寫了一個(gè)windows服務(wù),置于后臺(tái)連續(xù)運(yùn)行。雖然中間由于服務(wù)器其他問題導(dǎo)致中斷過幾次,不過架不住時(shí)間長久,因此還是成功連續(xù)采集了很多數(shù)據(jù)。
還有個(gè)要求就是不能關(guān)機(jī),程序需要連續(xù)運(yùn)行。我的最終方案就是使用 云服務(wù)器ECS部署運(yùn)行。避免使用個(gè)人PC長期開機(jī)來運(yùn)行。
3,處理存儲(chǔ):
首先,這個(gè)程序既然要長期運(yùn)行,那么非常避諱的一點(diǎn)就是所有結(jié)果都集中在一個(gè)本地文件夾里,因此我選用了阿里云對(duì)象存儲(chǔ)OSS,同時(shí)由于我需要不關(guān)機(jī),所以我最終是 云服務(wù)器ECS+ 對(duì)象存儲(chǔ)OSS,ECS和OSS使用了同地域的,因此內(nèi)網(wǎng)打通傳輸很快。這樣我就只在本地做一個(gè)臨時(shí)存儲(chǔ),轉(zhuǎn)存OSS后不再占用本地硬盤,這樣一來我才可以放心啟動(dòng)后“免維護(hù)”運(yùn)行這好幾年。
4,爬蟲關(guān)停
爬蟲的關(guān)停并非我本意,是我假期期間查看日志才知道數(shù)據(jù)源已經(jīng)失效了。因此本爬蟲壽終正寢。雖然我可以去尋找一下新的有效數(shù)據(jù)源,但是由于老數(shù)據(jù)我都沒用好,那么新的數(shù)據(jù)就暫時(shí)先不去尋找了。
我選用了阿里云推薦的OSS客戶端工具,由于我提前規(guī)劃好了ECS和OSS同地域,因此可以直接內(nèi)網(wǎng)下載到我的ECS,速度還是很快的,工具顯示大于60MB/s。工具部分截圖如圖:
為了避免OSS公網(wǎng)下載流量的費(fèi)用支出(其實(shí)是窮:直接下載6G大小文件,忙時(shí)價(jià)格為1塊5毛錢),我將OSS數(shù)據(jù)內(nèi)網(wǎng)下載后,走ECS的出帶寬下載回我PC本地。本地查看:
原文地址:
https://www.opengps.cn/Blog/View.aspx?id=590 文章的更新編輯依此鏈接為準(zhǔn)。歡迎關(guān)注源站原創(chuàng)文章!