我是一名程序員,我的第一份工作是做ERP的公司,之后公司又添加了電商的業(yè)務(wù)線,電商有個特點他們天天后半夜打單發(fā)貨,一有問題就得半夜從被窩里爬出來修改,在公司干了10年,最后實在扛不住了,換了一份工作,是做外貿(mào)拓客系統(tǒng),這個客戶群體非常好,只有工作日才用軟件,休息時間幾乎沒有問題。
我們擁有10多年網(wǎng)頁設(shè)計和網(wǎng)站建設(shè)經(jīng)驗,從網(wǎng)站策劃到網(wǎng)站制作,我們的網(wǎng)頁設(shè)計師為您提供的解決方案。為企業(yè)提供做網(wǎng)站、網(wǎng)站建設(shè)、微信開發(fā)、小程序定制開發(fā)、成都做手機網(wǎng)站、H5網(wǎng)站設(shè)計、等業(yè)務(wù)。無論您有什么樣的網(wǎng)站設(shè)計或者設(shè)計方案要求,我們都將富于創(chuàng)造性的提供專業(yè)設(shè)計服務(wù)并滿足您的需求。這份工作讓我接觸了數(shù)據(jù)采集,主要是采集各大社媒平臺的聯(lián)系方式,還有搜索引擎。
說句非常霸道的話“只要在瀏覽器看見的內(nèi)容,都能給你采集下來”,事實真的是如此嗎?
事實就是如此,“但是”就怕這個“但是”,哈哈,這些大的平臺都有很麻煩的反爬技術(shù)
反爬方式
? 第一,人機驗證,你訪問多了他就出驗證碼,這些驗證碼就千奇百怪了
? 消耗人民幣策略來了,上打碼平臺,這些驗證碼交給平臺,平臺的背后也是人來識別,咱把他識別好的結(jié)果去過網(wǎng)站上的驗證,一般是1000個驗證碼,3美元
? 第二,封ip,使用同一個ip訪問多了,就訪問不了了
? 消耗人民幣策略來了,ip代理,國內(nèi)ip相對比較便宜,我們用不上國內(nèi)ip也沒研究它,國外ip,按流量計費,比如1G=2美元,這還是便宜的機房ip,還有住宅ip這個相對更貴,使用這種ip采集價值比較高,我感覺他們是在客戶電腦裝有小后門,它不是毒只是做了一下代理,你也不知道
? 第三,必須賬號密碼才能登陸的系統(tǒng),被人發(fā)現(xiàn),就是封賬號
? 消耗人民幣策略來了,這個辦法牛逼了,在注冊一個賬號,哈哈,簡單有效。我曾經(jīng)遇到過一個是郵箱注冊的網(wǎng)站,我搭建了一個郵件系統(tǒng),獲取郵件中的驗證碼,自動注冊賬號,最后給我這個域名后綴的都給封了,不讓注冊,遇到這種情況,要是可以買一個VIP,這樣一般不封
這三個都是需要花錢的,其他方式都可以通過技術(shù)越過去
采集方式
? 第一,直接通過get/post請求獲取內(nèi)容,這種最舒服,速度快,程序還好寫
? 第二,需要瀏覽器自動化腳本,我使用的是python+selenium,這種采集速度慢,寫起來復(fù)雜
? 第三,這種方式其實是第二種的一個擴展,使用mitmproxy代理,可以直接取到后臺響應(yīng)的json數(shù)據(jù),在這個基礎(chǔ)上在深挖,就是研究網(wǎng)站的js,直接調(diào)用js方法觸發(fā)后臺請求,就可以在頁面不動的情況下獲取內(nèi)容,研究對方網(wǎng)站js是最掉頭發(fā)的事情,js不壓縮的還好,要是遇到npm打包的項目,眼淚都得下來,需要一點點解讀分析
這就是我采集數(shù)據(jù)這些年的總結(jié),謝謝大家的閱讀,第一次寫文章,希望大家支持。
你是否還在尋找穩(wěn)定的海外服務(wù)器提供商?創(chuàng)新互聯(lián)www.cdcxhl.cn海外機房具備T級流量清洗系統(tǒng)配攻擊溯源,準(zhǔn)確流量調(diào)度確保服務(wù)器高可用性,企業(yè)級服務(wù)器適合批量采購,新人活動首月15元起,快前往官網(wǎng)查看詳情吧