真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

程序員生涯,接觸數(shù)據(jù)采集后,頭發(fā)掉的飛快-創(chuàng)新互聯(lián)

我是一名程序員,我的第一份工作是做ERP的公司,之后公司又添加了電商的業(yè)務(wù)線,電商有個特點他們天天后半夜打單發(fā)貨,一有問題就得半夜從被窩里爬出來修改,在公司干了10年,最后實在扛不住了,換了一份工作,是做外貿(mào)拓客系統(tǒng),這個客戶群體非常好,只有工作日才用軟件,休息時間幾乎沒有問題。

我們擁有10多年網(wǎng)頁設(shè)計和網(wǎng)站建設(shè)經(jīng)驗,從網(wǎng)站策劃到網(wǎng)站制作,我們的網(wǎng)頁設(shè)計師為您提供的解決方案。為企業(yè)提供做網(wǎng)站、網(wǎng)站建設(shè)、微信開發(fā)、小程序定制開發(fā)、成都做手機網(wǎng)站、H5網(wǎng)站設(shè)計、等業(yè)務(wù)。無論您有什么樣的網(wǎng)站設(shè)計或者設(shè)計方案要求,我們都將富于創(chuàng)造性的提供專業(yè)設(shè)計服務(wù)并滿足您的需求。

這份工作讓我接觸了數(shù)據(jù)采集,主要是采集各大社媒平臺的聯(lián)系方式,還有搜索引擎。

說句非常霸道的話“只要在瀏覽器看見的內(nèi)容,都能給你采集下來”,事實真的是如此嗎?

事實就是如此,“但是”就怕這個“但是”,哈哈,這些大的平臺都有很麻煩的反爬技術(shù)

反爬方式

? 第一,人機驗證,你訪問多了他就出驗證碼,這些驗證碼就千奇百怪了

? 消耗人民幣策略來了,上打碼平臺,這些驗證碼交給平臺,平臺的背后也是人來識別,咱把他識別好的結(jié)果去過網(wǎng)站上的驗證,一般是1000個驗證碼,3美元

? 第二,封ip,使用同一個ip訪問多了,就訪問不了了

? 消耗人民幣策略來了,ip代理,國內(nèi)ip相對比較便宜,我們用不上國內(nèi)ip也沒研究它,國外ip,按流量計費,比如1G=2美元,這還是便宜的機房ip,還有住宅ip這個相對更貴,使用這種ip采集價值比較高,我感覺他們是在客戶電腦裝有小后門,它不是毒只是做了一下代理,你也不知道

? 第三,必須賬號密碼才能登陸的系統(tǒng),被人發(fā)現(xiàn),就是封賬號

? 消耗人民幣策略來了,這個辦法牛逼了,在注冊一個賬號,哈哈,簡單有效。我曾經(jīng)遇到過一個是郵箱注冊的網(wǎng)站,我搭建了一個郵件系統(tǒng),獲取郵件中的驗證碼,自動注冊賬號,最后給我這個域名后綴的都給封了,不讓注冊,遇到這種情況,要是可以買一個VIP,這樣一般不封

這三個都是需要花錢的,其他方式都可以通過技術(shù)越過去

采集方式

? 第一,直接通過get/post請求獲取內(nèi)容,這種最舒服,速度快,程序還好寫

? 第二,需要瀏覽器自動化腳本,我使用的是python+selenium,這種采集速度慢,寫起來復(fù)雜

? 第三,這種方式其實是第二種的一個擴展,使用mitmproxy代理,可以直接取到后臺響應(yīng)的json數(shù)據(jù),在這個基礎(chǔ)上在深挖,就是研究網(wǎng)站的js,直接調(diào)用js方法觸發(fā)后臺請求,就可以在頁面不動的情況下獲取內(nèi)容,研究對方網(wǎng)站js是最掉頭發(fā)的事情,js不壓縮的還好,要是遇到npm打包的項目,眼淚都得下來,需要一點點解讀分析

這就是我采集數(shù)據(jù)這些年的總結(jié),謝謝大家的閱讀,第一次寫文章,希望大家支持。

你是否還在尋找穩(wěn)定的海外服務(wù)器提供商?創(chuàng)新互聯(lián)www.cdcxhl.cn海外機房具備T級流量清洗系統(tǒng)配攻擊溯源,準(zhǔn)確流量調(diào)度確保服務(wù)器高可用性,企業(yè)級服務(wù)器適合批量采購,新人活動首月15元起,快前往官網(wǎng)查看詳情吧


分享名稱:程序員生涯,接觸數(shù)據(jù)采集后,頭發(fā)掉的飛快-創(chuàng)新互聯(lián)
標(biāo)題鏈接:http://weahome.cn/article/dpdsjh.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部