由于這個例子比較簡單,所以這里我就省略掉分析請求的步驟了,直接來分析一下瀏覽器看到的效果與源碼分別長什么樣,找找有沒有什么突破口吧。
創(chuàng)新互聯(lián)公司始終堅持【策劃先行,效果至上】的經(jīng)營理念,通過多達10年累計超上千家客戶的網(wǎng)站建設總結了一套系統(tǒng)有效的全網(wǎng)整合營銷推廣解決方案,現(xiàn)已廣泛運用于各行各業(yè)的客戶,其中包括:石牌坊等企業(yè),備受客戶稱贊。
這是瀏覽器看到的效果:
可以在源碼中看到部分內(nèi)容被
替換。
打開瀏覽器的
開發(fā)者模式
,看看隱藏的文字是什么樣子的:
cdn.nlark.com/yuque/0/2020/webp/1313084/1589287177467-0a19a791-7fd1-4fc8-9664-92c0faf93a5b.webp">
第二個是下圖中在返回時的判斷語句,同樣是對 Node 中不存在的屬性進行判斷,所以也需要在這里進行相應的修改。
第二個修改點可以像這樣改:
以上兩點修改完后就可以獲取到所有被替換過的字符了,接下來只需要把它們替換進 HTML 里就可以還原出正常的頁面。替換的步驟這里就不再演示了,因為非常簡單,一看就會。當然反爬蟲有很多的方法,這個只是其中一個,所以只是大概的講述了下。但是不管使用什么方式采集數(shù)據(jù)都是一個長期的過程,所以需要配合代理才能更好的獲取數(shù)據(jù),而億牛云提供的爬蟲代理就能更好的助力我們進行數(shù)據(jù)采集,尤其是加強版,效果會更好。