創(chuàng)新互聯(lián)www.cdcxhl.cn八線動態(tài)BGP香港云服務器提供商,新人活動買多久送多久,劃算不套路!
成都創(chuàng)新互聯(lián)是專業(yè)的察隅網站建設公司,察隅接單;提供成都網站建設、成都做網站,網頁設計,網站設計,建網站,PHP網站建設等專業(yè)做網站服務;采用PHP框架,可快速的進行察隅網站開發(fā)網頁制作和功能擴展;專業(yè)做搜索引擎喜愛的網站,專業(yè)的做網站團隊,希望更多企業(yè)前來合作!這篇文章主要介紹JavaScript如何設置cookies,文中介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們一定要看完!
網頁端抓數(shù)據(jù)免不了要跟JavaScript打交道,尤其是JS代碼有混淆,對cookie做了手腳。找到cookie生成的地方要費一點時間。
這樣一個網頁,用瀏覽器打開很正常。然而用requests下載URL卻得到“521”的狀態(tài)碼,返回的內容是一串壓縮混淆的JavaScript代碼。就是下面這個樣子:
返回的是JavaScript就好說了??隙ㄊ菫g覽器運行這段JavaScript后,再次加載就可以得到真實網頁內容了。
那么問題來了,這段js代碼都做了些什么呢?
我們先觀察一下瀏覽器的加載過程。因為你已經成功打開了這個網頁,瀏覽器已經記住了某些關鍵的cookies,所以你要先把cookies刪除。
如何刪除Chrome瀏覽器記錄的某個網站的cookies呢?
打開Chrome的settings,按這個路徑尋找cookies刪除的地方:Advanced -> Content Settings -> Cookies -> See all cookies and site data 。
然后在右上角的搜索欄搜索 mps.gov 就可以看到這個網站對應的cookies,把它們都刪除即可。
打開瀏覽器的Network,選中“Preserve log”,記住加載的歷史,然后用瀏覽器重新打開這個網址:
http://www.mps.gov.cn/n2253534/n2253535/index.html
可以看到Network記錄的加載過程:
觀察發(fā)現(xiàn),第一次返回了521,然后停頓片刻(實際上是1.5秒,后面js代碼可以看到)再次加載該網頁,可以得到正確的網頁內容。
對比兩次請求的cookies,可以發(fā)現(xiàn)第二次多了些cookies。這些cookies有可能就是521時返回的js寫進去的。那么我們就來研究一下這段js代碼。
首先,我們需要一個js格式化的工具來幫助我們研究這段js代碼。工具很多,我們使用 https://beautifier.io/ 。把代碼copy到beautifier的網頁格式化一下:
先來理解一下這段代碼,1-16行沒什么特別的。16行要eval()一段js代碼字符串,這個很關鍵,看看它是什么。把 eval 改成 console.log,然后按F12調出Chrome的開發(fā)者工具,把全部js代碼copy到 Chrome的Console運行一下:
這時候,我們可以看到控制臺輸出了一段js的代碼,把這段代碼再copy到beautifier網頁格式化一下:
第4行可以看到,是給 document.cookie 賦值了,也就是給瀏覽器寫入的一個名為 __jsl_clearance 的cookie。這個cookie的生成跟第4行最后那個 function 有關,看代碼的樣子,又是一段加密算法。
我們可以讀懂這個function的實現(xiàn)用Python實現(xiàn)算法,但實際上這段代碼太難讀懂了。我們可以借助Python的 ExecJS、PyV8這樣的模塊來運行這段js同樣也可以得到cookie的值。
有了cookie的值,我們在Python里面使用requests.Session 就可以來加載這個網頁了。在Python中得到那個cookies并正確加載網頁內容,是對你Python能力的考驗。
以上是“JavaScript如何設置cookies”這篇文章的所有內容,感謝各位的閱讀!希望分享的內容對大家有幫助,更多相關知識,歡迎關注創(chuàng)新互聯(lián)-成都網站建設公司行業(yè)資訊頻道!