公司主營業(yè)務(wù):成都網(wǎng)站設(shè)計(jì)、成都網(wǎng)站制作、移動(dòng)網(wǎng)站開發(fā)等業(yè)務(wù)。幫助企業(yè)客戶真正實(shí)現(xiàn)互聯(lián)網(wǎng)宣傳,提高企業(yè)的競爭能力。創(chuàng)新互聯(lián)是一支青春激揚(yáng)、勤奮敬業(yè)、活力青春激揚(yáng)、勤奮敬業(yè)、活力澎湃、和諧高效的團(tuán)隊(duì)。公司秉承以“開放、自由、嚴(yán)謹(jǐn)、自律”為核心的企業(yè)文化,感謝他們對我們的高要求,感謝他們從不同領(lǐng)域給我們帶來的挑戰(zhàn),讓我們激情的團(tuán)隊(duì)有機(jī)會用頭腦與智慧不斷的給客戶帶來驚喜。創(chuàng)新互聯(lián)推出費(fèi)縣免費(fèi)做網(wǎng)站回饋大家。
關(guān)注微信公眾號:K哥爬蟲,持續(xù)分享爬蟲進(jìn)階、JS/安卓逆向等技術(shù)干貨!
本文章中所有內(nèi)容僅供學(xué)習(xí)交流,抓包內(nèi)容、敏感網(wǎng)址、數(shù)據(jù)接口均已做脫敏處理,嚴(yán)禁用于商業(yè)用途和非法用途,否則由此產(chǎn)生的一切后果均與作者無關(guān),若有侵權(quán),請聯(lián)系我立即刪除!
通過抓包分析,可以發(fā)現(xiàn)本題不像前面幾題一樣 Payload 中參數(shù)有變化,而是在 Request Headers 里有個(gè) hexin-v 的,每次請求都會變化,如果有朋友做過某花順財(cái)經(jīng)爬蟲的話,會發(fā)現(xiàn)這個(gè)參數(shù)在某花順的站點(diǎn)里也大量使用,如下圖所示:
首先嘗試直接搜索一下 hexin-v,只在 6.js 里有值,很明顯這個(gè) JS 是被混淆了的,無法定位,仔細(xì)觀察一下,整個(gè) 6.js 為一個(gè)自執(zhí)行函數(shù)(IIFE),傳入的參數(shù)是7個(gè)數(shù)組,分別對應(yīng) n,t,r,e,a,u,c,如下所示:
!function (n, t, r, e, a, u, c) {
}(
[],[],[],[],[],[],[]
);
6.js 在調(diào)用值的時(shí)候都是通過元素下標(biāo)取值的,所以這個(gè)混淆也很簡單,如果你想去還原的話,直接寫個(gè)腳本將數(shù)組對應(yīng)的值進(jìn)行替換即可,當(dāng)然在本例中比較簡單,不用解混淆。
因?yàn)?hexin-v 的值在 Request Headers 里,所以我們可以通過 Hook 的方式,捕獲到設(shè)置 header 的 hexin-v 值時(shí)就 debugger ?。ㄗ⑷?Hook 代碼的方法K哥以前的文章有詳細(xì)講解,本文不再贅述):
(function () {
'use strict';
var org = window.XMLHttpRequest.prototype.setRequestHeader;
window.XMLHttpRequest.prototype.setRequestHeader = function (key, value) {
if (key == 'hexin-v') {
debugger;
}
return org.apply(this, arguments);
};
})();
接下來就是跟棧了,往上跟一個(gè)就可以在 6.js 里看到 h 的值就是我們想要的值,h = ct.update()
,ct.update()
實(shí)際上又是 x()
,如下圖所示:
繼續(xù)跟進(jìn) x()
,t 是我們想要的值,t = N()
:
繼續(xù)跟進(jìn) N()
,et.encode(n)
就是最終值,可以看到有一些類似鼠標(biāo)移動(dòng)、點(diǎn)擊等函數(shù):
前面我們已經(jīng)分析過,6.js 是個(gè)自執(zhí)行方法,而且代碼量也不是很多,所以我們這里直接定義一個(gè)全局變量,把這個(gè) N 方法導(dǎo)出即可,就不再挨個(gè)方法扣了,偽代碼如下:
// 定義全局變量
var Hexin;
!function (n, t, r, e, a, u, c) {
// 省略 N 多代碼
function N() {
S[T]++,
S[f] = ot.serverTimeNow(),
S[l] = ot.timeNow(),
S[k] = zn,
S[I] = it.getMouseMove(),
S[_] = it.getMouseClick(),
S[y] = it.getMouseWhell(),
S[E] = it.getKeyDown(),
S[A] = it.getClickPos().x,
S[C] = it.getClickPos().y;
var n = S.toBuffer();
return et.encode(n)
}
// 將 N 方法賦值給全局變量
Hexin = N
}(
[],[],[],[],[],[],[]
);
// 自定義函數(shù)獲取最終的 hexin-v 值
function getHexinV(){
return Hexin()
}
經(jīng)過如上改寫后,我們在本地調(diào)試一下,會發(fā)現(xiàn) window、document 之類的未定義,我們先按照以前的方法,直接定義為空,后續(xù)還會報(bào)錯(cuò) getElementsByTagName is not a function
,我們知道 getElementsByTagName 獲取指定標(biāo)簽名的對象,屬于 HTML DOM 的內(nèi)容,我們本地 node 執(zhí)行肯定是沒有這個(gè)環(huán)境的。
這里我們介紹一種能夠直接在 Node.js 創(chuàng)建 DOM 環(huán)境的方法,使用的是 jsdom 這個(gè)庫,官方是這么介紹的:
jsdom 是許多 Web 標(biāo)準(zhǔn)的純 JavaScript 實(shí)現(xiàn),特別是 WHATWG DOM 和 HTML 標(biāo)準(zhǔn),用于 Node.js。一般來說,該項(xiàng)目的目標(biāo)是模擬足夠多的 Web 瀏覽器子集,以用于測試和抓取真實(shí)的 Web 應(yīng)用程序。最新版本的 jsdom 需要 Node.js v12 或更新版本。(低于 v17 的 jsdom 版本仍然適用于以前的 Node.js 版本,但不受支持。)具體的用法可以參考 jsdom 文檔。
需要注意的是,jsdom 也依賴 canvas,所以也需要另外安裝 canvas 這個(gè)庫,HTML canvas 標(biāo)簽用于通過腳本(通常是 JavaScript)動(dòng)態(tài)繪制圖形,具體介紹和用法可以參考 canvas 文檔。
我們在本地 JS 中添加以下代碼后,就有了 DOM 環(huán)境,即可成功運(yùn)行:
// var canvas = require("canvas");
var jsdom = require("jsdom");
var {JSDOM} = jsdom;
var dom = new JSDOM(`Hello world
`);
window = dom.window;
document = window.document;
navigator = window.navigator;
配合 Python 代碼,在請求頭中,每次攜帶不同的 hexin-v,挨個(gè)計(jì)算每一頁的數(shù)據(jù),最終提交成功:
GitHub 關(guān)注 K 哥爬蟲,持續(xù)分享爬蟲相關(guān)代碼!歡迎 star !https://github.com/kgepachong/
以下只演示部分關(guān)鍵代碼,不能直接運(yùn)行! 完整代碼倉庫地址:https://github.com/kgepachong/crawler/
/* ==================================
# @Time : 2021-12-20
# @Author : 微信公眾號:K哥爬蟲
# @FileName: challenge_6.js
# @Software: PyCharm
# ================================== */
var TOKEN_SERVER_TIME = .340;
var Hexin;
var jsdom = require("jsdom");
var {JSDOM} = jsdom;
var dom = new JSDOM(`Hello world
`);
window = dom.window;
document = window.document;
navigator = window.navigator;
!function(n, t, r, e, a, u, c) {
!function() {
function Gn() {}
var Qn = [new a[23](n[20]), new e[3](f + l + d + p)];
function Zn() {}
var Jn = [new t[16](c[13]), new u[9](e[19])], qn = a[24][u[16]] || a[24].getElementsByTagName(st(r[19], r[20]))[a[25]], nt;
!function(o) {}(nt || (nt = {}));
var tt;
!function(o) {}(tt || (tt = {}));
var rt = function() {}(), et;
RT = rt
!function(o) {}(et || (et = {}));
function at() {}
var ot;
!function(o) {}(ot || (ot = {}));
var it;
!function(o) {}(it || (it = {}));
var ut;
!function(s) {}(ut || (ut = {}));
var ct;
!function(o) {
function x() {}
function L() {}
function M() {}
o[a[105]] = M;
function N() {
S[T]++,
S[f] = ot.serverTimeNow(),
S[l] = ot.timeNow(),
S[k] = zn,
S[I] = it.getMouseMove(),
S[_] = it.getMouseClick(),
S[y] = it.getMouseWhell(),
S[E] = it.getKeyDown(),
S[A] = it.getClickPos().x,
S[C] = it.getClickPos().y;
var n = S.toBuffer();
return et.encode(n)
}
Hexin = N
o[r[81]] = x
}(ct || (ct = {}));
function st() {}
var vt;
!function(o) {}(vt || (vt = {}));
var ft;
!function(r) {}(ft || (ft = {}))
}()
}(
[],[],[],[],[],[],[]
);
function getHexinV(){
return Hexin()
}
// 測試輸出
// console.log(getHexinV())
# ==================================
# --*-- coding: utf-8 --*--
# @Time : 2021-12-20
# @Author : 微信公眾號:K哥爬蟲
# @FileName: challenge_6.py
# @Software: PyCharm
# ==================================
import execjs
import requests
challenge_api = "http://spider.wangluozhe.com/challenge/api/6"
headers = {
"Content-Type": "application/x-www-form-urlencoded; charset=UTF-8",
"Cookie": "cookie 換成你自己的!",
"Host": "spider.wangluozhe.com",
"Origin": "http://spider.wangluozhe.com",
"Referer": "http://spider.wangluozhe.com/challenge/6",
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36",
"X-Requested-With": "XMLHttpRequest"
}
def get_hexin_v():
with open('challenge_6.js', 'r', encoding='utf-8') as f:
wlz_js = execjs.compile(f.read())
hexin_v = wlz_js.call("getHexinV")
print("hexin-v: ", hexin_v)
return hexin_v
def main():
result = 0
for page in range(1, 101):
data = {
"page": page,
"count": 10,
}
headers["hexin-v"] = get_hexin_v()
response = requests.post(url=challenge_api, headers=headers, data=data).json()
for d in response["data"]:
result += d["value"]
print("結(jié)果為: ", result)
if __name__ == '__main__':
main()