真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

NodePuppeteer圖像識別實現(xiàn)百度指數(shù)爬蟲的示例分析-創(chuàng)新互聯(lián)

這篇文章主要為大家展示了“Node Puppeteer圖像識別實現(xiàn)百度指數(shù)爬蟲的示例分析”,內(nèi)容簡而易懂,條理清晰,希望能夠幫助大家解決疑惑,下面讓小編帶領(lǐng)大家一起研究并學(xué)習(xí)一下“Node Puppeteer圖像識別實現(xiàn)百度指數(shù)爬蟲的示例分析”這篇文章吧。

創(chuàng)新互聯(lián)建站是一家朝氣蓬勃的網(wǎng)站建設(shè)公司。公司專注于為企業(yè)提供信息化建設(shè)解決方案。從事網(wǎng)站開發(fā),網(wǎng)站制作,網(wǎng)站設(shè)計,網(wǎng)站模板,微信公眾號開發(fā),軟件開發(fā),小程序設(shè)計,10余年建站對木托盤等多個行業(yè),擁有豐富的網(wǎng)站營銷經(jīng)驗。

note: 請勿濫用爬蟲給他人添麻煩

百度指數(shù)的反爬蟲策略

觀察百度指數(shù)的界面,指數(shù)數(shù)據(jù)是一個趨勢圖,當鼠標懸浮在某一天的時候,會觸發(fā)兩個請求,將結(jié)果顯示在懸浮框里面:

Node Puppeteer圖像識別實現(xiàn)百度指數(shù)爬蟲的示例分析

按照常規(guī)思路,我們先看下這個請求的內(nèi)容:

請求 1:

Node Puppeteer圖像識別實現(xiàn)百度指數(shù)爬蟲的示例分析 

Node Puppeteer圖像識別實現(xiàn)百度指數(shù)爬蟲的示例分析 

請求 2:

Node Puppeteer圖像識別實現(xiàn)百度指數(shù)爬蟲的示例分析

可以發(fā)現(xiàn),百度指數(shù)實際上在前端做了一定的反爬蟲策略。當鼠標移動到圖表上時,會觸發(fā)兩個請求,一個請求返回一段html,一個請求返回一張生成的圖片。html中并不包含實際數(shù)值,而是通過設(shè)置width和margin-left,來顯示圖片上的對應(yīng)字符。并且請求參數(shù)上帶有res、res1這種我們不知如何模擬的參數(shù),所以用常規(guī)的模擬請求或者html爬取的方式,都很難爬到百度指數(shù)的數(shù)據(jù)。

爬蟲思路

怎么突破百度這種反爬蟲方法呢,其實也很簡單,就是完全不去管他是如何反爬蟲的。我們只需模擬用戶操作,將需要的數(shù)值截圖下來,做圖像識別就行。步驟大概是:

  1. 模擬登錄

  2. 打開指數(shù)頁面

  3. 鼠標移動到指定日期

  4. 等待請求結(jié)束,截取數(shù)值部分的圖片

  5. 圖像識別得到值

  6. 循環(huán)第3~5步,就得到每一個日期對應(yīng)的值

這種方法理論上能爬任何網(wǎng)站的內(nèi)容,接下來我們來一步步實現(xiàn)爬蟲,下面會用到的庫:

  1. puppeteer 模擬瀏覽器操作

  2. node-tesseract tesseract的封裝,用來做圖像識別

  3. jimp 圖片裁剪

安裝Puppeteer, 模擬用戶操作

Puppeteer是Google Chrome團隊出品的Chrome自動化工具,用來控制Chrome執(zhí)行命令??梢阅M用戶操作,做自動化測試、爬蟲等。用法非常簡單,網(wǎng)上有不少入門教程,順著本文看完也大概可以知道如何使用。

API文檔: https://github.com/GoogleChrome/puppeteer/blob/master/docs/api.md

安裝:

npm install --save puppeteer

Puppeteer在安裝時會自動下載Chromium,以確??梢哉_\行。但是國內(nèi)網(wǎng)絡(luò)不一定能成功下載Chromium,如果下載失敗,可以使用cnpm來安裝,或者將下載地址改成淘寶的鏡像,然后再安裝:

npm config set PUPPETEER_DOWNLOAD_HOST=https://npm.taobao.org/mirrors
npm install --save puppeteer

你也可以在安裝時跳過Chromium下載,通過代碼指定本機Chrome路徑來運行:

// npm
npm install --save puppeteer --ignore-scripts

// node
puppeteer.launch({ executablePath: '/path/to/Chrome' });

實現(xiàn)

為版面整潔,下面只列出了主要部分,代碼涉及到selector的部分都用了...代替,完整代碼參看文章頂部的github倉庫。

打開百度指數(shù)頁面,模擬登錄

這里做的就是模擬用戶操作,一步步點擊和輸入。沒有處理登錄驗證碼的情況,處理驗證碼又是另一個話題了,如果你在本機登錄過百度,一般不需要驗證碼。

// 啟動瀏覽器,
// headless參數(shù)如果設(shè)置為true,Puppeteer將在后臺操作你Chromium,換言之你將看不到瀏覽器的操作過程
// 設(shè)為false則相反,會在你電腦上打開瀏覽器,顯示瀏覽器每一操作。
const browser = await puppeteer.launch({headless:false});
const page = await browser.newPage();

// 打開百度指數(shù)
await page.goto(BAIDU_INDEX_URL);

// 模擬登陸
await page.click('...');
await page.waitForSelecto('...');
// 輸入百度賬號密碼然后登錄
await page.type('...','username');
await page.type('...','password');
await page.click('...');
await page.waitForNavigation();
console.log(':white_check_mark: 登錄成功');

模擬移動鼠標,獲取需要的數(shù)據(jù)

需要將頁面滾動到趨勢圖的區(qū)域,然后移動鼠標到某個日期上,等待請求結(jié)束,tooltip顯示數(shù)值,再截圖保存圖片。

// 獲取chart第一天的坐標
const position = await page.evaluate(() => {
 const $image = document.querySelector('...');
 const $area = document.querySelector('...');
 const areaRect = $area.getBoundingClientRect();
 const imageRect = $image.getBoundingClientRect();

 // 滾動到圖表可視化區(qū)域
 window.scrollBy(0, areaRect.top);

 return { x: imageRect.x, y: 200 };
});

// 移動鼠標,觸發(fā)tooltip
await page.mouse.move(position.x, position.y);
await page.waitForSelector('...');

// 獲取tooltip信息
const tooltipInfo = await page.evaluate(() => {
 const $tooltip = document.querySelector('...');
 const $title = $tooltip.querySelector('...');
 const $value = $tooltip.querySelector('...');
 const valueRect = $value.getBoundingClientRect();
 const padding = 5;

 return {
 title: $title.textContent.split(' ')[0],
 x: valueRect.x - padding,
 y: valueRect.y,
 width: valueRect.width + padding * 2,
 height: valueRect.height
 }
});

截圖

計算數(shù)值的坐標,截圖并用jimp對裁剪圖片。

await page.screenshot({ path: imgPath });

// 對圖片進行裁剪,只保留數(shù)字部分
const img = await jimp.read(imgPath);
await img.crop(tooltipInfo.x, tooltipInfo.y, tooltipInfo.width, tooltipInfo.height);
// 將圖片放大一些,識別準確率會有提升
await img.scale(5);
await img.write(imgPath);

圖像識別

這里我們用Tesseract來做圖像識別,Tesseracts是Google開源的一款OCR工具,用來識別圖片中的文字,并且可以通過訓(xùn)練提高準確率。github上已經(jīng)有一個簡單的node封裝: node-tesseract ,需要你先安裝Tesseract并設(shè)置到環(huán)境變量。

Tesseract.process(imgPath, (err, val) => {
if (err || val == null) {
 console.error(':x: 識別失敗:' + imgPath);
 return;
}
console.log(val);

實際上未經(jīng)訓(xùn)練的Tesseracts識別起來會有少數(shù)幾個錯誤,比如把9開頭的數(shù)字識別成`3,這里需要通過訓(xùn)練去提升Tesseracts的準確率,如果識別過程出現(xiàn)的問題都是一樣的,也可以簡單通過正則去修復(fù)這些問題。

封裝

實現(xiàn)了以上幾點后,只需組合起來就可以封裝成一個百度指數(shù)爬蟲node庫。當然還有許多優(yōu)化的方法,比如批量爬取,指定天數(shù)爬取等,只要在這個基礎(chǔ)上實現(xiàn)都不難了。

const recognition = require('./src/recognition');
const Spider = require('./src/spider');

module.exports = {
 async run (word, options, puppeteerOptions = { headless: true }) {
 const spider = new Spider({ 
 imgDir, 
 ...options 
 }, puppeteerOptions);

 // 抓取數(shù)據(jù)
 await spider.run(word);

 // 讀取抓取到的截圖,做圖像識別
 const wordDir = path.resolve(imgDir, word);
 const imgNames = fs.readdirSync(wordDir);
 const result = [];

 imgNames = imgNames.filter(item => path.extname(item) === '.png');

 for (let i = 0; i < imgNames.length; i++) {
 const imgPath = path.resolve(wordDir, imgNames[i]);
 const val = await recognition.run(imgPath);
 result.push(val);
 }

 return result;
 }
}

以上是“Node Puppeteer圖像識別實現(xiàn)百度指數(shù)爬蟲的示例分析”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對大家有所幫助,如果還想學(xué)習(xí)更多知識,歡迎關(guān)注創(chuàng)新互聯(lián)成都網(wǎng)站設(shè)計公司行業(yè)資訊頻道!

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機、免備案服務(wù)器”等云主機租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。


名稱欄目:NodePuppeteer圖像識別實現(xiàn)百度指數(shù)爬蟲的示例分析-創(chuàng)新互聯(lián)
分享URL:http://weahome.cn/article/dgjhos.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部