真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

怎么在Node.JS中利用PhantomJs對(duì)網(wǎng)頁進(jìn)行抓取

本篇文章為大家展示了怎么在Node.JS中利用PhantomJs對(duì)網(wǎng)頁進(jìn)行抓取,內(nèi)容簡(jiǎn)明扼要并且容易理解,絕對(duì)能使你眼前一亮,通過這篇文章的詳細(xì)介紹希望你能有所收獲。

10年積累的成都網(wǎng)站制作、網(wǎng)站建設(shè)經(jīng)驗(yàn),可以快速應(yīng)對(duì)客戶對(duì)網(wǎng)站的新想法和需求。提供各種問題對(duì)應(yīng)的解決方案。讓選擇我們的客戶得到更好、更有力的網(wǎng)絡(luò)服務(wù)。我雖然不認(rèn)識(shí)你,你也不認(rèn)識(shí)我。但先網(wǎng)站制作后付款的網(wǎng)站建設(shè)流程,更有武進(jìn)免費(fèi)網(wǎng)站建設(shè)讓你可以放心的選擇與我們合作。

前言

當(dāng)想用 nodejs 抓取一些網(wǎng)頁 , 我第一反應(yīng)想到的就是使用 http 模塊 , 比如抓取百度首頁:

var http = require('http');
var req = http.request('http://www.baidu.com/', function (res) {
 res.setEncoding('utf8');
 res.on('data', function (chunk) {
  //響應(yīng)內(nèi)容
  console.log(chunk)
 });
});
req.end(function () {
 // console.log('連接關(guān)閉');
});

但是 , 這僅限于簡(jiǎn)單地抓取 html , 有很大的局限性。

假如你想要的內(nèi)容不在 html 里 , 而是 js 動(dòng)態(tài)生成的 , 那 http 模塊就不能滿足你的需求了 ;

假如網(wǎng)頁使 gbk 編碼的 , 上述方法也不太好用了。

假如是 https 上述方法也要改一改了。

我渴望一個(gè)更強(qiáng)大 , 但使用起來也不麻煩的工具。

PhantomJs

用 PhantomJs 就可以解決上述問題。

PhantomJs 就是一個(gè)沒有界面的瀏覽器。

安裝

使用 cnpm 安裝 PhantomJS 即可:

cnpm install phantomjs --save-dev

這里我沒有選擇全局安裝 , 因?yàn)槿职惭b的話 , 別人使用我的源碼的時(shí)候 , 不知道還有這么一個(gè)依賴 , 項(xiàng)目就跑不起來了。

如果你也選擇局部安裝 , 那么你需要在 package.json 里的 scripts 中加入一段 :

"phantomjs":"node_modules/.bin/phantomjs"

等下會(huì)用到這個(gè)的 , 到這里 , 安裝算完成了。

寫代碼

我們新建一個(gè)文件 , 名字隨意 , 這里我新建一個(gè) main.js :

var webpage = require('webpage');
var page = webpage.create();
page.open('http://www.baidu.com/', function (status) {
 var data;
 if (status === 'fail') {
  console.log('open page fail!');
 } else {
  console.log(page.content);//打印出HTML內(nèi)容
 }
 page.close();//關(guān)閉網(wǎng)頁
 phantom.exit();//退出phantomjs命令行
});

這里有個(gè) webpage 模塊 , 我們剛才明明沒有這個(gè)模塊 , 為什么能引用這個(gè)模塊 ???

當(dāng)然不能引用 , 假如我們使用 node main.js 來跑這段代碼 , 是跑不起來的 , 應(yīng)該這樣運(yùn)行這段代碼 :

npm run phantomjs main.js

這里的 npm run phantomjs 對(duì)應(yīng)的就是前面我們?cè)?package.json 里加入的那段命令 , 很方便吧 , 幾乎和 http 模塊一樣方便。

page.content 就是 html 代碼了 , 這個(gè) page 對(duì)象還有很多的屬性 , 功能更強(qiáng)大。

到這里 , 你就已經(jīng)算入門了 , 想知道更多可以去 phantomjs 官網(wǎng)看看文檔了。

上述內(nèi)容就是怎么在Node.JS中利用PhantomJs對(duì)網(wǎng)頁進(jìn)行抓取,你們學(xué)到知識(shí)或技能了嗎?如果還想學(xué)到更多技能或者豐富自己的知識(shí)儲(chǔ)備,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。


文章名稱:怎么在Node.JS中利用PhantomJs對(duì)網(wǎng)頁進(jìn)行抓取
文章來源:http://weahome.cn/article/pcscgi.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部