node.js怎么爬取中關(guān)村的在線電瓶車信息-創(chuàng)新互聯(lián)

這篇文章給大家分享的是有關(guān)node.js怎么爬取中關(guān)村的在線電瓶車信息的內(nèi)容。小編覺得挺實(shí)用的，因此分享給大家做個參考，一起跟隨小編過來看看吧。

創(chuàng)新互聯(lián)專注于漢陽網(wǎng)站建設(shè)服務(wù)及定制，我們擁有豐富的企業(yè)做網(wǎng)站經(jīng)驗。熱誠為您提供漢陽營銷型網(wǎng)站建設(shè)，漢陽網(wǎng)站制作、漢陽網(wǎng)頁設(shè)計、漢陽網(wǎng)站官網(wǎng)定制、微信小程序定制開發(fā)服務(wù)，打造漢陽網(wǎng)絡(luò)公司原創(chuàng)品牌,更為您提供漢陽網(wǎng)站排名全網(wǎng)營銷落地服務(wù)。

步驟

第一步，引入需要的庫

var cheerio = require('cheerio');
var fetch = require('node-fetch');

// cheerio 是一個類似瀏覽器端的jQuery，用來解析HTML的
// fetch 用來發(fā)送請求

第二步，設(shè)置初始的爬取的入口(我身處杭州，所以地區(qū)選了杭州的?)

// 初始url
var url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc"
// 由于每個a標(biāo)簽下是相對路徑，故需要一個根地址來拼接，如下
var urlRoot = "http://detail.zol.com.cn" 
// 存放所有url，之所以用set，是為了防止有相同的而重復(fù)爬去
var urls = new Set()
// 存儲所有數(shù)據(jù)
var data = []

至此，我們的準(zhǔn)備部分結(jié)束了?，接下來，開始表演了

分析網(wǎng)頁，思考爬取的方式

node.js怎么爬取中關(guān)村的在線電瓶車信息

每行4款，每頁是48款，一共16頁

思路：

每次獲取當(dāng)前頁48個鏈接，并點(diǎn)進(jìn)去之后，拿到該電瓶車的名稱和價格（其他信息獲取方式一樣，自行改就好?）
第一頁的全部完成之后，翻到下一頁，繼續(xù)爬，直到最后一頁結(jié)束

首先我們定義一個函數(shù)如下

// 這是得到每個頁面的48個鏈接，并開始發(fā)送請求

function ad(arg){
// 參數(shù) arg 先不管
// 本地化一下需要爬取的鏈接
let url2 = arg || url;
// 請求第一頁該網(wǎng)頁，拿到數(shù)據(jù)之后，復(fù)制給 app
var app = await fetch(url2).then(res=>res.text())
// 然后假裝用jQuery解析了
var $ = cheerio.load(app)
// 獲取當(dāng)前頁所有電瓶車的a標(biāo)簽
var ele = $("#J_PicMode a.pic")
// 存放已經(jīng)爬取過的url，防止重復(fù)爬取
var old_urls = []
var urlapp = []
//拿到所有a標(biāo)簽地址之后，存在數(shù)組里面，等會兒要開始爬的
for (let i = 0; i < ele.length; i++) {
old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text()))
}
// 用把URL一塊丟給promise處理
urlapp = await Promise.all(old_urls)
// 處理完成之后，循環(huán)加入jQuery?
for (let i = 0; i < urlapp.length; i++) {
let $2 = cheerio.load(urlapp[i],{decodeEntities: false})
data.push({
name:$2(".product-model__name").text(),
price:$2(".price-type").text()
})
}
// 至此，一頁的數(shù)據(jù)就爬完了
// console.log(data);

// 然后開始爬取下一頁
var nextURL = $(".next").attr('href')
// 判斷當(dāng)前頁是不是最后一頁
if (nextURL){
let next = await fetch(urlRoot+nextURL).then(res=>res.text())
// 獲取下一頁的標(biāo)簽，拿到地址，走你
ad(urlRoot+nextURL)
}
return data
}
ad()

完整代碼如下

var cheerio = require('cheerio');
var fetch = require('node-fetch');
var url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc"
var urlRoot = "http://detail.zol.com.cn"
// var url = "http://localhost:3222/app1"
var urls = new Set()
var data = [] 
async function ad(arg){
let url2 = arg || url;
var app = await fetch(url2).then(res=>res.text())
var $ = cheerio.load(app)
var ele = $("#J_PicMode a.pic")
var old_urls = []
var urlapp = []
for (let i = 0; i < ele.length; i++) {
old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text()))
}
urlapp = await Promise.all(old_urls)
for (let i = 0; i < urlapp.length; i++) {
let $2 = cheerio.load(urlapp[i],{decodeEntities: false})
data.push({
name:$2(".product-model__name").text(),
price:$2(".price-type").text()
})
}

var nextURL = $(".next").attr('href')
if (nextURL){
let next = await fetch(urlRoot+nextURL).then(res=>res.text())
ad(urlRoot+nextURL)
}
return data
}
ad()

感謝各位的閱讀！關(guān)于“node.js怎么爬取中關(guān)村的在線電瓶車信息”這篇文章就分享到這里了，希望以上內(nèi)容可以對大家有一定的幫助，讓大家可以學(xué)到更多知識，如果覺得文章不錯，可以把它分享出去讓更多的人看到吧！

當(dāng)前題目：node.js怎么爬取中關(guān)村的在線電瓶車信息-創(chuàng)新互聯(lián)
網(wǎng)站路徑：http://weahome.cn/article/dsoidj.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

node.js怎么爬取中關(guān)村的在線電瓶車信息-創(chuàng)新互聯(lián)

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管