這篇文章主要介紹“node.js如何爬取中關(guān)村的在線電瓶車信息”的相關(guān)知識(shí),小編通過實(shí)際案例向大家展示操作過程,操作方法簡(jiǎn)單快捷,實(shí)用性強(qiáng),希望這篇“node.js如何爬取中關(guān)村的在線電瓶車信息”文章能幫助大家解決問題。
創(chuàng)新互聯(lián)是一家專注于網(wǎng)站制作、成都網(wǎng)站設(shè)計(jì)與策劃設(shè)計(jì),德州網(wǎng)站建設(shè)哪家好?創(chuàng)新互聯(lián)做網(wǎng)站,專注于網(wǎng)站建設(shè)十多年,網(wǎng)設(shè)計(jì)領(lǐng)域的專業(yè)建站公司;建站業(yè)務(wù)涵蓋:德州等地區(qū)。德州做網(wǎng)站價(jià)格咨詢:18980820575
步驟
第一步,引入需要的庫(kù)
var cheerio = require('cheerio'); var fetch = require('node-fetch'); // cheerio 是一個(gè)類似瀏覽器端的jQuery,用來解析HTML的 // fetch 用來發(fā)送請(qǐng)求
第二步,設(shè)置初始的爬取的入口(我身處杭州,所以地區(qū)選了杭州的?)
// 初始url var url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc" // 由于每個(gè)a標(biāo)簽下是相對(duì)路徑,故需要一個(gè)根地址來拼接,如下 var urlRoot = "http://detail.zol.com.cn" // 存放所有url,之所以用set,是為了防止有相同的而重復(fù)爬去 var urls = new Set() // 存儲(chǔ)所有數(shù)據(jù) var data = []
思路:
每次獲取當(dāng)前頁(yè)48個(gè)鏈接,并點(diǎn)進(jìn)去之后,拿到該電瓶車的名稱和價(jià)格(其他信息獲取方式一樣,自行改就好?)
第一頁(yè)的全部完成之后,翻到下一頁(yè),繼續(xù)爬,直到最后一頁(yè)結(jié)束
首先我們定義一個(gè)函數(shù)如下
// 這是得到每個(gè)頁(yè)面的48個(gè)鏈接,并開始發(fā)送請(qǐng)求 function ad(arg){ // 參數(shù) arg 先不管 // 本地化一下需要爬取的鏈接 let url2 = arg || url; // 請(qǐng)求第一頁(yè)該網(wǎng)頁(yè),拿到數(shù)據(jù)之后,復(fù)制給 app var app = await fetch(url2).then(res=>res.text()) // 然后假裝用jQuery解析了 var $ = cheerio.load(app) // 獲取當(dāng)前頁(yè)所有電瓶車的a標(biāo)簽 var ele = $("#J_PicMode a.pic") // 存放已經(jīng)爬取過的url,防止重復(fù)爬取 var old_urls = [] var urlapp = [] //拿到所有a標(biāo)簽地址之后,存在數(shù)組里面,等會(huì)兒要開始爬的 for (let i = 0; i < ele.length; i++) { old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text())) } // 用把URL一塊丟給promise處理 urlapp = await Promise.all(old_urls) // 處理完成之后,循環(huán)加入jQuery? for (let i = 0; i < urlapp.length; i++) { let $2 = cheerio.load(urlapp[i],{decodeEntities: false}) data.push({ name:$2(".product-model__name").text(), price:$2(".price-type").text() }) } // 至此,一頁(yè)的數(shù)據(jù)就爬完了 // console.log(data); // 然后開始爬取下一頁(yè) var nextURL = $(".next").attr('href') // 判斷當(dāng)前頁(yè)是不是最后一頁(yè) if (nextURL){ let next = await fetch(urlRoot+nextURL).then(res=>res.text()) // 獲取下一頁(yè)的標(biāo)簽,拿到地址,走你 ad(urlRoot+nextURL) } return data } ad()
完整代碼如下
var cheerio = require('cheerio'); var fetch = require('node-fetch'); var url = "http://detail.zol.com.cn/convenienttravel/hangzhou/#list_merchant_loc" var urlRoot = "http://detail.zol.com.cn" // var url = "http://localhost:3222/app1" var urls = new Set() var data = [] async function ad(arg){ let url2 = arg || url; var app = await fetch(url2).then(res=>res.text()) var $ = cheerio.load(app) var ele = $("#J_PicMode a.pic") var old_urls = [] var urlapp = [] for (let i = 0; i < ele.length; i++) { old_urls.push(fetch(urlRoot+$(ele[i]).attr('href')).then(res=>res.text())) } urlapp = await Promise.all(old_urls) for (let i = 0; i < urlapp.length; i++) { let $2 = cheerio.load(urlapp[i],{decodeEntities: false}) data.push({ name:$2(".product-model__name").text(), price:$2(".price-type").text() }) } var nextURL = $(".next").attr('href') if (nextURL){ let next = await fetch(urlRoot+nextURL).then(res=>res.text()) ad(urlRoot+nextURL) } return data } ad()
關(guān)于“node.js如何爬取中關(guān)村的在線電瓶車信息”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí),可以關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,小編每天都會(huì)為大家更新不同的知識(shí)點(diǎn)。