這篇文章主要介紹node中如何借助第三方開源庫實現網站爬取功能,文中介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們一定要看完!
創(chuàng)新互聯-專業(yè)網站定制、快速模板網站建設、高性價比玉龍網站開發(fā)、企業(yè)建站全套包干低至880元,成熟完善的模板庫,直接使用。一站式玉龍網站制作公司更省心,省錢,快速模板網站建設找我們,業(yè)務覆蓋玉龍地區(qū)。費用合理售后完善,十載實體公司更值得信賴。
第三方庫介紹
request 對網絡請求的封裝
cheerio node 版本的 jQuery
mkdirp 創(chuàng)建多層的文件夾目錄
實現思路
通過request
獲取指定 url 內容
通過cheerio
找到頁面中跳轉的路徑(去重)
通過mkdirp
創(chuàng)建目錄
通過fs
創(chuàng)建文件,將讀取的內容寫入
拿到沒有訪問的路徑重復以上執(zhí)行步驟
代碼實現
const fs = require("fs"); const path = require("path"); const request = require("request"); const cheerio = require("cheerio"); const mkdirp = require("mkdirp"); // 定義入口url const homeUrl = "https://www.baidu.com"; // 定義set存儲已經訪問過的路徑,避免重復訪問 const set = new Set([homeUrl]); function grab(url) { // 校驗url規(guī)范性 if (!url) return; // 去空格 url = url.trim(); // 自動補全url路徑 if (url.endsWith("/")) { url += "index.html"; } const chunks = []; // url可能存在一些符號或者中文,可以通過encodeURI編碼 request(encodeURI(url)) .on("error", (e) => { // 打印錯誤信息 console.log(e); }) .on("data", (chunk) => { // 接收響應內容 chunks.push(chunk); }) .on("end", () => { // 將相應內容轉換成文本 const html = Buffer.concat(chunks).toString(); // 沒有獲取到內容 if (!html) return; // 解析url let { host, origin, pathname } = new URL(url); pathname = decodeURI(pathname); // 通過cheerio解析html const $ = cheerio.load(html); // 將路徑作為目錄 const dir = path.dirname(pathname); // 創(chuàng)建目錄 mkdirp.sync(path.join(__dirname, dir)); // 往文件寫入內容 fs.writeFile(path.join(__dirname, pathname), html, "utf-8", (err) => { // 打印錯誤信息 if (err) { console.log(err); return; } console.log(`[${url}]保存成功`); }); // 獲取到頁面中所有a元素 const aTags = $("a"); Array.from(aTags).forEach((aTag) => { // 獲取到a標簽中的路徑 const href = $(aTag).attr("href"); // 此處可以校驗href的合法或者控制爬去的網站范圍,比如必須都是某個域名下的 // 排除空標簽 if (!href) return; // 排除錨點連接 if (href.startsWith("#")) return; if (href.startsWith("mailto:")) return; // 如果不想要保存圖片可以過濾掉 // if (/\.(jpg|jpeg|png|gif|bit)$/.test(href)) return; // href必須是入口url域名 let reg = new RegExp(`^https?:\/\/${host}`); if (/^https?:\/\//.test(href) && !reg.test(href)) return; // 可以根據情況增加更多邏輯 let newUrl = ""; if (/^https?:\/\//.test(href)) { // 處理絕對路徑 newUrl = href; } else { // 處理相對路徑 newUrl = origin + path.join(dir, href); } // 判斷是否訪問過 if (set.has(newUrl)) return; if (newUrl.endsWith("/") && set.has(newUrl + "index.html")) return; if (newUrl.endsWith("/")) newUrl += "index.html"; set.add(newUrl); grab(newUrl); }); }); } // 開始抓取 grab(homeUrl);
以上是“node中如何借助第三方開源庫實現網站爬取功能”這篇文章的所有內容,感謝各位的閱讀!希望分享的內容對大家有幫助,更多相關知識,歡迎關注創(chuàng)新互聯行業(yè)資訊頻道!