真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網站制作重慶分公司

node.js爬蟲爬取拉勾網職位信息

簡介

成都創(chuàng)新互聯(lián)主營甘肅網站建設的網絡公司,主營網站建設方案,app軟件開發(fā),甘肅h5微信小程序搭建,甘肅網站營銷推廣歡迎甘肅等地區(qū)企業(yè)咨詢

用node.js寫了一個簡單的小爬蟲,用來爬取拉勾網上的招聘信息,共爬取了北京、上海、廣州、深圳、杭州、西安、成都7個城市的數(shù)據,分別以前端、PHP、java、c++、python、Android、ios作為關鍵詞進行爬取,爬到的數(shù)據以json格式儲存到本地,為了方便觀察,我將數(shù)據整理了一下供大家參考

數(shù)據結果

node.js爬蟲爬取拉勾網職位信息

上述數(shù)據為3月13日22時爬取的數(shù)據,可大致反映各個城市對不同語言的需求量。

爬取過程展示

控制并發(fā)進行爬取

node.js爬蟲爬取拉勾網職位信息

爬取到的數(shù)據文件

node.js爬蟲爬取拉勾網職位信息

json數(shù)據文件

node.js爬蟲爬取拉勾網職位信息

爬蟲程序

實現(xiàn)思路

請求拉鉤網的 “https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false&city=城市&kd=關鍵詞&pn=頁數(shù)”可以返回一個json格式的數(shù)據,該數(shù)據包含所要請求職位的信息,省去了使用chreio解析的麻煩,所以直接用superagent來進行請求上述地址,并將數(shù)據儲存在本地即可,其中參數(shù)city是為城市,kd為所要搜索的關鍵詞,pn為要請求的頁數(shù),當中使用到了async來控制異步流程,使得并發(fā)數(shù)不超過3,防止被封ip。

代碼地址及使用

github:https://github.com/zsqosos/positionAnalysis

代碼請在github上查看,使用該程序需要安裝node環(huán)境,如果覺得還不錯的話煩請給個star,歡迎大家修改使用該程序。

以上就是本文的全部內容,希望本文的內容對大家的學習或者工作能帶來一定的幫助,同時也希望多多支持創(chuàng)新互聯(lián)!


分享標題:node.js爬蟲爬取拉勾網職位信息
URL鏈接:http://weahome.cn/article/iihiho.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部