做了個(gè)數(shù)據(jù)采集插件準(zhǔn)備拿博客園練練手。想一下要采集什么數(shù)據(jù),就從首頁文章列表采集起到第10頁就結(jié)束采集,然后在點(diǎn)擊進(jìn)去采集文章內(nèi)容。
成都創(chuàng)新互聯(lián)堅(jiān)持“要么做到,要么別承諾”的工作理念,服務(wù)領(lǐng)域包括:成都做網(wǎng)站、成都網(wǎng)站建設(shè)、成都外貿(mào)網(wǎng)站建設(shè)、企業(yè)官網(wǎng)、英文網(wǎng)站、手機(jī)端網(wǎng)站、網(wǎng)站推廣等服務(wù),滿足客戶于互聯(lián)網(wǎng)時(shí)代的烏拉特前網(wǎng)站設(shè)計(jì)、移動(dòng)媒體設(shè)計(jì)的需求,幫助企業(yè)找到有效的互聯(lián)網(wǎng)解決方案。努力成為您成熟可靠的網(wǎng)絡(luò)建設(shè)合作伙伴!
視頻演示地址:https://www.bilibili.com/video/BV1HP4y157rR
九頭蟲網(wǎng)頁數(shù)據(jù)采集插件 大家如果也想試下,那么可以點(diǎn)擊進(jìn)去下載。
九頭蟲網(wǎng)頁數(shù)據(jù)采集插件 幫助文檔
首頁:文章標(biāo)題、文章介紹、作者、作者頭像、點(diǎn)贊數(shù)、評論數(shù)、發(fā)布時(shí)間
內(nèi)容頁:正文內(nèi)容
按F12
打開開發(fā)者工具
里面看到文章列表HTML代碼結(jié)構(gòu)
:
文章標(biāo)題可以通過CSS選擇器.post-item-title
獲取到;
文章地址可以通過CSS選擇器.post-item-title
獲取到;
文章介紹可以通過CSS選擇器.post-item-summary
獲取到;
作者可以通過CSS選擇器.post-item-author
獲取到;
用戶頭像可以通過CSS選擇器img.avatar
獲取到;
點(diǎn)贊數(shù)可以通過CSS選擇器.post-item-foot a.post-meta-item
獲取到;
評論數(shù)可以通過CSS選擇器.post-item-foot a[class*=post-meta-item]:nth-of-type(3)
獲取到;
瀏覽數(shù)可以通過CSS選擇器.post-item-foot a[class*=post-meta-item]:nth-of-type(4) span
獲取到;
那么現(xiàn)在開始編寫采集規(guī)則
,采集規(guī)則保存之后,進(jìn)入頁面檢驗(yàn)當(dāng)前是否采集到數(shù)據(jù)了。
{
"title": "博客園首頁文章列表",
"match": "https://www.cnblogs.com/*",
"demo": "https://www.cnblogs.com/#p2",
"delay": 2,
"rules": [
{
"root": "#post_list .post-item",
"multi": true,
"desc": "文章列表",
"fetches": [
{
"name": "文章標(biāo)題",
"selector": ".post-item-title"
},
{
"name": "文章地址",
"selector": ".post-item-title",
"type": "attr",
"attr": "href"
},
{
"name": "文章介紹",
"selector": ".post-item-summary"
},
{
"name": "作者",
"selector": ".post-item-author"
},
{
"name": "頭像",
"selector": "img.avatar",
"type": "attr",
"attr": "src"
},
{
"name": "點(diǎn)贊數(shù)",
"selector": ".post-item-foot a.post-meta-item"
},
{
"name": "評論數(shù)",
"selector": ".post-item-foot a[class*=post-meta-item]:nth-of-type(3)"
},
{
"name": "瀏覽數(shù)",
"selector": ".post-item-foot a[class*=post-meta-item]:nth-of-type(4)"
}
]
}
]
}
編寫方式與上面的一樣,這里就直接貼出代碼了。
{
"title": "博客園文章內(nèi)容",
"match": "https://www.cnblogs.com/*/p/*.html",
"demo": "https://www.cnblogs.com/bianchengyouliao/p/.html",
"delay": 2,
"rules": [
{
"multi": false,
"desc": "文章內(nèi)容",
"fetches": [
{
"name": "文章標(biāo)題",
"selector": "#cb_post_title_url"
},
{
"name": "正文內(nèi)容",
"selector": "#cnblogs_post_body",
"type": "html"
}
]
}
]
}
生成URL采集地址 幫助文檔
在計(jì)劃任務(wù)中,通過動(dòng)態(tài)URL采集地址
獲取要采集的文章頁面地址,獲取完成之后插件就會(huì)自動(dòng)去打開對應(yīng)頁面。只要打開頁面,插件就會(huì)去匹配采集規(guī)則然后采集數(shù)據(jù)。
https://www.cnblogs.com/
[a.post-item-title,href]:https://www.cnblogs.com/#p[2,10,1]