真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

怎么通過CSS選擇器采集網(wǎng)頁數(shù)據(jù)

做了個(gè)數(shù)據(jù)采集插件準(zhǔn)備拿博客園練練手。想一下要采集什么數(shù)據(jù),就從首頁文章列表采集起到第10頁就結(jié)束采集,然后在點(diǎn)擊進(jìn)去采集文章內(nèi)容。

成都創(chuàng)新互聯(lián)堅(jiān)持“要么做到,要么別承諾”的工作理念,服務(wù)領(lǐng)域包括:成都做網(wǎng)站、成都網(wǎng)站建設(shè)、成都外貿(mào)網(wǎng)站建設(shè)、企業(yè)官網(wǎng)、英文網(wǎng)站、手機(jī)端網(wǎng)站、網(wǎng)站推廣等服務(wù),滿足客戶于互聯(lián)網(wǎng)時(shí)代的烏拉特前網(wǎng)站設(shè)計(jì)、移動(dòng)媒體設(shè)計(jì)的需求,幫助企業(yè)找到有效的互聯(lián)網(wǎng)解決方案。努力成為您成熟可靠的網(wǎng)絡(luò)建設(shè)合作伙伴!

視頻演示地址:https://www.bilibili.com/video/BV1HP4y157rR

數(shù)據(jù)采集工具

九頭蟲網(wǎng)頁數(shù)據(jù)采集插件 大家如果也想試下,那么可以點(diǎn)擊進(jìn)去下載。
九頭蟲網(wǎng)頁數(shù)據(jù)采集插件 幫助文檔

采集內(nèi)容

首頁:文章標(biāo)題、文章介紹、作者、作者頭像、點(diǎn)贊數(shù)、評論數(shù)、發(fā)布時(shí)間
內(nèi)容頁:正文內(nèi)容

編寫首頁列表采集規(guī)則

F12打開開發(fā)者工具里面看到文章列表HTML代碼結(jié)構(gòu)

文章標(biāo)題可以通過CSS選擇器.post-item-title獲取到;
文章地址可以通過CSS選擇器.post-item-title獲取到;
文章介紹可以通過CSS選擇器.post-item-summary獲取到;
作者可以通過CSS選擇器.post-item-author獲取到;
用戶頭像可以通過CSS選擇器img.avatar獲取到;
點(diǎn)贊數(shù)可以通過CSS選擇器.post-item-foot a.post-meta-item獲取到;
評論數(shù)可以通過CSS選擇器.post-item-foot a[class*=post-meta-item]:nth-of-type(3)獲取到;
瀏覽數(shù)可以通過CSS選擇器.post-item-foot a[class*=post-meta-item]:nth-of-type(4) span獲取到;

那么現(xiàn)在開始編寫采集規(guī)則,采集規(guī)則保存之后,進(jìn)入頁面檢驗(yàn)當(dāng)前是否采集到數(shù)據(jù)了。

{
    "title": "博客園首頁文章列表",
    "match": "https://www.cnblogs.com/*",
    "demo": "https://www.cnblogs.com/#p2",
    "delay": 2,
    "rules": [
        {
            "root": "#post_list .post-item",
            "multi": true,
            "desc": "文章列表",
            "fetches": [
                {
                    "name": "文章標(biāo)題",
                    "selector": ".post-item-title"
                },
                {
                    "name": "文章地址",
                    "selector": ".post-item-title",
                    "type": "attr",
                    "attr": "href"
                },
                {
                    "name": "文章介紹",
                    "selector": ".post-item-summary"
                },
                {
                    "name": "作者",
                    "selector": ".post-item-author"
                },
                {
                    "name": "頭像",
                    "selector": "img.avatar",
                    "type": "attr",
                    "attr": "src"
                },
                {
                    "name": "點(diǎn)贊數(shù)",
                    "selector": ".post-item-foot a.post-meta-item"
                },
                {
                    "name": "評論數(shù)",
                    "selector": ".post-item-foot a[class*=post-meta-item]:nth-of-type(3)"
                },
                {
                    "name": "瀏覽數(shù)",
                    "selector": ".post-item-foot a[class*=post-meta-item]:nth-of-type(4)"
                }
            ]
        }
    ]
}

編寫內(nèi)容頁采集規(guī)則

編寫方式與上面的一樣,這里就直接貼出代碼了。

{
    "title": "博客園文章內(nèi)容",
    "match": "https://www.cnblogs.com/*/p/*.html",
    "demo": "https://www.cnblogs.com/bianchengyouliao/p/.html",
    "delay": 2,
    "rules": [
        {
            "multi": false,
            "desc": "文章內(nèi)容",
            "fetches": [
                {
                    "name": "文章標(biāo)題",
                    "selector": "#cb_post_title_url"
                },
                {
                    "name": "正文內(nèi)容",
                    "selector": "#cnblogs_post_body",
                    "type": "html"
                }
            ]
        }
    ]
}

添加計(jì)劃任務(wù)(實(shí)現(xiàn)批量采集、翻頁采集)

生成URL采集地址 幫助文檔

在計(jì)劃任務(wù)中,通過動(dòng)態(tài)URL采集地址獲取要采集的文章頁面地址,獲取完成之后插件就會(huì)自動(dòng)去打開對應(yīng)頁面。只要打開頁面,插件就會(huì)去匹配采集規(guī)則然后采集數(shù)據(jù)。

https://www.cnblogs.com/
[a.post-item-title,href]:https://www.cnblogs.com/#p[2,10,1]

預(yù)覽數(shù)據(jù)


名稱欄目:怎么通過CSS選擇器采集網(wǎng)頁數(shù)據(jù)
URL鏈接:http://weahome.cn/article/dsojioe.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部