如何正確使用robots文件及檢測(cè)robots.txt文件

在編寫robots.txt文件之前，首先我們需要了解什么是robots.txt文件。robots.txt文件是指定給搜索引擎spider程序的收錄規(guī)則。一般情況下搜索引擎spider程序自動(dòng)訪問(wèn)互聯(lián)網(wǎng)上的網(wǎng)站時(shí)，會(huì)首先檢查該網(wǎng)站根目錄下是否有robots.txt文件，這個(gè)文件用于指定spider對(duì)網(wǎng)站的抓取范圍，如果沒(méi)有robots.txt文件或robots.txt文件為空則表示允許spider抓取網(wǎng)站上所有內(nèi)容。

公司主營(yíng)業(yè)務(wù)：成都網(wǎng)站設(shè)計(jì)、做網(wǎng)站、成都外貿(mào)網(wǎng)站建設(shè)公司、移動(dòng)網(wǎng)站開(kāi)發(fā)等業(yè)務(wù)。幫助企業(yè)客戶真正實(shí)現(xiàn)互聯(lián)網(wǎng)宣傳，提高企業(yè)的競(jìng)爭(zhēng)能力。創(chuàng)新互聯(lián)是一支青春激揚(yáng)、勤奮敬業(yè)、活力青春激揚(yáng)、勤奮敬業(yè)、活力澎湃、和諧高效的團(tuán)隊(duì)。公司秉承以“開(kāi)放、自由、嚴(yán)謹(jǐn)、自律”為核心的企業(yè)文化，感謝他們對(duì)我們的高要求，感謝他們從不同領(lǐng)域給我們帶來(lái)的挑戰(zhàn)，讓我們激情的團(tuán)隊(duì)有機(jī)會(huì)用頭腦與智慧不斷的給客戶帶來(lái)驚喜。創(chuàng)新互聯(lián)推出劍河免費(fèi)做網(wǎng)站回饋大家。

其次我們需要把robots.txt文件放在正確的位置。robots.txt文件應(yīng)放置在網(wǎng)站根目錄下，例如創(chuàng)新互聯(lián)學(xué)院(http://fuwei.cdcxhl.com/)相應(yīng)的robots.txt文件的地址為：http://fuwei.cdcxhl.com/robots.txt

那么，我們開(kāi)始學(xué)習(xí)正確的robots.txt文件編寫規(guī)則。

正確的robots.txt文件用法舉例：

1、禁止所有搜索引擎抓取網(wǎng)站的任何部分

User-agent: *
Disallow: /

請(qǐng)注意！有一些新手朋友正是誤把以上robots規(guī)則理解為允許所有搜索引擎抓取網(wǎng)站的任何部分，導(dǎo)致搜索引擎不收錄網(wǎng)站。

2、允許所有的spider抓?。ɑ蛘咭部梢越ㄒ粋€(gè)空的robots.txt文件）

User-agent: *
Allow: /

以上robots規(guī)則是允許所有搜索引擎抓取網(wǎng)站的任何部分，但為避免錯(cuò)誤，建議建一個(gè)空的robots.txt文件即可。

3、禁止spider抓取特定目錄

User-agent: *
Disallow: /a/
Disallow: /b/
Disallow: /c/

以上例子，禁止所有的spider抓取a、b、c目錄。這個(gè)規(guī)則我們最常用到，比如網(wǎng)站的程序后臺(tái)、程序目錄等都可以禁止spider抓取，以減少spider無(wú)意義的浪費(fèi)我們的空間資源。

4、禁止抓取網(wǎng)站中所有的動(dòng)態(tài)頁(yè)面

User-agent: *
Disallow: /*?*

以上例子，禁止抓取網(wǎng)站中所有的動(dòng)態(tài)頁(yè)面。這個(gè)規(guī)則適用不希望spider抓取網(wǎng)站的動(dòng)態(tài)頁(yè)面。例如我們網(wǎng)站對(duì)動(dòng)態(tài)頁(yè)面進(jìn)行偽靜態(tài)，我們就需要設(shè)置此規(guī)則，以免spider抓取到重復(fù)的內(nèi)容，影響搜索體驗(yàn)。

以上，是簡(jiǎn)單的robots.txt文件編寫方法?？赡?，你還是不知道如何編寫robots.txt文件，也沒(méi)有關(guān)系，這時(shí)我們需要借助工具來(lái)幫助我們。

打開(kāi)百度站長(zhǎng)平臺(tái)http://zhanzhang.baidu.com使用百度賬號(hào)進(jìn)行登錄，在通用工具一欄，我們會(huì)發(fā)現(xiàn)Robots工具，這個(gè)工具提供了兩個(gè)功能，一是檢測(cè)robots.txt，二是生成robots.txt。然后我們選擇生成robots.txt，User-agent選擇“所有”，狀態(tài)我們選擇“不允許抓取”，然后在路徑中填寫希望不被搜索引擎抓取的目錄，記得以“/”開(kāi)頭，然后點(diǎn)擊創(chuàng)建即可完成robots.txt的生成，如圖所示：

生成robots.txt

robots.txt內(nèi)容

我們可以直接下載生成的robots.txt文件上傳到網(wǎng)站根目錄即可。當(dāng)然我們還可以檢測(cè)robots.txt文件安裝、編寫的正確性，還可以分析robots.txt是否符合我們的要求。我們轉(zhuǎn)入robots.txt檢測(cè)，輸入我們的網(wǎng)址，如http://fuwei.cdcxhl.com/，輸入驗(yàn)證碼然后點(diǎn)擊檢測(cè)

robots.txt檢測(cè)

robots.txt文件檢測(cè)結(jié)果

從上圖我們很直觀看出禁止spider抓取特定目錄。

當(dāng)然，上面的知識(shí)可能比較簡(jiǎn)單，沒(méi)有關(guān)系，如果需要學(xué)習(xí)更多，請(qǐng)移步至百度幫助中心robots.txt文件編寫http://www.baidu.com/search/robots.html

當(dāng)前標(biāo)題：如何正確使用robots文件及檢測(cè)robots.txt文件
網(wǎng)頁(yè)URL：http://weahome.cn/article/ehgosj.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

如何正確使用robots文件及檢測(cè)robots.txt文件

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管