robots文件一般在根目錄下,每一條記錄通過空行分開,在該文件中可以使用#進(jìn)行注釋,支持模糊匹配,該文件是區(qū)分大小寫的但不嚴(yán)格,通常以一行或多行User-agent開始,后面加上若干Disallow和Allow。
網(wǎng)站建設(shè)哪家好,找成都創(chuàng)新互聯(lián)公司!專注于網(wǎng)頁設(shè)計(jì)、網(wǎng)站建設(shè)、微信開發(fā)、小程序制作、集團(tuán)企業(yè)網(wǎng)站建設(shè)等服務(wù)項(xiàng)目。為回饋新老客戶創(chuàng)新互聯(lián)還提供了中原免費(fèi)建站歡迎大家使用!
Disallow:該項(xiàng)的值用于描述不希望被訪問的一組URL,這個(gè)值可以是一條完整的路徑,也可以是路徑的非空前綴。Allow:該項(xiàng)的值用于描述希望被訪問的一組URL,這個(gè)值可以是一條完整的路徑,也可以是路徑的前綴。
值得提醒的是每個(gè)搜索引擎都協(xié)議文件的解讀不一樣,比如百度是支持”*”和”$”來模糊匹配url的。”*”匹配0或多個(gè)任意字符,”$”匹配行結(jié)束符。最重要的是這個(gè)語法是從上到下生效的,切記。
常見的用法在網(wǎng)上可以找到,這里就這兒工具說幾個(gè)不常見的,但是有用的東西,你們可以舉一反三。
屏蔽所jpg或png圖片被抓取:Disallow:/*.jpg$ 或者Disallow:/*.png$
禁止抓取所有動(dòng)態(tài)頁面:
User-agent:*
Disallow:/*?*
只允許抓取html網(wǎng)頁:
Allow:/*.html$
User-agent:*
Disallow:/
禁止抓取后臺(tái)所有文件同時(shí)隱藏后臺(tái)真實(shí)目錄:
#就這兒注釋:比如你后臺(tái)目錄名是htdoadmin
Disallow:/*doad*
同時(shí)這個(gè)文件也支持放入網(wǎng)站地圖地址:
#就這兒工具注釋:一般放在整體結(jié)尾
Sitemap: http://XXX.com/sitemap.xml
最后面填個(gè)坑吧:上面說這個(gè)文件語法是從上到下生效,你或者不明白。就這兒在此舉例說明:
#就這兒工具注釋:僅允許 Baiduspider訪問您的網(wǎng)站
User-agent: Baiduspider
Allow:/
User-agent:*
Disallow:/
前2行允許了百度爬行,那么第3-4行即使屏蔽了所有引擎包括百度,依然是允許百度爬行的。你明白了嗎?再補(bǔ)充一個(gè)例子吧:
User-agent:*
Allow:/nihao/qincai
Disallow:/nihao/
這個(gè)寫法將會(huì)阻止爬行:http://baidu.com/nihao/abc或者h(yuǎn)ttp://baidu.com/nihao/
但不會(huì)阻止爬行:http://baidu.com/nihao/qincai123或者h(yuǎn)ttp://baidu.com/nihao/qincai/123
文章結(jié)尾問你一個(gè)問題,你可以迅速回答出來嗎?請問robots.txt里出現(xiàn)disallow是對(duì)的嗎?