Gworg配置到主機(jī)就可以開(kāi)啟。
成都創(chuàng)新互聯(lián)公司是一家集網(wǎng)站建設(shè),古浪企業(yè)網(wǎng)站建設(shè),古浪品牌網(wǎng)站建設(shè),網(wǎng)站定制,古浪網(wǎng)站建設(shè)報(bào)價(jià),網(wǎng)絡(luò)營(yíng)銷,網(wǎng)絡(luò)優(yōu)化,古浪網(wǎng)站推廣為一體的創(chuàng)新建站企業(yè),幫助傳統(tǒng)企業(yè)提升企業(yè)形象加強(qiáng)企業(yè)競(jìng)爭(zhēng)力??沙浞譂M足這一群體相比中小企業(yè)更為豐富、高端、多元的互聯(lián)網(wǎng)需求。同時(shí)我們時(shí)刻保持專業(yè)、時(shí)尚、前沿,時(shí)刻以成就客戶成長(zhǎng)自我,堅(jiān)持不斷學(xué)習(xí)、思考、沉淀、凈化自己,讓我們?yōu)楦嗟钠髽I(yè)打造出實(shí)用型網(wǎng)站。
解釋原因:
Gworg提交域名認(rèn)證SSL證書(shū)。
拿到證書(shū)配置到服務(wù)器。
進(jìn)入WordPress網(wǎng)站后臺(tái)URL基礎(chǔ)設(shè)置地址欄改成HTTPS即可。
解決辦法:可以在Gworg申請(qǐng)SSL證書(shū)開(kāi)啟。
通過(guò)robots.txt 進(jìn)行設(shè)置。
User-agent:?*?這里的*代表的所有的搜索引擎種類,*是一個(gè)通配符
Disallow:?/admin/?這里定義是禁止爬尋admin目錄下面的目錄
Disallow:?/require/?這里定義是禁止爬尋require目錄下面的目錄
Disallow:?/ABC/?這里定義是禁止爬尋ABC目錄下面的目錄
Disallow:?/cgi-bin/*.htm?禁止訪問(wèn)/cgi-bin/目錄下的所有以".htm"為后綴的URL(包含子目錄)。
Disallow:?/*?*?禁止訪問(wèn)網(wǎng)站中所有包含問(wèn)號(hào)?(?)?的網(wǎng)址
Disallow:?/.jpg$?禁止抓取網(wǎng)頁(yè)所有的.jpg格式的圖片
Disallow:/ab/adc.html?禁止爬取ab文件夾下面的adc.html文件。
Allow:?/cgi-bin/ 這里定義是允許爬尋cgi-bin目錄下面的目錄
Allow:?/tmp?這里定義是允許爬尋tmp的整個(gè)目錄
Allow:?.htm$?僅允許訪問(wèn)以".htm"為后綴的URL。
Allow:?.gif$?允許抓取網(wǎng)頁(yè)和gif格式圖片
Sitemap:?網(wǎng)站地圖?告訴爬蟲(chóng)這個(gè)頁(yè)面是網(wǎng)站地圖
期待選優(yōu),謝謝。
一、先來(lái)普及下robots.txt的概念:
robots.txt(統(tǒng)一小寫(xiě))是一種存放于網(wǎng)站根目錄下的ASCII編碼的文本文件,它通常告訴網(wǎng)絡(luò)搜索引擎的漫游器(又稱網(wǎng)絡(luò)蜘蛛),此網(wǎng)站中的哪些內(nèi)容是不能被搜索引擎的漫游器獲取的,哪些是可以被(漫游器)獲取的。這個(gè)文件用于指定spider在您網(wǎng)站上的抓取范圍,一定程度上保護(hù)站點(diǎn)的安全和隱私。同時(shí)也是網(wǎng)站優(yōu)化利器,例如屏蔽捉取站點(diǎn)的重復(fù)內(nèi)容頁(yè)面。
robots.txt目前并不是一種標(biāo)準(zhǔn),只是一種協(xié)議!所以現(xiàn)在很多搜索引擎對(duì)robots.txt里的指令參數(shù)都有不同的看待。
二、使用robots.txt需要注意的幾點(diǎn)地方:
1、指令區(qū)分大小寫(xiě),忽略未知指令,下圖是本博客的robots.txt文件在Google管理員工具里的測(cè)試結(jié)果;
2、每一行代表一個(gè)指令,空白和隔行會(huì)被忽略;
3、“#”號(hào)后的字符參數(shù)會(huì)被忽略;
4、有獨(dú)立User-agent的規(guī)則,會(huì)排除在通配“*”User agent的規(guī)則之外;
5、可以寫(xiě)入sitemap文件的鏈接,方便搜索引擎蜘蛛爬行整站內(nèi)容。
6、盡量少用Allow指令,因?yàn)椴煌乃阉饕鎸?duì)不同位置的Allow指令會(huì)有不同看待。
三、Wordpress的robots.txt優(yōu)化設(shè)置
1、User-agent: *
一般博客的robots.txt指令設(shè)置都是面對(duì)所有spider程序,用通配符“*”即可。如果有獨(dú)立User-agent的指令規(guī)則,盡量放在通配“*”User agent規(guī)則的上方。
2、Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
屏蔽spider捉取程序文件,同時(shí)也節(jié)約了搜索引擎蜘蛛資源。
3、Disallow: /*/trackback
每個(gè)默認(rèn)的文章頁(yè)面代碼里,都有一段trackback的鏈接,如果不屏蔽讓蜘蛛去捉取,網(wǎng)站會(huì)出現(xiàn)重復(fù)頁(yè)面內(nèi)容問(wèn)題。
4、Disallow: /feed
Disallow: /*/feed
Disallow: /comments/feed
頭部代碼里的feed鏈接主要是提示瀏覽器用戶可以訂閱本站,而一般的站點(diǎn)都有RSS輸出和網(wǎng)站地圖,故屏蔽搜索引擎捉取這些鏈接,節(jié)約蜘蛛資源。
5、Disallow: /?s=*
Disallow: /*/?s=*
這個(gè)就不用解釋了,屏蔽捉取站內(nèi)搜索結(jié)果。站內(nèi)沒(méi)出現(xiàn)這些鏈接不代表站外沒(méi)有,如果收錄了會(huì)造成和TAG等頁(yè)面的內(nèi)容相近。
6、Disallow: /?r=*
屏蔽留言鏈接插件留下的變形留言鏈接。(沒(méi)安裝相關(guān)插件當(dāng)然不用這條指令)
7、Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
屏蔽捉取任何圖片文件,在這里主要是想節(jié)約點(diǎn)寬帶,不同的網(wǎng)站管理員可以按照喜好和需要設(shè)置這幾條指令。
8、Disallow: /?p=*
屏蔽捉取短鏈接。默認(rèn)頭部里的短鏈接,百度等搜索引擎蜘蛛會(huì)試圖捉取,雖然最終短鏈接會(huì)301重定向到固定鏈接,但這樣依然造成蜘蛛資源的浪費(fèi)。
9、Disallow: /*/comment-page-*
Disallow: /*?replytocom*
屏蔽捉取留言信息鏈接。一般不會(huì)收錄到這樣的鏈接,但為了節(jié)約蜘蛛資源,也屏蔽之。
10、Disallow: /a/date/
Disallow: /a/author/
Disallow: /a/category/
Disallow: /?p=*preview=true
Disallow: /?page_id=*preview=true
Disallow: /wp-login.php
屏蔽其他的一些形形色色的鏈接,避免造成重復(fù)內(nèi)容和隱私問(wèn)題。
10、Sitemap:http://***.com/sitemap.txt
網(wǎng)站地圖地址指令,主流是txt和xml格式。告訴搜索引擎網(wǎng)站地圖地址,方便搜索引擎捉取全站內(nèi)容,當(dāng)然你可以設(shè)置多個(gè)地圖地址。要注意的就是Sitemap的S要用大寫(xiě),地圖地址也要用絕對(duì)地址。
上面的這些Disallow指令都不是強(qiáng)制要求的,可以按需寫(xiě)入。也建議站點(diǎn)開(kāi)通谷歌管理員工具,檢查站點(diǎn)的robots.txt是否規(guī)范。