沒有抓取那就談不上頁(yè)面的收錄,如何獲得或提升搜索引擎的抓取呢?
在頁(yè)面創(chuàng)建完成后,接下來(lái)面向搜索引擎的就是提交sitemap文件,通過(guò)文件的提交來(lái)促使蜘蛛抓取。然后通過(guò)網(wǎng)站的訪問日志可以觀察自己頁(yè)面有哪些搜索引擎來(lái)抓取過(guò)。每天的抓取頻次分別的狀態(tài)碼情況。
針對(duì)百度蜘蛛,在百度站長(zhǎng)工具中的異常抓取以及抓取頻次中都能看到,建議每一天務(wù)必看一下。像抓取頻次的升降雖并不能直接影響你的流量變化,但間接的還是有關(guān)聯(lián)的。抓取的越多,越有利于收錄的數(shù)量提升。當(dāng)然,這里也有一個(gè)前提:頁(yè)面數(shù)量要盡可能的多,畢竟抓取1000次,想收錄5000的頁(yè)面是不可能的。
在提升抓取上,針對(duì)頁(yè)面的訪問速度以及合理的站內(nèi)鏈接交叉推薦,讓更新的、更相關(guān)或者更具實(shí)效性的文章在自身站內(nèi)更多頻次的出現(xiàn)對(duì)提升抓取以及收錄是有很大幫助的。
蜘蛛抓取頁(yè)面的流程:一般蜘蛛抓取網(wǎng)頁(yè)分為兩種路徑,即主動(dòng)抓取和站外引導(dǎo)。這里特別提示一下百度還有自動(dòng)推送和主動(dòng)推送功能,用來(lái)提交自己頁(yè)面的url地址給百度。
無(wú)論是哪種推送方式,目的都是希望蜘蛛能夠過(guò)來(lái)主動(dòng)抓取我們的站點(diǎn)頁(yè)面。下面就來(lái)說(shuō)說(shuō)主動(dòng)抓取和站外引導(dǎo)的抓取流程:
蜘蛛主動(dòng)抓取頁(yè)面時(shí),首先會(huì)進(jìn)入網(wǎng)站,這個(gè)時(shí)候它需要先判斷是否有robots文件,robots文件是根據(jù)國(guó)際互聯(lián)網(wǎng)界通行的道德規(guī)范,蜘蛛必須遵守robots的原則。這個(gè)文件的作用是用來(lái)告訴蜘蛛能不能抓取網(wǎng)站,能抓取網(wǎng)站的哪些頁(yè)面等信息。當(dāng)robots放行后,蜘蛛就會(huì)首先找到網(wǎng)站的sitemap文件,現(xiàn)成的sitemap文件可以有效提高蜘蛛的抓取效率,降低抓取成本。如果沒有sitemap,蜘蛛就會(huì)在你的網(wǎng)站目錄中開始尋找文件(一般都是依照robots指定的規(guī)則),找到某個(gè)文件后,蜘蛛會(huì)通過(guò)頁(yè)面內(nèi)部的鏈接關(guān)系一條條往下爬行。
站外引薦區(qū)別與主動(dòng)抓取的就是,蜘蛛是在第三方網(wǎng)站上爬取到了你網(wǎng)站的鏈接,然后進(jìn)入你的網(wǎng)站進(jìn)行爬取,第一步還是尋找robots文件,后面的流程基本一致。