如何設(shè)置php禁止抓取網(wǎng)站?針對(duì)這個(gè)問題,這篇文章詳細(xì)介紹了相對(duì)應(yīng)的分析和解答,希望可以幫助更多想解決這個(gè)問題的小伙伴找到更簡(jiǎn)單易行的方法。
成都創(chuàng)新互聯(lián)公司是一家集網(wǎng)站建設(shè),甘孜州企業(yè)網(wǎng)站建設(shè),甘孜州品牌網(wǎng)站建設(shè),網(wǎng)站定制,甘孜州網(wǎng)站建設(shè)報(bào)價(jià),網(wǎng)絡(luò)營(yíng)銷,網(wǎng)絡(luò)優(yōu)化,甘孜州網(wǎng)站推廣為一體的創(chuàng)新建站企業(yè),幫助傳統(tǒng)企業(yè)提升企業(yè)形象加強(qiáng)企業(yè)競(jìng)爭(zhēng)力。可充分滿足這一群體相比中小企業(yè)更為豐富、高端、多元的互聯(lián)網(wǎng)需求。同時(shí)我們時(shí)刻保持專業(yè)、時(shí)尚、前沿,時(shí)刻以成就客戶成長(zhǎng)自我,堅(jiān)持不斷學(xué)習(xí)、思考、沉淀、凈化自己,讓我們?yōu)楦嗟钠髽I(yè)打造出實(shí)用型網(wǎng)站。
php禁止抓取的實(shí)現(xiàn)方法:首先通過“$_SERVER['HTTP_USER_AGENT'];”方法獲取UA信息;然后將惡意“USER_AGENT”存入數(shù)組;最后禁止空“USER_AGENT”等主流采集程序即可。
我們都知道網(wǎng)絡(luò)上的爬蟲非常多,有對(duì)網(wǎng)站收錄有益的,比如百度蜘蛛(Baiduspider),也有不但不遵守robots規(guī)則對(duì)服務(wù)器造成壓力,還不能為網(wǎng)站帶來流量的無用爬蟲,比如宜搜蜘蛛(YisouSpider)(最新補(bǔ)充:宜搜蜘蛛已被UC神馬搜索收購!所以本文已去掉宜搜蜘蛛的禁封!==>相關(guān)文章)。最近張戈發(fā)現(xiàn)nginx日志中出現(xiàn)了好多宜搜等垃圾的抓取記錄,于是整理收集了網(wǎng)絡(luò)上各種禁止垃圾蜘蛛爬站的方法,在給自己網(wǎng)做設(shè)置的同時(shí),也給各位站長(zhǎng)提供參考。
進(jìn)入到nginx安裝目錄下的conf目錄,將如下代碼保存為 agent_deny.conf
cd /usr/local/nginx/conf
vim agent_deny.conf
#禁止Scrapy等工具的抓取 if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) { return 403; } #禁止指定UA及UA為空的訪問 if ($http_user_agent ~* "FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|^$" ) { return 403; } #禁止非GET|HEAD|POST方式的抓取 if ($request_method !~ ^(GET|HEAD|POST)$) { return 403; }
然后,在網(wǎng)站相關(guān)配置中的 location / { 之后插入如下代碼:
include agent_deny.conf;
如張戈博客的配置:
[marsge@Mars_Server ~]$ cat /usr/local/nginx/conf/zhangge.conf
location / { try_files $uri $uri/ /index.php?$args; #這個(gè)位置新增1行: include agent_deny.conf; rewrite ^/sitemap_360_sp.txt$ /sitemap_360_sp.php last; rewrite ^/sitemap_baidu_sp.xml$ /sitemap_baidu_sp.php last; rewrite ^/sitemap_m.xml$ /sitemap_m.php last; 保存后,執(zhí)行如下命令,平滑重啟nginx即可: /usr/local/nginx/sbin/nginx -s reload
將如下方法放到貼到網(wǎng)站入口文件index.php中的第一個(gè) //獲取UA信息
$ua = $_SERVER['HTTP_USER_AGENT']; //將惡意USER_AGENT存入數(shù)組 $now_ua = array('FeedDemon ','BOT/0.1 (BOT for JCE)','CrawlDaddy ','Java','Feedly','UniversalFeedParser','ApacheBench','Swiftbot','ZmEu','Indy Library','oBot','jaunty','YandexBot','AhrefsBot','MJ12bot','WinHttp','EasouSpider','HttpClient','Microsoft URL Control','YYSpider','jaunty','Python-urllib','lightDeckReports Bot');
//禁止空USER_AGENT,dedecms等主流采集程序都是空USER_AGENT,部分sql注入工具也是空USER_AGENT
if(!$ua) { header("Content-type: text/html; charset=utf-8"); die('請(qǐng)勿采集本站,因?yàn)椴杉恼鹃L(zhǎng)木有小JJ!'); }else{ foreach($now_ua as $value ) //判斷是否是數(shù)組中存在的UA if(eregi($value,$ua)) { header("Content-type: text/html; charset=utf-8"); die('請(qǐng)勿采集本站,因?yàn)椴杉恼鹃L(zhǎng)木有小JJ!'); } }
如果是vps,那非常簡(jiǎn)單,使用curl -A 模擬抓取即可,比如:
模擬宜搜蜘蛛抓?。?br/>curl -I -A 'YisouSpider' zhang.ge
模擬UA為空的抓取:
curl -I -A '' zhang.ge
模擬百度蜘蛛的抓?。?br/>curl -I -A 'Baiduspider' zhang.ge
修改網(wǎng)站目錄下的.htaccess,添加如下代碼即可(2種代碼任選):三次抓取結(jié)果截圖如下:
可以看出,宜搜蜘蛛和UA為空的返回是403禁止訪問標(biāo)識(shí),而百度蜘蛛則成功返回200,說明生效!
①、UA信息為空的垃圾采集被攔截:
②、被禁止的UA被攔截:
因此,對(duì)于垃圾蜘蛛的收集,我們可以通過分析網(wǎng)站的訪問日志,找出一些沒見過的的蜘蛛(spider)名稱,經(jīng)過查詢無誤之后,可以將其加入到前文代碼的禁止列表當(dāng)中,起到禁止抓取的作用。
下面是網(wǎng)絡(luò)上常見的垃圾UA列表,僅供參考,同時(shí)也歡迎你來補(bǔ)充。
FeedDemon 內(nèi)容采集 BOT/0.1 (BOT for JCE) sql注入 CrawlDaddy sql注入 Java 內(nèi)容采集 Jullo 內(nèi)容采集 Feedly 內(nèi)容采集 UniversalFeedParser 內(nèi)容采集 ApacheBench cc攻擊器 Swiftbot 無用爬蟲 YandexBot 無用爬蟲 AhrefsBot 無用爬蟲 YisouSpider 無用爬蟲(已被UC神馬搜索收購,此蜘蛛可以放開!) MJ12bot 無用爬蟲 ZmEu phpmyadmin 漏洞掃描 WinHttp 采集cc攻擊 EasouSpider 無用爬蟲 HttpClient tcp攻擊 Microsoft URL Control 掃描 YYSpider 無用爬蟲 jaunty wordpress爆破掃描器 oBot 無用爬蟲 Python-urllib 內(nèi)容采集 Indy Library 掃描 FlightDeckReports Bot 無用爬蟲 Linguee Bot 無用爬蟲
關(guān)于如何設(shè)置php禁止抓取網(wǎng)站問題的解答就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,如果你還有很多疑惑沒有解開,可以關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道了解更多相關(guān)知識(shí)。