簡單的分了幾個步驟:
扶溝ssl適用于網(wǎng)站、小程序/APP、API接口等需要進(jìn)行數(shù)據(jù)傳輸應(yīng)用場景,ssl證書未來市場廣闊!成為創(chuàng)新互聯(lián)的ssl證書銷售渠道,可以享受市場價格4-6折優(yōu)惠!如果有意向歡迎電話聯(lián)系或者加微信:028-86922220(備注:SSL證書合作)期待與您的合作!
1、確定采集目標(biāo)
2、獲取目標(biāo)遠(yuǎn)程頁面內(nèi)容(curl、file_get_contents)
3、分析頁面html源碼,正則匹配你需要的內(nèi)容(preg_match、preg_match_all),這一步最為重要,不同頁面正則匹配規(guī)則不一樣
4、入庫
工具/原料
PHPCMS
文章采集器
方法/步驟
1、首先我們需要下載并安裝GBK格式的PHPCMS系統(tǒng)。
2、下載PHPCMS和文章采集器的接口文件
3、將jiekou.php文件復(fù)制到網(wǎng)站的根目錄下,并用記事本打開該文件,修改“密碼驗證”欄目password處的密碼
4、啟動文章采集器,先點擊【第三步發(fā)布內(nèi)容設(shè)置】中的"web發(fā)布管理配置"
5、在彈出的【web發(fā)布配置管理】窗口中單擊右側(cè)的【更多】按鈕,導(dǎo)入“phpcms9.wpm”配置模塊,并選擇該模塊
6、設(shè)置【web發(fā)布配置管理】中的編碼設(shè)置、登錄操作、獲取分類欄目等選項
7、單擊【測試】按鈕,在彈出的【發(fā)布配置測試】對話框中設(shè)置標(biāo)簽和內(nèi)容的值,此項為必須設(shè)置,否則發(fā)布測試文章會失敗。至此PHPCMS已經(jīng)與文章采集器連接成功。
是小豬瀏覽器 出的 瞬采PHPWIND采集器吧?
很不錯的,是一款智能的機器人軟件,完全模擬人工,支持phpwind論壇全系列以及phpwind門戶發(fā)布文章,簡單易用,看了教程,立馬就可以上手使用了。
1.瞬采phpwind采集器,內(nèi)置phpwind發(fā)布接口,不限制添加網(wǎng)站數(shù)量,只要是phpwind源程序的論壇,都可以支持,不僅僅是發(fā)布到自己的phpwind論壇;
2.不綁定電腦,軟件是純綠色的,壓縮包2m多,隨身攜帶,u盤上都可以運行;
3.內(nèi)置300多條采集規(guī)則,智能自動識別大部分論壇和網(wǎng)站,采集主帖和回復(fù)、采集文章都可以,不限制被采集的網(wǎng)站,自己做采集規(guī)則也很簡單;
4.強大的論壇賬號角色管理系統(tǒng),批量注冊、批量換簽名和頭像,指定賬號發(fā)布首帖,賬號綁定到某些版塊禁止串門發(fā)表;
5.全自動 附件、圖片本地化,無需手動ftp到網(wǎng)站附件文件夾;
6.支持附件、圖片自動上傳到網(wǎng)盤,節(jié)約有限的論壇空間,還能賺網(wǎng)盤下載費用;
7.跟蹤跟新采集,只要目標(biāo)網(wǎng)站有新文章,立刻能采集發(fā)布到指定的版塊,有多少抓多少,自動更新網(wǎng)站內(nèi)容;
8.目標(biāo)站帖子隱藏的也能采集,會自動回復(fù)并采集下來;
9.自動購買目標(biāo)站的附件,實現(xiàn)完全無障礙采集;
10.偽原創(chuàng)支持多國語言自動翻譯
11.偽原創(chuàng)支持 詞匯過濾、替換,支持繁體化,段落錯排,刪除句子等高級優(yōu)化功能
……
功能太多,無法一一列舉。
瞬采系列為收費版,可以試用小豬瀏覽器免費版,2者內(nèi)核一樣的!
防采集的一些思路的探討
1、用不同的模板
對于用程序的網(wǎng)站來說,不大可行,一個網(wǎng)站的模板最多也就幾套吧。
2、使用robots禁止訪問網(wǎng)頁目錄
這個方法可以有效的防止采集,不過將搜索引擎也封掉了,對于靠搜索引擎吃飯的站長們來說,得不償失。
一個例子,Disallow 后面就是禁止訪問的目錄:
User-agent: *
Disallow: /admin
Disallow: /attachments
Disallow: /images
Disallow: /forumdata
Disallow: /include
3、使用HTTP_REFERER禁止采集,發(fā)現(xiàn)來自非本站連接就禁止察看葉面,就像前一段落伍im286.net防DDOS那個禁止調(diào)用一樣。
這個方法可以比較有效的防止采集,不過也一樣把搜索引擎封掉了,對于靠搜索引擎吃飯的站長們來說,得不償失。
對高手無效,因為HTTP_REFERER可以偽造。但對一般使用采集的人來說,已經(jīng)足夠應(yīng)付了。
例:
php
if(preg_replace("/https?://([^/]+).*/i", "1", $HTTP_SERVER_VARS['HTTP_REFERER']) != $HTTP_SERVER_VARS['HTTP_HOST']) {
exit('警告----你的操作已經(jīng)被禁止。');
}
4、使用HTTP_REFERER偽造內(nèi)容
這個方法可以比較有效的防止采集,不過對于搜索引擎來說,查到的東西跟你偽造的東西一樣的,可能會影響收錄。(如有不對,請高手指出)
同上,對于高手無效。
5、使用java加密內(nèi)容。
這個可能會比較有效,但是我對java一竅不通,也就不清楚如何入手了。
但我想,既然你這樣使得別人采集到亂碼,搜索引擎有可能也是收錄到亂碼的(我不清楚搜索引擎怎么工作,不過我猜測他們是察看網(wǎng)頁源代碼的。),也就影響收錄。
6、使用java加密網(wǎng)址
同上,有可能讓搜索引擎無法搜索到你的網(wǎng)頁。
7、生成pdf文件、生成圖片
這個方法可以比較有效的防止采集,不過照樣讓搜索引擎望而卻止。
8、加上自己的版權(quán)信息
這個方法最大的好處就是不影響搜索引擎,效果馬馬虎虎,一般上可以讓采集者采集到帶有自己版權(quán)的稿件內(nèi)容。但是對于可以過濾廣告的采集程序來說,不大有效。
以下是作者給俺的PM:
Quote:
你的版權(quán)是不是加了你的網(wǎng)站和網(wǎng)址?
只要把網(wǎng)址和網(wǎng)站名替換成他的就可以了啊.這樣還讓他有了版權(quán)功能呢.
反正防采真是頭疼....
有點麻煩,我的思路是將網(wǎng)站名稱分成一個一個字來顯示,他不可能將每個字都替換掉吧?不過要這樣我就沒辦法了。比如說我將我的 武俠網(wǎng) 拆開,分成
武俠網(wǎng)
,$rand_color*是隨機顏色,可以自己控制的,如果是動態(tài)網(wǎng)頁的話,還配合HTTP_REFERER來搞隨機,這樣子隨機性就更大了。一般上,盡量制造難度就是了。模板也可以制造隨機性,幾個相似的模板輪流來弄,這樣子讓人采集的難度更大。
不過說實話,要使他們真要搞,那是沒辦法的事,不過至少要花他們很多的時間去研究。在此之前,他們可能沒耐性轉(zhuǎn)向別的站了。
另外,最好不要讓人知道你使用隨機函數(shù)。一般人只是稍微看一下網(wǎng)頁代碼,就開始采集了。
其實俺地網(wǎng)站也喜歡采集別家的東東,我感覺只要是好的東東,就應(yīng)該大家一起分享嘛,要真是機密數(shù)據(jù),那就最好在每個頁面上加隨機密碼了,但這樣也會使搜索引擎找不到你的,得不償失呀