1、都可以,得看你具體的需求;2、電腦上需要搭建PHP的集成環(huán)境,然后安裝帝國CMS或者織夢CMS,若想在網(wǎng)絡上查看網(wǎng)站,需要綁定域名,然后上傳CMS程序;3、CMS軟件自帶數(shù)據(jù)庫的,當然也可以利用CMS提供的采集工具采集網(wǎng)絡上的數(shù)據(jù)導入你的數(shù)據(jù)庫中。
成都創(chuàng)新互聯(lián)公司是一家專業(yè)提供金山企業(yè)網(wǎng)站建設,專注與成都網(wǎng)站建設、做網(wǎng)站、H5響應式網(wǎng)站、小程序制作等業(yè)務。10年已為金山眾多企業(yè)、政府機構等服務。創(chuàng)新互聯(lián)專業(yè)網(wǎng)站設計公司優(yōu)惠進行中。
第一步采集網(wǎng)址,下載好火車頭采集器后打開,新建一個任務,任務名隨意。把需要采集的網(wǎng)站文章列表頁網(wǎng)址添加到起始網(wǎng)址。從圖中看出該列表頁有34頁,每頁有N篇文章。
2
列表頁會一級網(wǎng)址,添加多級網(wǎng)址獲取,從而獲取二級網(wǎng)址(文章頁網(wǎng)址)
設置列表分頁獲取,3個地方分別是:分頁源代碼前面和后面還有中間位置。這一步用于獲取列表頁面鏈接,因為有34個列表頁面。設置完保存。
網(wǎng)址獲取選項,這一步用于獲取列表頁上面文章頁的鏈接,根據(jù)自己需要設置需要截取的部分和根據(jù)網(wǎng)址的結構設置包含與不包含某些字符。為空即沒限制,設置完保存。
設置好鏈接采集規(guī)則后,可以測試網(wǎng)址,看測試結果調整規(guī)則??磮D可以看到采集鏈接規(guī)則從起始鏈接到全面列表頁再到列表頁上的文章頁鏈接都已經(jīng)成功采集。
第二步是采集內容,首先修改標題規(guī)則,在頁面源代碼里面找到標題的代碼,把標題前后代碼負責過去截取出標題。保存。
修改內容采集規(guī)則,跟標題規(guī)則差不多,也是源代碼里面找到內容的前后代碼。這里內容會有一些其他html標簽,所以得添加一個html標簽排除的規(guī)則。
完成后,測試看一下結果,從測試結果來調試規(guī)則,直到測試結果是自己想要的內容為止。
第三步是采集導出。前面1、2兩步把規(guī)則設置好,最后就要把文章導出了。先做一個導出的模版。
然后選擇方式二,把每一篇文章都分別記錄到一個txt文本,保存位置自己選擇,模板選擇剛剛做好的導出模版.保存的文件名用文章標題為命名。其他默認,保存。
把采集網(wǎng)址,采集內容,發(fā)布3個選項框都勾選,然后開始采集。完成后文本就自動生成在剛剛保存的文件夾里面了。
火車頭采集器采集文章教程到此就完成了,由于每個網(wǎng)站都是不一樣的,所以這里只能用一個網(wǎng)站演示,只是一個方法思路,自己采集文章還需要靈活變通。
這個要在火車頭里面設置,因為你的火車頭發(fā)布模塊已經(jīng)有了 內容簡介標簽,如果你要帝國cms自己提取內容簡介, 那火車頭里的 內容標簽 就要采集內容是空的。那發(fā)上去就沒有內容了,帝國cms就動提取了。 第二就是在火車頭 內容標簽 采集好 內容簡...