采集列表頁只要是為了獲取對應(yīng)內(nèi)容頁的鏈接
創(chuàng)新互聯(lián)公司網(wǎng)站建設(shè)公司,提供網(wǎng)站建設(shè)、成都網(wǎng)站制作,網(wǎng)頁設(shè)計,建網(wǎng)站,PHP網(wǎng)站建設(shè)等專業(yè)做網(wǎng)站服務(wù);可快速的進行網(wǎng)站開發(fā)網(wǎng)頁制作和功能擴展;專業(yè)做搜索引擎喜愛的網(wǎng)站,是專業(yè)的做網(wǎng)站團隊,希望更多企業(yè)前來合作!
獲取到內(nèi)容頁鏈接后 然后使用正則匹配 你要采集的信息
采集原理 可以參考(獲取列表頁的所有圖片)
帝國cms的采集 在教程里有 需要查看對方網(wǎng)頁的源文件 提取列表部分 內(nèi)容頁部分 仔細看下教程吧
添加節(jié)點:
選擇要增加采集的欄目:
進入增加節(jié)點表單:
在節(jié)點名稱框里起個名字,然后把要采集的新浪各地新聞列表地址copy過來:
下來發(fā)現(xiàn)好多選項,如“采集頁面地址方式二,內(nèi)容頁地址前綴...”先不要理他,后面再一一詳解,直接拉到 “信息鏈接區(qū)域正則”這里:
6
這里是設(shè)置采集的列表信息鏈接區(qū)域正則,我們點擊查看新浪各地新聞列表“源文件”:
7
把源文件代碼copy到Dreamweaver里,在Dreamweaver里選定要采集的信息鏈接區(qū)域:
這個要在火車頭里面設(shè)置,因為你的火車頭發(fā)布模塊已經(jīng)有了 內(nèi)容簡介標(biāo)簽,如果你要帝國cms自己提取內(nèi)容簡介, 那火車頭里的 內(nèi)容標(biāo)簽 就要采集內(nèi)容是空的。那發(fā)上去就沒有內(nèi)容了,帝國cms就動提取了。 第二就是在火車頭 內(nèi)容標(biāo)簽 采集好 內(nèi)容簡...