雖然我沒(méi)有做過(guò)采集在線詞典,
目前成都創(chuàng)新互聯(lián)公司已為上千的企業(yè)提供了網(wǎng)站建設(shè)、域名、雅安服務(wù)器托管、網(wǎng)站改版維護(hù)、企業(yè)網(wǎng)站設(shè)計(jì)、丹東網(wǎng)站維護(hù)等服務(wù),公司將堅(jiān)持客戶導(dǎo)向、應(yīng)用為本的策略,正道將秉承"和諧、參與、激情"的文化,與客戶和合作伙伴齊心協(xié)力一起成長(zhǎng),共同發(fā)展。
不過(guò)看了下百度詞典,可以采集,給個(gè)參考思路。
1、做一個(gè)本地的單詞庫(kù)
2、php循環(huán)一條一條讀取詞語(yǔ)庫(kù)
3、php采集 URL地址:百度詞典網(wǎng)址/s?wd=單詞,讀取html源碼php正則匹配內(nèi)容。
4、數(shù)據(jù)入庫(kù)。
問(wèn)題其實(shí)不難,自己都能寫。給你幾個(gè)思路吧:
1.在百度知道中,輸入linux,然后會(huì)出現(xiàn)列表。復(fù)制瀏覽器地址欄內(nèi)容。
然后翻頁(yè),在復(fù)制地址欄內(nèi)容,看看有什么不同,不同之處,就是你要循環(huán)分頁(yè)的i值。
當(dāng)然這個(gè)是笨方法。
2.使用php的file或者file_get_contents函數(shù),獲取鏈接URL的內(nèi)容。
3.通過(guò)php正則表達(dá)式,獲取你需要的3個(gè)字段內(nèi)容。
4.寫入數(shù)據(jù)庫(kù)。
需要注意的是,百度知道有可能做了防抓取的功能,你剛一抓幾個(gè)頁(yè)面,可能會(huì)被禁止。
建議也就抓10頁(yè)數(shù)據(jù)。
其實(shí)不難,你肯定寫的出來(lái)。 還有,網(wǎng)上應(yīng)該有很多抓取工具,你找找看,然后將抓下來(lái)的數(shù)據(jù)
在做分析。寫入數(shù)據(jù)庫(kù)。
簡(jiǎn)單的分了幾個(gè)步驟:
1、確定采集目標(biāo)
2、獲取目標(biāo)遠(yuǎn)程頁(yè)面內(nèi)容(curl、file_get_contents)
3、分析頁(yè)面html源碼,正則匹配你需要的內(nèi)容(preg_match、preg_match_all),這一步最為重要,不同頁(yè)面正則匹配規(guī)則不一樣
4、入庫(kù)
用fopen/file/file_get_contents/curl之類的函數(shù)將遠(yuǎn)程頁(yè)面獲得內(nèi)容, 采用正則或過(guò)濾之類的獲得自己所需要的東西, 最好寫入相應(yīng)的數(shù)據(jù)庫(kù)保存起來(lái)。