問(wèn)題其實(shí)不難,自己都能寫(xiě)。給你幾個(gè)思路吧:
網(wǎng)站建設(shè)哪家好,找創(chuàng)新互聯(lián)!專(zhuān)注于網(wǎng)頁(yè)設(shè)計(jì)、網(wǎng)站建設(shè)、微信開(kāi)發(fā)、小程序定制開(kāi)發(fā)、集團(tuán)企業(yè)網(wǎng)站建設(shè)等服務(wù)項(xiàng)目。為回饋新老客戶(hù)創(chuàng)新互聯(lián)還提供了金壇免費(fèi)建站歡迎大家使用!
1.在百度知道中,輸入linux,然后會(huì)出現(xiàn)列表。復(fù)制瀏覽器地址欄內(nèi)容。
然后翻頁(yè),在復(fù)制地址欄內(nèi)容,看看有什么不同,不同之處,就是你要循環(huán)分頁(yè)的i值。
當(dāng)然這個(gè)是笨方法。
2.使用php的file或者file_get_contents函數(shù),獲取鏈接URL的內(nèi)容。
3.通過(guò)php正則表達(dá)式,獲取你需要的3個(gè)字段內(nèi)容。
4.寫(xiě)入數(shù)據(jù)庫(kù)。
需要注意的是,百度知道有可能做了防抓取的功能,你剛一抓幾個(gè)頁(yè)面,可能會(huì)被禁止。
建議也就抓10頁(yè)數(shù)據(jù)。
其實(shí)不難,你肯定寫(xiě)的出來(lái)。 還有,網(wǎng)上應(yīng)該有很多抓取工具,你找找看,然后將抓下來(lái)的數(shù)據(jù)
在做分析。寫(xiě)入數(shù)據(jù)庫(kù)。
訪(fǎng)問(wèn)需要采集的頁(yè)面,如果數(shù)據(jù)是用js輸出的html,那么必定有接口或者本身頁(yè)面中給js提供了數(shù)據(jù),來(lái)遍歷輸出html。
用chrome的審查元素中的network,可以單獨(dú)看xhr,看看是否是ajax請(qǐng)求的接口,如果數(shù)據(jù)是從接口來(lái)的,直接用PHP去獲取那個(gè)接口的數(shù)據(jù)就可以了。
如果沒(méi)有ajax請(qǐng)求,查看html源代碼,在里面找數(shù)據(jù)。
簡(jiǎn)單的分了幾個(gè)步驟:
1、確定采集目標(biāo)
2、獲取目標(biāo)遠(yuǎn)程頁(yè)面內(nèi)容(curl、file_get_contents)
3、分析頁(yè)面html源碼,正則匹配你需要的內(nèi)容(preg_match、preg_match_all),這一步最為重要,不同頁(yè)面正則匹配規(guī)則不一樣
4、入庫(kù)