使用PHP怎么采集抓取淘寶網(wǎng)的單個商品信息?針對這個問題,這篇文章詳細介紹了相對應(yīng)的分析和解答,希望可以幫助更多想解決這個問題的小伙伴找到更簡單易行的方法。
10多年創(chuàng)新互聯(lián)建站網(wǎng)站建設(shè),由一走到現(xiàn)在,當(dāng)中離不開團隊頑強的創(chuàng)業(yè)精神,離不開伴隨我們同行的客戶與專業(yè)的合作伙伴,創(chuàng)力信息一直秉承以“見一個客戶,了解一個行業(yè),交一個朋友”的方式為經(jīng)營理念,提出“讓每一個客戶成為我們的終身客戶”為目標(biāo),以為用戶提供精細化服務(wù),全面滿足用戶需求為宗旨,誠信經(jīng)營,更大限度為用戶創(chuàng)造價值。期待邁向下一個更好的10多年。思路:
file_get_contents(url) 該函數(shù)根據(jù) url 如 /tupian/20230522/ 將該網(wǎng)頁內(nèi)容(源碼)以字符串形式輸出(一個整字符串),然后配合preg_match,preg_replace等這些正則表達式操作就可以實現(xiàn)獲取該url特定div,img等信息了。當(dāng)然前題是淘寶在單個商品頁面的結(jié)構(gòu)是固定的,如500圖的img中id就是J_ImgBooth!
具體實現(xiàn)方法:(獲取500圖,名稱,價格,屬性及商品描述)
復(fù)制代碼 代碼如下:
$text=file_get_contents("/tupian/20230522/item.htm //將url地址上頁面內(nèi)容保存進$text
A.獲取500圖:
復(fù)制代碼 代碼如下:
preg_match('/]*id="J_ImgBooth"[^r]*rc=\"([^"]*)\"[^>]*>/', $text, $img);
//運用正則抓取img標(biāo)簽中id為J_ImgBooth的img,$img[0]為該500圖img標(biāo)簽,$img[1]為500圖的圖片地址;
B. 獲取名稱:
復(fù)制代碼 代碼如下:
preg_match('/
C.獲取價格:
復(fù)制代碼 代碼如下:
preg_match('/<([a-z]+)[^i]*id=\"J_StrPrice\"[^>]*>([^<]*)<\/\\1>/is', $text, $price);
//同理獲取id為J_StrPrice的標(biāo)簽內(nèi)容$price[2], $price[0]是整個標(biāo)簽, $price[1]為strong標(biāo)簽名;
$price=floatval($price);//放入數(shù)據(jù)庫估計還有轉(zhuǎn)一下變量類型
D.獲取屬性:
這之前獲取的內(nèi)容都是在單標(biāo)簽中相對只需一個正則就可搞定,然而如果要獲取如
復(fù)制代碼 代碼如下:
…
這樣特定div中有未知n個<>標(biāo)簽,獲取該特定div將會非常的困難,搜了下網(wǎng)上,最接近的也只是”/<([a-z]+)[^>]*>([^<>]|(?R))*<\/\\1>/”這樣使用遞歸抓取標(biāo)簽對,但是他不能抓特定標(biāo)簽,所以想要輕松抓取class=”attributes”的div我是沒法辦到了。但是淘寶網(wǎng)頁有其特殊性,就是它的各個標(biāo)簽結(jié)構(gòu)基本是固定的…
復(fù)制代碼 代碼如下:
preg_match('/<(div)[^c]*class=\"attributes\"[^>]*>.*<\/\\1>/is', $text, $text0);
//這個正則會抓取
E.獲取描述:
通過上面方法你肯定覺得淘寶頁面上任何標(biāo)簽都可以很簡單獲取了吧(我之前也是這么想的),但是使用這個方法獲取描述時得到的內(nèi)容將會是“描述加載中”,是的,這個描述內(nèi)容不是在源碼中的,它是打開頁面加載進一大堆js后,不知道從淘寶的哪個角落中加載進來的。
好吧,那么我們也可以模仿它放一些js進去。不知道哪些對加載描述有用?沒事,全加載進來肯定沒錯。不知道需要放那些特定div上去有作用?抓一個源碼,刪掉一些div一步步試試看,你會發(fā)現(xiàn)“
復(fù)制代碼 代碼如下:
這幾個div是加載描述所必須的,那么下面就是寫代碼了:
復(fù)制代碼 代碼如下:
preg_match_all('/