使用PHP怎么采集抓取淘寶網(wǎng)的單個商品信息-創(chuàng)新互聯(lián)

使用PHP怎么采集抓取淘寶網(wǎng)的單個商品信息？針對這個問題，這篇文章詳細介紹了相對應(yīng)的分析和解答，希望可以幫助更多想解決這個問題的小伙伴找到更簡單易行的方法。

10多年創(chuàng)新互聯(lián)建站網(wǎng)站建設(shè),由一走到現(xiàn)在，當(dāng)中離不開團隊頑強的創(chuàng)業(yè)精神，離不開伴隨我們同行的客戶與專業(yè)的合作伙伴，創(chuàng)力信息一直秉承以“見一個客戶，了解一個行業(yè)，交一個朋友”的方式為經(jīng)營理念，提出“讓每一個客戶成為我們的終身客戶”為目標(biāo)，以為用戶提供精細化服務(wù)，全面滿足用戶需求為宗旨，誠信經(jīng)營，更大限度為用戶創(chuàng)造價值。期待邁向下一個更好的10多年。

思路：

file_get_contents(url) 該函數(shù)根據(jù) url 如 /tupian/20230522/ 將該網(wǎng)頁內(nèi)容（源碼）以字符串形式輸出（一個整字符串），然后配合preg_match，preg_replace等這些正則表達式操作就可以實現(xiàn)獲取該url特定div，img等信息了。當(dāng)然前題是淘寶在單個商品頁面的結(jié)構(gòu)是固定的，如500圖的img中id就是J_ImgBooth！

具體實現(xiàn)方法：（獲取500圖，名稱，價格，屬性及商品描述）

復(fù)制代碼代碼如下:

$text=file_get_contents("/tupian/20230522/item.htm //將url地址上頁面內(nèi)容保存進$text

A.獲取500圖：

復(fù)制代碼代碼如下:

preg_match('/]*id="J_ImgBooth"[^r]*rc=\"([^"]*)\"[^>]*>/', $text, $img);
//運用正則抓取img標(biāo)簽中id為J_ImgBooth的img，$img[0]為該500圖img標(biāo)簽，$img[1]為500圖的圖片地址；

B. 獲取名稱：

復(fù)制代碼代碼如下:

preg_match('/([^<>]*)<\/title>/', $text, $title);<br/>//因為正文中的商品名稱標(biāo)簽沒有特殊class或id正則不好抓取，就抓<title>標(biāo)簽中的內(nèi)容了，一般來說title中內(nèi)容就是商品名稱了（實際有些出入），$title[0]整個title標(biāo)簽 $title[1]標(biāo)簽中內(nèi)容；<br/>$title=iconv('GBK','UTF-8',$title);<br/>//如果你的網(wǎng)站是utf8編碼，那么需要進行一下轉(zhuǎn)碼（淘寶是gbk編碼）</p><br/><p><strong>C.獲取價格：</strong></p><p>復(fù)制代碼代碼如下:</p><p><br/>preg_match('/<([a-z]+)[^i]*id=\"J_StrPrice\"[^>]*>([^<]*)<\/\\1>/is', $text, $price);<br/>//同理獲取id為J_StrPrice的標(biāo)簽內(nèi)容$price[2], $price[0]是整個標(biāo)簽， $price[1]為strong標(biāo)簽名；<br/>$price=floatval($price);//放入數(shù)據(jù)庫估計還有轉(zhuǎn)一下變量類型</p><br/><p><strong>D.獲取屬性：</strong></p><p>這之前獲取的內(nèi)容都是在單標(biāo)簽中相對只需一個正則就可搞定，然而如果要獲取如</p><p>復(fù)制代碼代碼如下:</p><p><br/>…<br/> <br/><div class="squ6kqw" id=”xxx”><br/> <br/>…<br/> <br/><ul><br/> <br/>…<br/> <br/></ul><br/> <br/><div>…<br/> <br/><div>…<br/> <br/></div><br/> <br/></div><br/> <br/></div><br/> <br/>…</p><br/><p>這樣特定div中有未知n個<>標(biāo)簽，獲取該特定div將會非常的困難，搜了下網(wǎng)上，最接近的也只是”/<([a-z]+)[^>]*>([^<>]|(?R))*<\/\\1>/”這樣使用遞歸抓取標(biāo)簽對，但是他不能抓特定標(biāo)簽，所以想要輕松抓取class=”attributes”的div我是沒法辦到了。但是淘寶網(wǎng)頁有其特殊性，就是它的各個標(biāo)簽結(jié)構(gòu)基本是固定的…<div>…</div>標(biāo)簽后面不是</div><div class="squ6kqw" id=”description”>就是</div><div>，所以我們可以采用變通法達到獲取屬性標(biāo)簽內(nèi)容的目的。</p><p>復(fù)制代碼代碼如下:</p><p><br/>preg_match('/<(div)[^c]*class=\"attributes\"[^>]*>.*<\/\\1>/is', $text, $text0);<br/>//這個正則會抓取<div開始到整個頁面最后一個</div>標(biāo)簽，當(dāng)然我們屬性標(biāo)簽就在這個的前面部分。<br/> <br/>$text1=preg_replace("/<\/div>[^<]*<(div)[^c]*id=\"description\"[^>]*>.*<\/\\1>/is","",$text0);<br/>//匹配到</div ><div class="squ6kqw" id=”description”>至最后</div>然后用””代替（就是把匹配的刪除了），所以如果attributes的div后面緊跟的是description那么我們已經(jīng)達到目的了。<br/> <br/>$attributes=preg_replace("/<\/div>[^<]*<(div)[^c]*class=\"box J_TBox\"[^>]*>.*<\/\\1>/is","",$text1);<br/>//如果attributes后面緊跟box J_Tbox標(biāo)簽，那么我們還需要使用以上這步來剔除box J_Tbox標(biāo)簽，當(dāng)然如果attributes的div后面緊跟的是description，這一步將不會匹配到任何即什么都不會做。</p><br/><p><strong>E.獲取描述：</strong></p><p>通過上面方法你肯定覺得淘寶頁面上任何標(biāo)簽都可以很簡單獲取了吧（我之前也是這么想的），但是使用這個方法獲取描述時得到的內(nèi)容將會是“描述加載中”，是的，這個描述內(nèi)容不是在源碼中的，它是打開頁面加載進一大堆js后，不知道從淘寶的哪個角落中加載進來的。</p><p>好吧，那么我們也可以模仿它放一些js進去。不知道哪些對加載描述有用？沒事，全加載進來肯定沒錯。不知道需要放那些特定div上去有作用？抓一個源碼，刪掉一些div一步步試試看，你會發(fā)現(xiàn)“<div class="squ6kqw" id=”detail”> </div></p><p>復(fù)制代碼代碼如下:</p><p><br/><div class="squ6kqw" id="description"><br/> <br/><div class="squ6kqw" id="J_DivItemDesc">描述加載中</div><br/> <br/></div></p><br/><p>這幾個div是加載描述所必須的，那么下面就是寫代碼了：</p><p>復(fù)制代碼代碼如下:</p><p><br/>preg_match_all('/<script[^>]*>[^<]*<\/script>/is', $text, $content);//頁面js腳本<br/> $content=$content[0];<br/> $description='<div class="squ6kqw" id="detail"> </div><br/> <div class="squ6kqw" id="description"><br/> <div class="squ6kqw" id="J_DivItemDesc">描述加載中</div><br/> </div>';<br/>foreach ($content as &$v){$description.=iconv('GBK','UTF-8',$v);};</p><br/><br/><p>關(guān)于使用PHP怎么采集抓取淘寶網(wǎng)的單個商品信息問題的解答就分享到這里了，希望以上內(nèi)容可以對大家有一定的幫助，如果你還有很多疑惑沒有解開，可以關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道了解更多相關(guān)知識。</p> <br> 網(wǎng)頁名稱：使用PHP怎么采集抓取淘寶網(wǎng)的單個商品信息-創(chuàng)新互聯(lián) <br> 鏈接分享：<a href="http://weahome.cn/article/dgpsop.html">http://weahome.cn/article/dgpsop.html</a> </div> </div> </div> <div id="squ6kqw" class="other container"> <h3>其他資訊</h3> <ul> <li> <a href="/article/dopdcs.html">iOS中修改UISearchBar圓角的小技巧分享-創(chuàng)新互聯(lián)</a> </li><li> <a href="/article/dopohh.html">Mac下通過brew安裝指定版本的nodejs教程-創(chuàng)新互聯(lián)</a> </li><li> <a href="/article/dopopd.html">人工智能開發(fā)語言=Python-創(chuàng)新互聯(lián)</a> </li><li> <a href="/article/dopdse.html">CentOS7安裝MySQL5.6-創(chuàng)新互聯(lián)</a> </li><li> <a href="/article/dopojc.html">智云通CRM：新材料企業(yè)在項目管理中遇到了哪些問題？-創(chuàng)新互聯(lián)</a> </li> </ul> </div> <div id="squ6kqw" class="footer"> <div id="squ6kqw" class="foota container"> <div id="squ6kqw" class="foot_nav fl col-lg-8 col-md-8 col-sm-12 col-xs-12"> <ul> <li id="squ6kqw" class="col-lg-3 col-md-3 col-sm-3 col-xs-6"> <h3>網(wǎng)站制作</h3> <a target="_blank">移動手機網(wǎng)站制作</a><a target="_blank">成都營銷網(wǎng)站制作</a><a target="_blank">溫江網(wǎng)站制作</a><a target="_blank">成都網(wǎng)站制作</a><a target="_blank">手機網(wǎng)站制作設(shè)計</a><a target="_blank">成都網(wǎng)站制作</a> </li> <li id="squ6kqw" class="col-lg-3 col-md-3 col-sm-3 col-xs-6"> <h3>企業(yè)服務(wù)</h3> <a target="_blank">賣友情鏈接</a><a target="_blank">一元廣告</a><a target="_blank">成都網(wǎng)站維護</a><a target="_blank">400電話</a><a target="_blank">工商服務(wù)</a><a target="_blank">網(wǎng)絡(luò)文化經(jīng)營許可證</a> </li> <li id="squ6kqw" class="col-lg-3 col-md-3 col-sm-3 col-xs-6"> <h3>網(wǎng)站建設(shè)</h3> <a target="_blank">成都網(wǎng)站建設(shè)</a><a target="_blank">成都外貿(mào)網(wǎng)站建設(shè)</a><a target="_blank">定制網(wǎng)站建設(shè)</a><a target="_blank">重慶網(wǎng)站建設(shè)</a><a target="_blank">重慶網(wǎng)站建設(shè)網(wǎng)絡(luò)公司</a><a target="_blank">上市企業(yè)網(wǎng)站建設(shè)方案</a> </li> <li id="squ6kqw" class="col-lg-3 col-md-3 col-sm-3 col-xs-6"> <h3>服務(wù)器托管</h3> <a target="_blank">成都機柜租用</a><a target="_blank">重慶電信水土機房托管</a><a target="_blank">溫江服務(wù)器托管</a><a target="_blank">雅安服務(wù)器托管</a><a target="_blank">光華服務(wù)器托管</a><a target="_blank">移動服務(wù)器托管</a> </li> </ul> </div> <div id="squ6kqw" class="footar fl col-lg-4 col-md-4 col-sm-12 col-xs-12"> <p>全國免費咨詢:</p> <b>400-028-6601</b> <p>業(yè)務(wù)咨詢：028-86922220 / 13518219792</p> <p>節(jié)假值班：18980820575 / 13518219792</p> <p>聯(lián)系地址：成都市太升南路288號錦天國際A幢1002號</p> </div> </div> <div id="squ6kqw" class="footb"> <div id="squ6kqw" class="copy container"> <div id="squ6kqw" class="fl">Copyright ? 成都創(chuàng)新互聯(lián)科技有限公司重慶分公司 <a target="_blank">渝ICP備2021005571號</a></div>  </div> </div> <div id="squ6kqw" class="link"> <div id="squ6kqw" class="container"> 友情鏈接:： <a target="_blank">成都網(wǎng)站建設(shè)</a> <a target="_blank">重慶網(wǎng)站建設(shè)</a> <a href="">四川網(wǎng)站建設(shè)</a> <a href="">重慶建設(shè)網(wǎng)站</a> <a target="_blank">移動服務(wù)器托管</a> <a target="_blank">成都服務(wù)器托管</a> <a target="_blank">云服務(wù)器</a> <a target="_blank">廣告設(shè)計制作</a> <a target="_blank">重慶網(wǎng)頁設(shè)計</a> <a target="_blank">重慶做網(wǎng)站</a> <a target="_blank">重慶網(wǎng)站制作</a> <a href="">重慶網(wǎng)站建設(shè)</a> <a href="">重慶網(wǎng)站公司</a> <a href="">渝中網(wǎng)站制作</a> <a href="">重慶網(wǎng)站設(shè)計</a> </div> </div> </div> <div id="squ6kqw" class="foot"> <ul class="public-celan"> <li> <a target="_blank" class="a1 db tc"> <img src="/Public/Home/img/icon-23.png" alt="" class="db auto"> <span id="squ6kqw" class="span-txt">在線咨詢</span> </a> </li> <li> <a href="tel:18980820575" class="a1 db tc"> <img src="/Public/Home/img/icon-24.png" alt="" class="db auto"> <span id="squ6kqw" class="span-txt">電話咨詢</span> </a> </li> <li> <a target="_blank" href="tencent://message/?uin=1683211881&Site=&Menu=yes" class="a1 db tc"> <img src="/Public/Home/img/icon-25.png" alt="" class="db auto"> <span id="squ6kqw" class="span-txt">QQ咨詢</span> </a> </li> <li> <a target="_blank" href="tencent://message/?uin=532337155&Site=&Menu=yes" class="a1 db tc public-yuyue-up"> <img src="/Public/Home/img/icon-26.png" alt="" class="db auto"> <span id="squ6kqw" class="span-txt">預(yù)約顧問</span> </a> </li> </ul> </div> <div id="squ6kqw" class="customer"> <dl class="icon1"> <dt> <a href="tencent://message/?uin=1683211881&Site=&Menu=yes"> <i class="iconT"><img src="/Public/Home/img/QQ.png" alt=""></i> <p>在線咨詢</p> </a> </dt> </dl> <dl class="icon2"> <dt><i><img src="/Public/Home/img/weixin.png" alt=""></i><p>微信咨詢</p></dt> <dd><img src="/Public/Home/img/ewm.png"></dd> </dl> <dl class="icon3"> <dt><i><img src="/Public/Home/img/dianhua.png" alt=""></i><p>電話咨詢</p></dt> <dd> <p>028-86922220（工作日）</p> <p>18980820575（7×24）</p> </dd> </dl> <dl class="icon4"> <dt class="sShow"> <a href="tencent://message/?uin=244261566&Site=&Menu=yes"> <i><img src="/Public/Home/img/dengji.png" alt=""></i><p>提交需求</p> </a> </dt> </dl> <dl class="icon5"> <dt class="gotop"> <a href="#top"> <i><img src="/Public/Home/img/top.png" alt=""></i><p>返回頂部</p> </a> </dt> </dl> </div> <footer> <div class="friendship-link"> <p>感谢您访问我们的网站，您可能还对以下资源感兴趣：</p> <a href="http://weahome.cn/" title="真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆">真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆</a> <div class="friend-links"> </div> </div> </footer> <script> (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })(); </script> </body><div id="wisus" class="pl_css_ganrao" style="display: none;"><kbd id="wisus"></kbd><acronym id="wisus"></acronym><blockquote id="wisus"></blockquote><sup id="wisus"><center id="wisus"><dl id="wisus"></dl></center></sup><menu id="wisus"><li id="wisus"><acronym id="wisus"></acronym></li></menu><tr id="wisus"></tr><abbr id="wisus"><blockquote id="wisus"><bdo id="wisus"></bdo></blockquote></abbr><noscript id="wisus"></noscript><strong id="wisus"><abbr id="wisus"><ul id="wisus"></ul></abbr></strong><input id="wisus"><button id="wisus"><rt id="wisus"></rt></button></input><tr id="wisus"></tr><dl id="wisus"><source id="wisus"><small id="wisus"></small></source></dl><dfn id="wisus"></dfn><tfoot id="wisus"><small id="wisus"><dfn id="wisus"></dfn></small></tfoot><center id="wisus"><th id="wisus"><button id="wisus"></button></th></center><s id="wisus"></s><xmp id="wisus"></xmp><delect id="wisus"><tr id="wisus"><td id="wisus"></td></tr></delect><dfn id="wisus"></dfn><tbody id="wisus"></tbody><center id="wisus"><input id="wisus"><delect id="wisus"></delect></input></center><center id="wisus"><th id="wisus"><button id="wisus"></button></th></center><code id="wisus"></code><small id="wisus"></small><nav id="wisus"></nav><acronym id="wisus"></acronym><dfn id="wisus"></dfn><object id="wisus"></object><optgroup id="wisus"></optgroup><optgroup id="wisus"></optgroup><object id="wisus"></object><th id="wisus"></th><s id="wisus"><noscript id="wisus"><em id="wisus"></em></noscript></s><noframes id="wisus"><ul id="wisus"><pre id="wisus"></pre></ul></noframes><tbody id="wisus"><blockquote id="wisus"><bdo id="wisus"></bdo></blockquote></tbody><table id="wisus"><del id="wisus"><sup id="wisus"></sup></del></table><em id="wisus"></em><samp id="wisus"><source id="wisus"><tr id="wisus"></tr></source></samp><acronym id="wisus"></acronym><strike id="wisus"><bdo id="wisus"><pre id="wisus"></pre></bdo></strike><dfn id="wisus"></dfn><strike id="wisus"><bdo id="wisus"><pre id="wisus"></pre></bdo></strike><center id="wisus"><fieldset id="wisus"><input id="wisus"></input></fieldset></center><tr id="wisus"><rt id="wisus"><code id="wisus"></code></rt></tr><ul id="wisus"></ul><object id="wisus"></object><optgroup id="wisus"><tbody id="wisus"><button id="wisus"></button></tbody></optgroup><code id="wisus"><tbody id="wisus"><dfn id="wisus"></dfn></tbody></code><acronym id="wisus"></acronym><dd id="wisus"></dd></div> </html> <script> $(".con img").each(function(){ var src = $(this).attr("src"); //獲取圖片地址 var str=new RegExp("http"); var result=str.test(src); if(result==false){ var url = "https://www.cdcxhl.com"+src; //絕對路徑 $(this).attr("src",url); } }); window.onload=function(){ document.oncontextmenu=function(){ return false; } } </script>