用file_get_contents(文章頁的鏈接);,然后用正則匹配指定標(biāo)簽里面的內(nèi)容
網(wǎng)站建設(shè)哪家好,找創(chuàng)新互聯(lián)公司!專注于網(wǎng)頁設(shè)計(jì)、網(wǎng)站建設(shè)、微信開發(fā)、小程序開發(fā)、集團(tuán)企業(yè)網(wǎng)站建設(shè)等服務(wù)項(xiàng)目。為回饋新老客戶創(chuàng)新互聯(lián)還提供了涿州免費(fèi)建站歡迎大家使用!
微信服務(wù)器post數(shù)據(jù)是后臺(tái)進(jìn)行的,你直接print并截?cái)嗍强床坏叫畔⒌?,另外post過來的數(shù)據(jù)是特殊的xml格式,可以寫入日志查看
給個(gè)簡(jiǎn)單的例子,僅僅是獲取了遠(yuǎn)程圖片哦
?php?
$url?=?'';這是你的微信網(wǎng)址
$con?=?file_get_contents("$url");
$pattern="/[img|IMG].*?src=[\'|\"](.*?(?:[\.gif|\.jpg|\.png]))[\'|\"].*?[\/]?/";
preg_match_all($pattern,$con,$match);
for($i=0;$count($match[1]);$i++){
$pic?=?file_get_content($match[1][$i]);
$name_arr?=?explode('/',$pic);
$n?=?count($name_arr);
file_put_content($name_arr[$n],$pic);
}
沒做測(cè)試,你測(cè)試一下吧
可以嘗試使用DOM操作庫simple-html-dom.php,快速獲取HTML結(jié)構(gòu)的內(nèi)容:
?php
require dirname(__FILE__).'/simple_html_dom.php';
$html = file_get_html('');
$articles = array();
foreach($html-find('article.newsentry') as $article) {
$item['time'] = trim($article-find('time', 0)-plaintext);
$item['title'] = trim($article-find('h2.newstitle', 0)-plaintext);
$item['content'] = trim($article-find('div.newscontent', 0)-plaintext);
$articles[] = $item;
}
print_r($articles);
可以把抓取到的內(nèi)容寫入置于內(nèi)存上的SQLite(/run/shm/php/crawler.db3),避免頻繁的磁盤IO.
使用fidder抓包工具抓一下數(shù)據(jù)鏈接
然后根據(jù)鏈接使用curl進(jìn)行獲取
把你微信文章的路由發(fā)過來看看,八成是用文件函數(shù)打開地址返回字符串然后正則匹配出結(jié)果去獲取,但是不知道你的url地址是不是可以訪問