php抓取某個(gè)網(wǎng)站的數(shù)據(jù) js獲取php數(shù)據(jù)

PHP抓取網(wǎng)頁(yè)指定內(nèi)容

?php

創(chuàng)新互聯(lián)公司是一家集網(wǎng)站建設(shè),六合企業(yè)網(wǎng)站建設(shè),六合品牌網(wǎng)站建設(shè),網(wǎng)站定制,六合網(wǎng)站建設(shè)報(bào)價(jià),網(wǎng)絡(luò)營(yíng)銷,網(wǎng)絡(luò)優(yōu)化,六合網(wǎng)站推廣為一體的創(chuàng)新建站企業(yè)，幫助傳統(tǒng)企業(yè)提升企業(yè)形象加強(qiáng)企業(yè)競(jìng)爭(zhēng)力?？沙浞譂M足這一群體相比中小企業(yè)更為豐富、高端、多元的互聯(lián)網(wǎng)需求。同時(shí)我們時(shí)刻保持專業(yè)、時(shí)尚、前沿，時(shí)刻以成就客戶成長(zhǎng)自我，堅(jiān)持不斷學(xué)習(xí)、思考、沉淀、凈化自己，讓我們?yōu)楦嗟钠髽I(yè)打造出實(shí)用型網(wǎng)站。

* 如下：方法有點(diǎn)笨

* 抓取網(wǎng)頁(yè)內(nèi)容用 PHP 的正則

* 用JS每隔5分鐘刷新當(dāng)前頁(yè)面---即重新獲取網(wǎng)頁(yè)內(nèi)容

* 注： $mode中--title/title-更改為所需內(nèi)容（如 $mode = "#a(.*)/a#";獲取所有鏈接）

* window.location.href="";中的

* 更改為自己的URL----作用：即刷新當(dāng)前頁(yè)面

* setInterval("ref()",300000);是每隔300000毫秒（即 5 * 60 *1000 毫秒即5分鐘）執(zhí)行一次函數(shù) ref()

* print_r($arr);輸出獲得的所有內(nèi)容 $arr是一個(gè)數(shù)組可根據(jù)所需輸出一部分（如 echo $arr[1][0];）

* 若要獲得所有內(nèi)容可去掉

* $mode = "#title(.*)/title#";

if(preg_match_all($mode,$content,$arr)){

print_r($arr);

echo "br/";

echo $arr[1][0];

}

再加上 echo $content；

$url = ""; //目標(biāo)站

$fp = @fopen($url, "r") or die("超時(shí)");

$content=file_get_contents($url);

$mode = "#title(.*)/title#";

if(preg_match_all($mode,$content,$arr)){

//print_r($arr);

echo "br/";

echo $arr[1][0];

}

script language="JavaScript" type="text/javascript"

function ref(){

window.location.href="";

}

setInterval("ref()",300000);

//--

/script

phpstudy怎么抓取網(wǎng)頁(yè)數(shù)據(jù)

什么網(wǎng)頁(yè)數(shù)據(jù)？

是打開(kāi) 本地網(wǎng)頁(yè)還是打開(kāi)網(wǎng)上網(wǎng)頁(yè)

如果是本地網(wǎng)頁(yè)的話? 在瀏覽器上輸入127.0.0.1或者localhost進(jìn)行訪問(wèn)

如果是外網(wǎng)我理解的是你要獲取外網(wǎng)的一個(gè)網(wǎng)頁(yè)，可以用代碼或者程序來(lái)實(shí)現(xiàn)

（一般稱為采集程序，或者小偷程序）

//個(gè)人認(rèn)為curl好一點(diǎn)，因?yàn)閏url可以模擬瀏覽器，有的網(wǎng)站會(huì)過(guò)濾機(jī)器人

//1.php代碼

//把網(wǎng)頁(yè)讀入一個(gè)字符串

$contone?=?file_get_contents('url');

print_r($contone);

//curl采集

#初始化curl??（true/false）

$ch=curl_init();

#請(qǐng)求url地址

$params[CURLOPT_URL]='網(wǎng)址';

#是否返回響應(yīng)頭信息

$params[CURLOPT_HEADER]?=?true;

#是否將結(jié)果返回

$params[CURLOPT_RETURNTRANSFER]?=?true;

#是否重定向

$params[CURLOPT_FOLLOWLOCATION]?=?true;

#偽造瀏覽器

$params[CURLOPT_USERAGENT]?=?'Mozilla/5.0?(Windows?NT?5.1;?rv:9.0.1)?Gecko/20100101?Firefox/9.0.1';

curl_setopt_array($ch,?$params);

$content=curl_exec($ch);

//輸出網(wǎng)頁(yè)內(nèi)容

print_r($content);

//下面是整個(gè)curl采集類

class?Curl{

#采集的地址

public?$url;

#匹配的正則

public?$preg;

#模擬登錄需要的用戶名

public?$username;

#模擬登錄需要的密碼;

public?$pwd;

#cookie存儲(chǔ)的路徑

private?$cookie_path;

#采集數(shù)據(jù)的字符集

public?$charset;

/**

*?構(gòu)造方法，初始化采集基本信息

*?@param?$url??采集的url

*?@param?$preg?匹配的正則

*?@param?string?$username??用戶名

*?@param?string?$pwd??密碼

*?@param?string?$charset?字符集

public?function?__construct($info){

extract($info);

$this-url=$url;

$this-preg=$preg;

if(isset($charset)){

header("content-type:text/html;charset=".$this-charset);

}else{

header("content-type:text/html;charset=utf-8");

}

if(isset($username)){

$this-username=$username;

}

if(isset($pwd)){

$this-pwd=$pwd;

}

*?采集數(shù)據(jù)，非表單提交方式，直接采集的

public?function?get_info(){

#初始化curl

$ch=curl_init();

#請(qǐng)求url地址

$params[CURLOPT_URL]=$this-url;

#是否返回響應(yīng)頭信息

$params[CURLOPT_HEADER]?=?true;

#是否將結(jié)果返回

$params[CURLOPT_RETURNTRANSFER]?=?true;

#是否重定向

$params[CURLOPT_FOLLOWLOCATION]?=?true;

#偽造瀏覽器

$params[CURLOPT_USERAGENT]?=?'Mozilla/5.0?(Windows?NT?5.1;?rv:9.0.1)?Gecko/20100101?Firefox/9.0.1';

//判斷是否有cookie,有的話直接使用

//if?(isset($_COOKIE['cookie_jar'])?($_COOKIE['cookie_jar']?||?is_file($_COOKIE['cookie_jar']))){

//????$params[CURLOPT_COOKIEFILE]?=?$_COOKIE['cookie_jar'];?//這里判斷cookie

//}?else?{

//????$cookie_jar?=?tempnam($this-cookie_path,?'cookie');??????????????????//產(chǎn)生一個(gè)cookie文件

//????$params[CURLOPT_COOKIEJAR]?=?$cookie_jar;???????????????????????//寫入cookie信息

//????setcookie('cookie_jar',?$cookie_jar);?//保存cookie路徑

//}

#開(kāi)始發(fā)送請(qǐng)求，傳入curl參數(shù)

curl_setopt_array($ch,?$params);

$content=curl_exec($ch);

preg_match_all($this-preg,$content,$arr);

return?$arr;

}

/**

*?采集遠(yuǎn)程圖片

*?@param?$img??圖片路徑??是一個(gè)數(shù)組

*?@param?$save_path???圖片保存在你本地的路徑

*?@return?bool

public?function?get_img($img,$save_path){

for($i=0;$icount($img);$i++)?{

$res=@file_get_contents($img[$i]);

$img_type=substr($img[$i],?strrpos($img[$i],?"."));

$path=$save_path.time().rand(1,9999999).mt_rand()?.$img_type;

$img[$i]?=?$path;

file_put_contents($path,$res);

}

return?$img;

}

//登錄后采集

public?function?register_info(){

//采集的信息需要先登錄的就要先模擬登錄

//設(shè)置cookie保存路徑

$ch?=?curl_init();

//組裝用戶名和密碼

$info['username']?=?$this-username;

$info['password']?=?$this-pwd;

//模擬表單提交

$params[CURLOPT_URL]?=?$this-url;????//請(qǐng)求url地址

$params[CURLOPT_HEADER]?=?true;?//是否返回響應(yīng)頭信息

$params[CURLOPT_RETURNTRANSFER]?=?true;?//是否將結(jié)果返回

$params[CURLOPT_FOLLOWLOCATION]?=?true;?//是否重定向

$params[CURLOPT_USERAGENT]?=?'Mozilla/5.0?(Windows?NT?5.1;?rv:9.0.1)?Gecko/20100101?Firefox/9.0.1';

$postfields?=?'';

//將表單要提交的數(shù)據(jù)編程URL拼接方式

foreach?($info?as?$key?=?$value){

$postfields?.=?urlencode($key)?.?'='?.?urlencode($value)?.?'';

}

$params[CURLOPT_POST]?=?true;

$params[CURLOPT_POSTFIELDS]?=?$postfields;

//判斷是否有cookie,有的話直接使用

if?(isset($_COOKIE['cookie_jar'])($_COOKIE['cookie_jar']||is_file($_COOKIE['cookie_jar']))){

$params[CURLOPT_COOKIEFILE]?=?$_COOKIE['cookie_jar'];?//這里判斷cookie

}else{

$cookie_jar?=?tempnam($this-cookie_path,?'cookie');?//產(chǎn)生一個(gè)cookie文件

$params[CURLOPT_COOKIEJAR]?=?$cookie_jar;?//寫入cookie信息

setcookie('cookie_jar',?$cookie_jar);?//保存cookie路徑

}

curl_setopt_array($ch,?$params);?//傳入curl參數(shù)

$content?=?curl_exec($ch);?//執(zhí)行

return?$content;

}

php正則表達(dá)式怎么抓取網(wǎng)頁(yè)數(shù)據(jù)

會(huì)用正則就會(huì)抓取。

不會(huì)正則，一時(shí)半會(huì)也教不錯(cuò)。

不過(guò)，推薦你使用phpQuery這個(gè)框架，用jQuery的使用器來(lái)抓取數(shù)據(jù)。

怎么用php采集網(wǎng)站數(shù)據(jù)

簡(jiǎn)單的分了幾個(gè)步驟：

1、確定采集目標(biāo)

2、獲取目標(biāo)遠(yuǎn)程頁(yè)面內(nèi)容（curl、file_get_contents）

3、分析頁(yè)面html源碼，正則匹配你需要的內(nèi)容（preg_match、preg_match_all），這一步最為重要，不同頁(yè)面正則匹配規(guī)則不一樣

4、入庫(kù)

PHP怎樣抓取網(wǎng)頁(yè)代碼中動(dòng)態(tài)顯示的數(shù)據(jù)

PHP Simple HTML DOM或者phpQuery可以直接取得某些div中的內(nèi)容，里面有幾個(gè)例子專門針對(duì)于網(wǎng)頁(yè)抓取，調(diào)整好抓取頻次，舍去已經(jīng)存在的數(shù)據(jù)，你可以參考下

;id=57class=2

PHP獲取網(wǎng)站中的信息并存入數(shù)據(jù)庫(kù)

用PHP自帶函數(shù)就可以實(shí)現(xiàn)，首先要過(guò)去對(duì)方的網(wǎng)頁(yè)信息，用

file_get_contents();參數(shù)是對(duì)方的URL地址，這個(gè)函數(shù)返回是一個(gè)字符串你想要的東西就在這個(gè)字符串中了

接下來(lái)就可以針對(duì)這個(gè)字符串做處理了，說(shuō)下思路，正如你這個(gè)問(wèn)題想獲取到航班號(hào)起飛時(shí)間，在這個(gè)網(wǎng)頁(yè)中應(yīng)該有很多相同的標(biāo)簽元素，它們都有共同點(diǎn)，用

用正則表達(dá)式preg_match();或者是

preg_match_all();這兩個(gè)函數(shù)它們都返回一個(gè)數(shù)組，這個(gè)數(shù)組存的就是你要的航班號(hào)和起飛時(shí)間，那么相同信息的數(shù)組就會(huì)出現(xiàn)了，然后在對(duì)這個(gè)數(shù)組進(jìn)行分析找到你要的某個(gè)值或全部的值

獲取信息要用到的3個(gè)函數(shù)是：

file_get_contents();

preg_match();

preg_match_all();

新聞標(biāo)題：php抓取某個(gè)網(wǎng)站的數(shù)據(jù) js獲取php數(shù)據(jù)
本文來(lái)源：http://weahome.cn/article/hphpeg.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

php抓取某個(gè)網(wǎng)站的數(shù)據(jù) js獲取php數(shù)據(jù)

PHP抓取網(wǎng)頁(yè)指定內(nèi)容

phpstudy怎么抓取網(wǎng)頁(yè)數(shù)據(jù)

php正則表達(dá)式怎么抓取網(wǎng)頁(yè)數(shù)據(jù)

怎么用php采集網(wǎng)站數(shù)據(jù)

PHP怎樣抓取網(wǎng)頁(yè)代碼中動(dòng)態(tài)顯示的數(shù)據(jù)

PHP獲取網(wǎng)站中的信息并存入數(shù)據(jù)庫(kù)

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管