這篇“php curl爬取網(wǎng)站數(shù)據(jù)的方法”除了程序員外大部分人都不太理解,今天小編為了讓大家更加理解“php curl爬取網(wǎng)站數(shù)據(jù)的方法”,給大家總結了以下內容,具有一定借鑒價值,內容詳細步驟清晰,細節(jié)處理妥當,希望大家通過這篇文章有所收獲,下面讓我們一起來看看具體內容吧。
成都創(chuàng)新互聯(lián)專注于墨玉網(wǎng)站建設服務及定制,我們擁有豐富的企業(yè)做網(wǎng)站經(jīng)驗。 熱誠為您提供墨玉營銷型網(wǎng)站建設,墨玉網(wǎng)站制作、墨玉網(wǎng)頁設計、墨玉網(wǎng)站官網(wǎng)定制、小程序開發(fā)服務,打造墨玉網(wǎng)絡公司原創(chuàng)品牌,更為您提供墨玉網(wǎng)站排名全網(wǎng)營銷落地服務。
php是一個嵌套的縮寫名稱,指的是英文超級文本預處理語言(php:Hypertext Preprocessor)的縮寫,它的語法混合了C、Java、Perl以及php自創(chuàng)新的語法,主要用來做網(wǎng)站開發(fā),許多小型網(wǎng)站都用php開發(fā),因為php是開源的,從而使得php經(jīng)久不衰。
php curl 爬取網(wǎng)站數(shù)據(jù)
今天幫一朋友爬取一網(wǎng)站數(shù)據(jù),涉及到PHP CURL模塊的使用??偨Y一下整個過程思路:
1.保證curl擴展模塊可用,如不可用,請在php.ini配置中打開php_curl.dll擴展;
2.初始化curl對象,并配置curl的參數(shù):
$ch = curl_init(); // 有部分web服務驗證了HTTP頭,該參數(shù)表示使用當前瀏覽器HTTP; curl_setopt($ch, CURLOPT_USERAGENT, $_SERVER['HTTP_USER_AGENT']); curl_setopt($ch, CURLOPT_HEADER, 0); // 不輸出header頭 curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch, CURLOPT_TIMEOUT, 100); // 超時設置
3.保存或傳替cookie,因為web服務可能檢查了session或cookie,在這種情況下我們需要發(fā)送cookie信息:
// 設置cookie,格式為cookiename1 = cookievalue1; cookiename2 = cookievalue2; …… curl_setopt($ch, CURLOPT_COOKIE, $cookie);
或者把該web的cookie保存成文件,自動傳遞
curl_setopt($ch, CURLOPT_COOKIEJAR, $cookiepath); // 保存cookie文件 curl_setopt($ch, CURLOPT_COOKIEFILE, $cookiepath); // 從文件傳遞cookie
4.偽造引用信息,因為web服務可能檢查了引用信息,非對應域名的不能通過驗證,那么我們可以偽造referer引用信息:
curl_setopt($ch, CURLOPT_REFERER, $referer);
5.如果POST數(shù)據(jù),那么應設置提交的數(shù)據(jù)
curl_setopt($ch, CURLOPT_POST, 1); // 數(shù)據(jù)的格式為var1=value1&var2=value2…… curl_setopt($ch, CURLOPT_POSTFIELDS, $data);
6.獲取結果,關閉curl:
$rs = curl_exec($ch); curl_close($ch);
7.處理數(shù)據(jù),數(shù)據(jù)爬下來后,我們使用正則表達式進行匹配處理,獲取需要的數(shù)據(jù):
preg_match_all($pattern, $rs, $matchs);
這里寫了一個通過的函數(shù),大家可以參考:
function curl($url, $data = null, $cookie = null, $referer = null) { $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_USERAGENT, $_SERVER['HTTP_USER_AGENT']); curl_setopt($ch, CURLOPT_HEADER, 0); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch, CURLOPT_TIMEOUT, 100); if ($data != null) { curl_setopt($ch, CURLOPT_POST, 1); curl_setopt($ch, CURLOPT_POSTFIELDS, (is_array($data) ? paramArray($data) : $data)); } if ($cookie != null) { if (strpos($cookie, '=')) { // cookie字串 curl_setopt($ch, CURLOPT_COOKIE, $cookie); } else { // cookie文件 // 保存cookie文件 curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie); // 從文件傳遞cookie curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie); } } if ($referer === null) { curl_setopt($ch, CURLOPT_AUTOREFERER, 1); } else { curl_setopt($ch, CURLOPT_REFERER, $referer); } $content = curl_exec($ch); curl_close($ch); return $content; } function paramArray($data) { $param = ''; foreach ($data as $k => $v) { $param .= "&$k=" . urlencode($v); } return substr($param, 1); }
感謝你的閱讀,希望你對“php curl爬取網(wǎng)站數(shù)據(jù)的方法”這一關鍵問題有了一定的理解,具體使用情況還需要大家自己動手實驗使用過才能領會,快去試試吧,如果想閱讀更多相關知識點的文章,歡迎關注創(chuàng)新互聯(lián)行業(yè)資訊頻道!