這期內(nèi)容當中小編將會給大家?guī)碛嘘P(guān)怎么在PHP中利用Curl抓取數(shù)據(jù),文章內(nèi)容豐富且以專業(yè)的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。
公司主營業(yè)務(wù):成都網(wǎng)站設(shè)計、成都網(wǎng)站建設(shè)、移動網(wǎng)站開發(fā)等業(yè)務(wù)。幫助企業(yè)客戶真正實現(xiàn)互聯(lián)網(wǎng)宣傳,提高企業(yè)的競爭能力。創(chuàng)新互聯(lián)建站是一支青春激揚、勤奮敬業(yè)、活力青春激揚、勤奮敬業(yè)、活力澎湃、和諧高效的團隊。公司秉承以“開放、自由、嚴謹、自律”為核心的企業(yè)文化,感謝他們對我們的高要求,感謝他們從不同領(lǐng)域給我們帶來的挑戰(zhàn),讓我們激情的團隊有機會用頭腦與智慧不斷的給客戶帶來驚喜。創(chuàng)新互聯(lián)建站推出鐵力免費做網(wǎng)站回饋大家。1. 首先需要對相應(yīng)的登錄頁面的html源代碼進行分析,獲得一些必要的信息:
(1)登錄頁面的地址;
(2)驗證碼的地址;
(3)登錄表單需要提交的各個字段的名稱和提交方式;
(4)登錄表單提交的地址;
(5)另外要需要知道要抓取的數(shù)據(jù)所在的地址。
2. 獲取cookie并存儲(針對使用cookie文件的網(wǎng)站):
$login_url = 'http://www.xxxxx'; //登錄頁面地址 $cookie_file = dirname(__FILE__)."/pic.cookie"; //cookie文件存放位置(自定義) $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $login_url); curl_setopt($ch, CURLOPT_HEADER, 0); curl_setopt($ch, CURLOPT_RETURNTRANSFER,1); curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie_file); curl_exec($ch); curl_close($ch);
3. 獲取驗證碼并存儲(針對使用驗證碼的網(wǎng)站):
$verify_url = "http://www.xxxx"; //驗證碼地址 $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $verify_url); curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie_file); curl_setopt($ch, CURLOPT_HEADER, 0); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); $verify_img = curl_exec($ch); curl_close($ch); $fp = fopen("./verify/verifyCode.png",'w'); //把抓取到的圖片文件寫入本地圖片文件保存 fwrite($fp, $verify_img); fclose($fp);
說明:
由于不能實現(xiàn)驗證碼的識別,所以我這里的做法是,把驗證碼圖片抓取下來存放到本地文件中,然后在自己項目中的html頁面中顯示,讓用戶去填寫,等用戶填寫完賬號、密碼和驗證碼,并點擊提交按鈕之后再去進行下一步的操作。
4. 模擬提交登錄表單:
$ post_url = 'http://www.xxxx'; //登錄表單提交地址 $post = "username=$account&password=$password&seccodeverify=$verifyCode";//表單提交的數(shù)據(jù)(根據(jù)表單字段名和用戶輸入決定) $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $ post_url); curl_setopt($ch, CURLOPT_HEADER, false); curl_setopt($ch, CURLOPT_RETURNTRANSFER,1); curl_setopt($ch, CURLOPT_POSTFIELDS, $post); //提交方式為post curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie_file); curl_exec($ch); curl_close($ch);
5. 抓取數(shù)據(jù):
$data_url = "http://www.xxxx"; //數(shù)據(jù)所在地址 $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $data_url); curl_setopt($ch, CURLOPT_HEADER, false); curl_setopt($ch, CURLOPT_HEADER, 0); curl_setopt($ch, CURLOPT_RETURNTRANSFER,0); curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie_file); $data = curl_exec($ch); curl_close($ch);
到目前為止,已經(jīng)把數(shù)據(jù)所在地址的這個頁面都抓取下來存儲在字符串變量$data中了。
需要注意的是抓取下來的是一個網(wǎng)頁的html源代碼,也就是說這個字符串中不僅包含了你想要的數(shù)據(jù),還包含了許多的html標簽等你不想要的東西。所以如果你想要從中提取出你需要的數(shù)據(jù)的話,你還要對存放數(shù)據(jù)的頁面的html代碼進行分析,然后結(jié)合字符串操作函數(shù)、正則匹配等方法從中提取出你想要的數(shù)據(jù)。
以上方法對使用http協(xié)議的一般網(wǎng)站是有效的。但是如果你要模擬登錄的是使用了https協(xié)議的網(wǎng)站的話還需要添加如下一些處理:
1. 跳過https驗證:
curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, false); curl_setopt($curl, CURLOPT_SSL_VERIFYHOST, false);
2. 使用用戶代理:
$UserAgent = 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; SLCC1; .NET CLR 2.0.50727; .NET CLR 3.0.04506; .NET CLR 3.5.21022; .NET CLR 1.0.3705; .NET CLR 1.1.4322)'; curl_setopt($curl, CURLOPT_USERAGENT, $UserAgent);
上述就是小編為大家分享的怎么在PHP中利用Curl抓取數(shù)據(jù)了,如果剛好有類似的疑惑,不妨參照上述分析進行理解。如果想知道更多相關(guān)知識,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。