要提取google搜索的部分?jǐn)?shù)據(jù),發(fā)現(xiàn)google對于軟件抓取它的數(shù)據(jù)屏蔽的厲害,以前偽造下 USER-AGENT 就可以抓數(shù)據(jù),但是現(xiàn)在卻不行了。利用抓包數(shù)據(jù)發(fā)現(xiàn),Google 判斷了 cookies,當(dāng)你沒有cookies的時(shí)候,直接返回 302 跳轉(zhuǎn),而且是連續(xù)幾十個302跳轉(zhuǎn),根本抓不了數(shù)據(jù)。
創(chuàng)新互聯(lián)不只是一家網(wǎng)站建設(shè)的網(wǎng)絡(luò)公司;我們對營銷、技術(shù)、服務(wù)都有自己獨(dú)特見解,公司采取“創(chuàng)意+綜合+營銷”一體化的方式為您提供更專業(yè)的服務(wù)!我們經(jīng)歷的每一步也許不一定是最完美的,但每一步都有值得深思的意義。我們珍視每一份信任,關(guān)注我們的成都網(wǎng)站建設(shè)、網(wǎng)站建設(shè)質(zhì)量和服務(wù)品質(zhì),在得到用戶滿意的同時(shí),也能得到同行業(yè)的專業(yè)認(rèn)可,能夠?yàn)樾袠I(yè)創(chuàng)新發(fā)展助力。未來將繼續(xù)專注于技術(shù)創(chuàng)新,服務(wù)升級,滿足企業(yè)一站式營銷型網(wǎng)站建設(shè)需求,讓再小的高端網(wǎng)站設(shè)計(jì)也能產(chǎn)生價(jià)值!因此,在發(fā)送搜索命令時(shí),需要先提取 cookies 并保存,然后利用保存下來的這個cookies再次發(fā)送搜索命令即可正常抓數(shù)據(jù)了。這其實(shí)和論壇的模擬登錄一個道理,先POST登錄,獲取cookies并保存,然后利用這個cookies訪問就可以了。
PHP 代碼如下:
$login_url = 'XXX';
$post_fields['email'] = 'XXXX';
$post_fields['password'] = 'XXXX';
$post_fields['origURL'] = 'XXX';
$post_fields['domain'] = 'xxx.com';
//cookie文件存放在網(wǎng)站根目錄的temp文件夾下
$cookie_file = tempnam('./temp','cookie');
$ch = curl_init($login_url);
curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.5) Gecko/20091102 Firefox/3.5.5');
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_MAXREDIRS, 1);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
curl_setopt($ch, CURLOPT_AUTOREFERER, 1);
curl_setopt($ch, CURLOPT_POST, 1);
curl_setopt($ch, CURLOPT_POSTFIELDS, $post_fields);
curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie_file);
curl_exec($ch);
curl_close($ch);
//帶上cookie文件,訪問需要訪問的頁面
$send_url='xxx.com';
$ch = curl_init($send_url);
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie_file);
$contents = curl_exec($ch);
curl_close($ch);
//清理cookie文件
unlink($cookie_file);
//輸出網(wǎng)頁內(nèi)容
print_r($contents);
在temp文件夾下保存一個cookie前綴的臨時(shí)文件,例如:coo3A98.tmp文件
打開這個文件得到如下代碼:
要使用php來格式化該文件,使用以下代碼就能實(shí)現(xiàn)
$cookie_folder = dirname(__FILE__)."/temp";
$lines = file($cookie_folder.'/coo3A98.tmp');
$trows = '';
foreach($lines as $line) {
if($line[0] != '#' && substr_count($line, "\t") == 6) {
$tokens = explode("\t", $line);
$tokens = array_map('trim', $tokens);
$tokens[4] = date('Y-m-d h:i:s', $tokens[4]);
$trows .= '
}
}
echo '
?>
運(yùn)行之后就如下圖所示,已經(jīng)被寫入到table當(dāng)中
大功告成,如果只讀取其中字段可自行修改即可。
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)cdcxhl.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。