雖說我沒寫過,但作為看過一些基礎知識的開發(fā)者還是可以給你一些提議的
成都創(chuàng)新互聯(lián)公司堅持“要么做到,要么別承諾”的工作理念,服務領域包括:成都網(wǎng)站制作、網(wǎng)站設計、企業(yè)官網(wǎng)、英文網(wǎng)站、手機端網(wǎng)站、網(wǎng)站推廣等服務,滿足客戶于互聯(lián)網(wǎng)時代的蚌埠網(wǎng)站設計、移動媒體設計的需求,幫助企業(yè)找到有效的互聯(lián)網(wǎng)解決方案。努力成為您成熟可靠的網(wǎng)絡建設合作伙伴!
首先就是數(shù)據(jù)源,也就是采集的目標,你必須十分清楚目標源URL的規(guī)律并總結出對應的算法,這樣每次開獎后只需要從用算法算出來的URL取數(shù)據(jù),再利用后面的步驟挖掘數(shù)據(jù)基本上就可以了
其次是數(shù)據(jù)挖掘,說人話就是找金子,從數(shù)據(jù)源URL中把整個網(wǎng)頁的代碼都down下來(其實這才是我們需要的數(shù)據(jù)源),然后你必須十分了解該網(wǎng)頁的結構規(guī)律,再根據(jù)規(guī)律用算法將關鍵的部分篩選出來,根據(jù)源網(wǎng)站的規(guī)則將這些關鍵數(shù)據(jù)排在一起
當然你要考慮的問題還有一個,那就是在什么時間去采集數(shù)據(jù),對于返回回來的各種數(shù)據(jù)要如何應對。光這一點就很傷腦筋了,因為你有可能down下來的是404頁面,有可能是503、504等錯誤頁面,要考慮的問題還是很多的。我是不懂什么雙色球了,就數(shù)據(jù)采集和數(shù)據(jù)挖掘這塊憑我那還沒生銹的腦子希望能給你一些幫助吧
?php
mysql_connect("localhost","root","123456") //填寫mysql用戶名和密碼
or die("Could not connect to MySQL server!");
mysql_select_db("phpcms") //數(shù)據(jù)庫名
or die("Could not select database!");
mysql_query('set names "gbk"'); //數(shù)據(jù)庫內數(shù)據(jù)的編碼
?
?php
header("Content-type: text/html; charset=utf-8");
$url="";
$a=file_get_contents($url);
$pos1=strpos($a,'開獎公告/a');
$pos2=strpos($a,'tr class="hot1"');
$chang=$pos2-$pos1;
$s=substr($a,$pos1,$chang);
unset($a);
$s=htmlspecialchars($s);
$s=str_replace("\r\n","",$s);
echo $s;
?
我只能幫你寫到這里,不知道為什么strip_tags函數(shù)沒法用。
另外,你可以裝xampp很容易用的。