首先,隊(duì)列的作用不是批量處理,而是延時處理,也叫異步處理
站在用戶的角度思考問題,與客戶深入溝通,找到紅古網(wǎng)站設(shè)計(jì)與紅古網(wǎng)站推廣的解決方案,憑借多年的經(jīng)驗(yàn),讓設(shè)計(jì)與互聯(lián)網(wǎng)技術(shù)結(jié)合,創(chuàng)造個性化、用戶體驗(yàn)好的作品,建站類型包括:成都網(wǎng)站設(shè)計(jì)、成都網(wǎng)站建設(shè)、企業(yè)官網(wǎng)、英文網(wǎng)站、手機(jī)端網(wǎng)站、網(wǎng)站推廣、域名注冊、虛擬主機(jī)、企業(yè)郵箱。業(yè)務(wù)覆蓋紅古地區(qū)。
要做批量采集的話,首先你要劃分好區(qū)間,可以用php的多進(jìn)程,也可以用php的cli模式做,只要數(shù)據(jù)不竄就行
這個問題在PHP的官方網(wǎng)站上叫緩沖查詢和非緩沖查詢(Buffered and Unbuffered queries)。PHP的查詢?nèi)笔∧J绞蔷彌_模式。也就是說,查詢數(shù)據(jù)結(jié)果會一次全部提取到內(nèi)存里供PHP程序處理。這樣給了PHP程序額外的功能,比如說,計(jì)算行數(shù),將指針指向某一行等。更重要的是程序可以對數(shù)據(jù)集反復(fù)進(jìn)行二次查詢和過濾等操作。但這種緩沖查詢模式的缺陷就是消耗內(nèi)存,也就是用空間換速度。
相對的,另外一種PHP查詢模式是非緩沖查詢,數(shù)據(jù)庫服務(wù)器會一條一條的返回數(shù)據(jù),而不是一次全部返回,這樣的結(jié)果就是PHP程序消耗較少的內(nèi)存,但卻增加了數(shù)據(jù)庫服務(wù)器的壓力,因?yàn)閿?shù)據(jù)庫會一直等待PHP來取數(shù)據(jù),一直到數(shù)據(jù)全部取完。
很顯然,緩沖查詢模式適用于小數(shù)據(jù)量查詢,而非緩沖查詢適應(yīng)于大數(shù)據(jù)量查詢。
php處理數(shù)據(jù)時會有一個等待時間,就是所說的超時時間,而且如果使用mysql的話,它也有一個超時時間,運(yùn)行一串代碼時間如果超過配置文件的時間,會被中斷不運(yùn)行。第一種你可以修改php配置文件timeout的運(yùn)行時間,第二你可以分批處理大量數(shù)據(jù),注意是分批處理,就OK了。
?php
mysql_connect("localhost", "mysql_user", "mysql_password") or
die("Could not connect: " . mysql_error());//連接你的數(shù)據(jù)庫
mysql_select_db("mydb");//選擇你的數(shù)據(jù)庫
$result = mysql_query("SELECT `name` FROM data_boy WHERE `id`='2' LIMIT 0, 60");//執(zhí)行SQL查詢語句,搜索出60條數(shù)據(jù)
while ($row = mysql_fetch_array($result)) {
echo "姓名:".$row[name]."br";
/*補(bǔ)充一句,此處也可以是:
echo "姓名:".$row[0]."br";此處"mysql_fetch_array"默認(rèn)返回的既有 關(guān)聯(lián)數(shù)組(字段作為鍵名),也有數(shù)字索引數(shù)組*/
}
mysql_free_result($result);//釋放結(jié)果
#!/usr/bin/env?php
?php
$cmds=array(
array('/apps/bin/launcher.php','charge/promotion_props_stat.php','mobile',1),
array('/apps/bin/launcher.php','charge/promotion_props_stat.php','mobile',2),
array('/apps/bin/launcher.php','charge/promotion_props_stat.php','click',1),
array('/apps/bin/launcher.php','charge/promotion_props_stat.php','click',2),
array('/apps/bin/launcher.php','charge/promotion_props_stat.php',1),
array('/apps/bin/launcher.php','charge/promotion_props_stat.php',2)
);
foreach($cmds?as?$cmd){
$pid=pcntl_fork();
if($pid==-1){?//進(jìn)程創(chuàng)建失敗
die('fork?child?process?failure!');
}
else?if($pid){?//父進(jìn)程處理邏輯
pcntl_wait($status,WNOHANG);
}
else{?//子進(jìn)程處理邏輯
pcntl_exec('/usr/local/bin/php',$cmd);
}
}
你用網(wǎng)頁的方式,讓人點(diǎn)擊,服務(wù)器采集,簡直是弱爆了。每個人的點(diǎn)擊循環(huán)1000次,來個100人同時點(diǎn),你要用的是普通的虛擬機(jī)就不行了。
最好是換種方式實(shí)現(xiàn),不要通過網(wǎng)頁進(jìn)行采集。
可以非常簡單的在數(shù)據(jù)庫的表,創(chuàng)建一個采集隊(duì)列,后臺執(zhí)行一個crontab的計(jì)劃任務(wù),去完成隊(duì)列里的采集任務(wù)。