NOSQL的數(shù)據(jù)在內(nèi)存里,而傳統(tǒng)rdbms,某個(gè)select第一次執(zhí)行的時(shí)候,如果發(fā)現(xiàn)內(nèi)存里沒有需要的數(shù)據(jù)(比如MySQL的innodb buffer pool),會(huì)去從磁盤讀取,然后再開始計(jì)算,這樣子從原理上就必然比nosql要慢一些,但是,會(huì)慢多少呢?可以用一個(gè)分組統(tǒng)計(jì)的全表掃描來PK下。
讓客戶滿意是我們工作的目標(biāo),不斷超越客戶的期望值來自于我們對(duì)這個(gè)行業(yè)的熱愛。我們立志把好的技術(shù)通過有效、簡(jiǎn)單的方式提供給客戶,將通過不懈努力成為客戶在信息化領(lǐng)域值得信任、有價(jià)值的長(zhǎng)期合作伙伴,公司提供的服務(wù)項(xiàng)目有:空間域名、網(wǎng)頁空間、營(yíng)銷軟件、網(wǎng)站建設(shè)、同江網(wǎng)站維護(hù)、網(wǎng)站推廣。
測(cè)試環(huán)境如下:
server:阿里云服務(wù)器(Ubuntu14.04+1核cpu和 1G內(nèi)存)
mysql:5.5.41
mysql服務(wù)端參數(shù):innodb_buffer_pool_size = 512M (其余都默認(rèn))
MongoDB:2.4.9
這里用一個(gè)1000多萬行記錄的表作為測(cè)試對(duì)象,這個(gè)表只有一個(gè)字段:imsi。
在mysql里建測(cè)試對(duì)象,導(dǎo)表:
create database db_test;
create table ul_inbound(imsi varchar(15));
load data infile '/tmp/inbound.sub.log' into table ul_inbound(imsi);
測(cè)試結(jié)果:
mysql> select imsi,count(*) from ul_inbound group by imsi having count(*) >5000;
+-----------------+----------+
| imsi | count(*) |
+-----------------+----------+
| 250017831851018 | 5166 |
| 283100106389033 | 21291 |
| 302720304966683 | 41598 |
| 302720502859575 | 8787 |
| 302720505260881 | 7932 |
| 310170801568405 | 6018 |
| 310170802085117 | 13452 |
| 310170802299726 | 13824 |
| 310410577936479 | 5772 |
| 310410610359421 | 5790 |
| 310410661857060 | 7038 |
| 310410669731926 | 7788 |
| 310410671702203 | 6705 |
| 310410673812082 | 5403 |
+-----------------+----------+
53 rows in set (1 min 47.73 sec)
花了107秒。
在mongodb里導(dǎo)入數(shù)據(jù)(導(dǎo)入到my_mongodb的sub里):
#!/usr/bin/python
# Python:2.7.6
# Filename:mongodb.py
import pymongo
import random
conn = pymongo.Connection("127.0.0.1",27017) #Connection() without parameters will default connect localhost mongodb
db = conn.my_mongodb
for imsi in open('inbound.sub.log'):
imsi = imsi.strip('\n')
db.sub.insert({'imsi':imsi})
> use my_mongodb;
switched to db my_mongodb
> db.sub.aggregate( [ { $group: { _id: "$imsi", count: { $sum: 1 } } }, { $match: { count: { $gt: 5000 } } } ]);
{
"result" : [
{
"_id" : "401025006559964",
"count" : 17982
},
{
"_id" : "310410757405261",
"count" : 7269
},
10秒左右搞定。
注:
1)這個(gè)只是為了測(cè)試全表掃描能力,實(shí)際mysql查詢能力會(huì)受到索引、服務(wù)端參數(shù)等諸多因素的影響。
2)mongodb的使用,必須內(nèi)存管夠,如果內(nèi)存不夠,要用swap,能力會(huì)大受影響。