“大數(shù)據(jù)”這一概念最早在國(guó)外被提及。之后國(guó)內(nèi)外興起了一系列大數(shù)據(jù)技術(shù),包括大數(shù)據(jù)硬件類、大數(shù)據(jù)分析類、大數(shù)據(jù)數(shù)據(jù)處理類等等,也因此誕生了一批大數(shù)據(jù)廠商。
科爾沁左翼ssl適用于網(wǎng)站、小程序/APP、API接口等需要進(jìn)行數(shù)據(jù)傳輸應(yīng)用場(chǎng)景,ssl證書未來(lái)市場(chǎng)廣闊!成為創(chuàng)新互聯(lián)的ssl證書銷售渠道,可以享受市場(chǎng)價(jià)格4-6折優(yōu)惠!如果有意向歡迎電話聯(lián)系或者加微信:13518219792(備注:SSL證書合作)期待與您的合作!
分析解決方案類廠商除去IBM、SAP、Oracle、微軟、惠普國(guó)外代表廠商,在國(guó)內(nèi)有星環(huán)科技、帆軟、用友、等等。
星環(huán)信息科技主要從事大數(shù)據(jù)時(shí)代核心平臺(tái)數(shù)據(jù)庫(kù)軟件的研發(fā)與服務(wù),被Gartner列為國(guó)際主流Hadoop發(fā)行版廠商。其產(chǎn)品Transwarp Data Hub提供高速SQL引擎Transwarp Inceptor, NoSQL搜索引擎Transwarp Hyperbase、流處理引擎Transwarp Stream和數(shù)據(jù)挖掘組件Transwarp Discover。
帆軟公司由報(bào)表軟件FineReport起家,目前已成為報(bào)表領(lǐng)域的權(quán)威者,擁有10年企業(yè)數(shù)據(jù)分析的行業(yè)經(jīng)驗(yàn)。后發(fā)布的商業(yè)智能自助式BI工具FineBI,提供包括Hadoop、分布式數(shù)據(jù)庫(kù)、多維數(shù)據(jù)庫(kù)的大數(shù)據(jù)可視化分析;提供PC端、移動(dòng)端、大屏的可視化方案,廣泛應(yīng)用于銀行、電商、地產(chǎn)、醫(yī)藥、制造、電信、制造、化工等行業(yè),擁有成熟的行業(yè)化解決方案。
數(shù)據(jù)可視化類廠商有海云數(shù)據(jù)、星途數(shù)據(jù)、帆軟、數(shù)字冰雹等。
用戶行為/精準(zhǔn)營(yíng)銷分析類,大數(shù)據(jù)技術(shù)使得用戶在互聯(lián)網(wǎng)的行為,得到精準(zhǔn)定位,從而細(xì)化營(yíng)銷方案、快速迭代產(chǎn)品。這方面的廠商有GrowingIO、神策數(shù)據(jù)等。
中國(guó),不會(huì)。
1、中國(guó)阿里云數(shù)據(jù)庫(kù)HBase是面向大數(shù)據(jù)領(lǐng)域的一站式NoSQL服務(wù)。
2、適用于GB至PB級(jí)的大規(guī)模吞吐、檢索、分析工作負(fù)載,是為淘寶推薦、支付寶賬單、花唄風(fēng)控、監(jiān)控、廣告投放、物流軌跡以及其他數(shù)據(jù)存放使用的,是不會(huì)被刪除的。
package basic;
import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.PreparedStatement;
import java.sql.ResultSet;
import java.sql.SQLException;
import java.sql.Statement;
public class JDBC {
public void findAll() {
try {
// 獲得數(shù)據(jù)庫(kù)驅(qū)動(dòng)
//由于長(zhǎng)時(shí)間不寫,驅(qū)動(dòng)名和URL都忘記了,不知道對(duì)不對(duì),你應(yīng)該知道的,自己改一下的哈
String url = "jdbc:oracle:thin:@localhost:1521:XE";
String userName = "system";
String password = "system";
Class.forName("oracle.jdbc.driver.OracleDriver");
// 創(chuàng)建連接
Connection conn = DriverManager.getConnection(url, userName,
password);
// 新建發(fā)送sql語(yǔ)句的對(duì)象
Statement st = conn.createStatement();
// 執(zhí)行sql
String sql = "select * from users";
ResultSet rs = st.executeQuery(sql);
// 處理結(jié)果
while(rs.next()){
//這個(gè)地方就是給你的封裝類屬性賦值
System.out.println("UserName:"+rs.getString(0));
}
// 關(guān)閉連接
rs.close();
st.close();
conn.close();
} catch (ClassNotFoundException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (SQLException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
public void delete(){
try {
//步驟還是那六個(gè)步驟,前邊的兩步是一樣的
String url = "jdbc:oracle:thin:@localhost:1521:XE";
String userName = "system";
String password = "system";
Class.forName("oracle.jdbc.driver.OracleDriver");
Connection conn = DriverManager.getConnection(url,userName,password);
//這里的發(fā)送sql語(yǔ)句的對(duì)象是PreparedStatement,成為預(yù)處理sql對(duì)象,因?yàn)榘礂l件刪除是需要不定值的
String sql = "delete from users where id = ?";
PreparedStatement ps = conn.prepareStatement(sql);
ps.setInt(0, 1);
int row = ps.executeUpdate();
if(row!=0){
System.out.println("刪除成功!");
}
// 關(guān)閉連接
rs.close();
st.close();
conn.close();
} catch (ClassNotFoundException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (SQLException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
國(guó)內(nèi)五大論文數(shù)據(jù)庫(kù)如下:
一、中國(guó)知網(wǎng)提供的《中國(guó)學(xué)術(shù)期刊(光盤版)》
也稱中國(guó)期刊全文數(shù)據(jù)庫(kù)由清華同方股份有限公司出版。
收錄1994年以來(lái)國(guó)內(nèi)6 600種期刊,包括了學(xué)術(shù)期刊于非學(xué)術(shù)期刊,涵蓋理工、農(nóng)業(yè)、醫(yī)藥衛(wèi)生、文史哲、政治軍事與法律、教育與社會(huì)科學(xué)綜合、電子技術(shù)與信息科學(xué)、經(jīng)濟(jì)與管理。
收錄的學(xué)術(shù)期刊同時(shí)作為“中國(guó)學(xué)術(shù)期刊綜合評(píng)價(jià)數(shù)據(jù)庫(kù)統(tǒng)計(jì)源期刊”。
但是收錄的期刊不很全面,一些重要期刊未能收錄。
二、中國(guó)生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)(CBMDISC)
數(shù)據(jù)庫(kù)是中國(guó)醫(yī)學(xué)科學(xué)院信息研究所開(kāi)發(fā)研制,收錄了自1978年以來(lái)1 600余種中國(guó)生物醫(yī)學(xué)期刊。
范圍涉及基礎(chǔ)醫(yī)學(xué)、臨床醫(yī)學(xué)、預(yù)防醫(yī)學(xué)、藥學(xué)、中醫(yī)學(xué)及中藥學(xué)等生物醫(yī)學(xué)的各個(gè)領(lǐng)域。
三、中文生物醫(yī)學(xué)期刊數(shù)據(jù)庫(kù)(CMCC)
由中國(guó)人民解放軍醫(yī)學(xué)圖書館數(shù)據(jù)庫(kù)研究部研制開(kāi)發(fā)。
收錄了1994年以來(lái)國(guó)內(nèi)正式出版發(fā)行的生物醫(yī)學(xué)期刊和一些自辦發(fā)行的生物醫(yī)學(xué)刊物1 000余種的文獻(xiàn)題錄和文摘。
涉及的主要學(xué)科領(lǐng)域有:基礎(chǔ)醫(yī)學(xué)、臨床醫(yī)學(xué)、預(yù)防醫(yī)學(xué)、藥學(xué)、醫(yī)學(xué)生物學(xué)、中醫(yī)學(xué)、中藥學(xué)、醫(yī)院管理及醫(yī)學(xué)信息等生物醫(yī)學(xué)的各個(gè)領(lǐng)域。
并具有成果查新功能醫(yī)學(xué)全在線
四、萬(wàn)方數(shù)據(jù)資源系統(tǒng)(China Info)
由中國(guó)科技信息研究所,萬(wàn)方數(shù)據(jù)股份有限公司研制。
該數(shù)據(jù)庫(kù)收錄的期刊學(xué)科范圍廣,包括了學(xué)術(shù)期刊于非學(xué)術(shù)期刊,提供約2 000種的電子期刊的全文檢索。
被收錄的學(xué)術(shù)期刊都獲得了“中國(guó)核心期刊(遴選)數(shù)據(jù)庫(kù)來(lái)源期刊”的收錄證書。
個(gè)別期刊甚至將“遴選”改成“精選”,或者干脆去掉。
很多作者因此誤以為這就是核心期刊。
五、維普數(shù)據(jù)庫(kù)
也稱中文科技期刊數(shù)據(jù)庫(kù),維普科技期刊數(shù)據(jù)庫(kù),由中國(guó)科學(xué)技術(shù)信息研究所重慶分所出版。
收錄了1989年以來(lái)我國(guó)自然科學(xué)、工程技術(shù)、農(nóng)業(yè)科學(xué)、醫(yī)藥衛(wèi)生、經(jīng)濟(jì)管理、教育科學(xué)和圖書情報(bào)等學(xué)科9 000余種期刊,包括了學(xué)術(shù)與非學(xué)術(shù)期刊。
收錄期刊數(shù)量很大,但不足之處是部分國(guó)家新聞出版總署公布的非法期刊也被收錄了。
一般的,學(xué)術(shù)期刊都能進(jìn)入至少1個(gè)國(guó)內(nèi)期刊數(shù)據(jù)庫(kù)。
期刊據(jù)數(shù)據(jù)庫(kù)不是期刊的評(píng)價(jià)體系,對(duì)科研處的期刊性質(zhì)評(píng)價(jià)也就缺乏足夠的意義,故不宜作為期刊性質(zhì)評(píng)價(jià)的依據(jù)。
另外還有:
1、萬(wàn)方數(shù)據(jù)
萬(wàn)方數(shù)據(jù)提供中國(guó)大陸科技期刊檢索,是萬(wàn)方數(shù)據(jù)股份有限公司建立的專業(yè)學(xué)術(shù)知識(shí)服務(wù)網(wǎng)站。
隸屬于萬(wàn)方數(shù)據(jù)資源系統(tǒng),對(duì)外服務(wù)數(shù)據(jù)由萬(wàn)方數(shù)據(jù)資源系統(tǒng)統(tǒng)一部署提供。
2、全國(guó)報(bào)刊索引
收錄全國(guó)包括港臺(tái)地區(qū)的期刊8000種左右,月報(bào)道量在1.8萬(wàn)條以上,年報(bào)道量在44萬(wàn)條左右,書本式用戶有3500多家,現(xiàn)又出版光盤數(shù)據(jù)庫(kù)。
反映了中國(guó)政治、經(jīng)濟(jì)、軍事、科學(xué)、文化、文學(xué)藝術(shù)、歷史地理、科技等方面的發(fā)展情況,提供了國(guó)內(nèi)外最新學(xué)術(shù)進(jìn)展信息。
該索引是我國(guó)收錄報(bào)刊種類最多,內(nèi)容涉及范圍最廣,持續(xù)出版時(shí)間最長(zhǎng),與新文獻(xiàn)保持同步發(fā)展的權(quán)威性檢索刊物,也是查找建國(guó)以來(lái)報(bào)刊論文資料最重要的檢索工具。
正文采用分類編排,先后采用過(guò)《中國(guó)人民大學(xué)圖書分類法》和自編的《報(bào)刊資料分類表》,1980年起,仿《中國(guó)圖書館圖書分類法》分21類編排,1992年全面改用《中國(guó)圖書資料分類法》(第三版)編排,2000年開(kāi)始用《中國(guó)圖書館分類法》(第四版)標(biāo)引,計(jì)算機(jī)編排。
在著錄上,《全國(guó)報(bào)刊索引》從1991年起采用國(guó)家標(biāo)準(zhǔn)——《檢索期刊條目著錄規(guī)則》進(jìn)行著錄,包括題名、著譯者姓名、報(bào)刊名、版本、卷期標(biāo)識(shí)、起止頁(yè)碼、附注等項(xiàng)。
同時(shí),“哲社版”采用電腦編排,增加了“著者索引”、“題中人名分析索引”、“引用報(bào)刊一覽表”,方便了讀者的使用。
3、超星數(shù)字圖書館
為目前世界最大的中文在線數(shù)字圖書館,提供大量的電子圖書資源提供閱讀,其中包括文學(xué)、經(jīng)濟(jì)、計(jì)算機(jī)等五十余大類,數(shù)十萬(wàn)冊(cè)電子圖書,300萬(wàn)篇論文,全文總量4億余頁(yè),數(shù)據(jù)總量30000GB,大量免費(fèi)電子圖書,并且每天仍在不斷的增加與更新。
覆蓋范圍:涉及哲學(xué)、宗教、社科總論、經(jīng)典理論、民族學(xué)、經(jīng)濟(jì)學(xué)、自然科學(xué)總論、計(jì)算機(jī)等各個(gè)學(xué)科門類。
本館已訂購(gòu)67萬(wàn)余冊(cè)。
收錄年限:1977年至今。
4、維普資訊
維普資訊是科學(xué)技術(shù)部西南信息中心下屬的一家大型的專業(yè)化數(shù)據(jù)公司,是中文期刊數(shù)據(jù)庫(kù)建設(shè)事業(yè)的奠基人,公司全稱重慶維普資訊有限公司。
目前已經(jīng)成為中國(guó)最大的綜合文獻(xiàn)數(shù)據(jù)庫(kù)。
從1989年開(kāi)始,一直致力于對(duì)海量的報(bào)刊數(shù)據(jù)進(jìn)行科學(xué)嚴(yán)謹(jǐn)?shù)难芯?、分析,采集、加工等深層次開(kāi)發(fā)和推廣應(yīng)用。
5、中宏數(shù)據(jù)庫(kù)
中宏數(shù)據(jù)庫(kù)由國(guó)家發(fā)改委所屬的中國(guó)宏觀經(jīng)濟(jì)學(xué)會(huì)、中宏基金、中國(guó)宏觀經(jīng)濟(jì)信息網(wǎng)、中宏經(jīng)濟(jì)研究中心聯(lián)合研創(chuàng)。
是由18類大庫(kù)、74類中庫(kù)組成,涵蓋了九十年代以來(lái)宏觀經(jīng)濟(jì)、區(qū)域經(jīng)濟(jì)、產(chǎn)業(yè)經(jīng)濟(jì)、金融保險(xiǎn)、投資消費(fèi)、世界經(jīng)濟(jì)、政策法規(guī)、統(tǒng)計(jì)數(shù)字、研究報(bào)告等方面的詳盡內(nèi)容,是目前國(guó)內(nèi)門類最全,分類最細(xì),容量最大的經(jīng)濟(jì)類數(shù)據(jù)庫(kù)。
發(fā)展現(xiàn)狀
在數(shù)據(jù)庫(kù)的發(fā)展歷史上,數(shù)據(jù)庫(kù)先后經(jīng)歷了層次數(shù)據(jù)庫(kù)、網(wǎng)狀數(shù)據(jù)庫(kù)和關(guān)系數(shù)據(jù)庫(kù)等各個(gè)階段的發(fā)展,數(shù)據(jù)庫(kù)技術(shù)在各個(gè)方面的快速的發(fā)展。特別是關(guān)系型數(shù)據(jù)庫(kù)已經(jīng)成為目前數(shù)據(jù)庫(kù)產(chǎn)品中最重要的一員,80年代以來(lái),幾乎所有的數(shù)據(jù)庫(kù)廠商新出的數(shù)據(jù)庫(kù)產(chǎn)品都支持關(guān)系型數(shù)據(jù)庫(kù),
即使一些非關(guān)系數(shù)據(jù)庫(kù)產(chǎn)品也幾乎都有支持關(guān)系數(shù)據(jù)庫(kù)的接口。這主要是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)可以比較好的解決管理和存儲(chǔ)關(guān)系型數(shù)據(jù)的問(wèn)題。隨著云計(jì)算的發(fā)展和大數(shù)據(jù)時(shí)代的到來(lái),關(guān)系型數(shù)據(jù)庫(kù)越來(lái)越無(wú)法滿足需要,
這主要是由于越來(lái)越多的半關(guān)系型和非關(guān)系型數(shù)據(jù)需要用數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)管理,以此同時(shí),分布式技術(shù)等新技術(shù)的出現(xiàn)也對(duì)數(shù)據(jù)庫(kù)的技術(shù)提出了新的要求,于是越來(lái)越多的非關(guān)系型數(shù)據(jù)庫(kù)就開(kāi)始出現(xiàn),這類數(shù)據(jù)庫(kù)與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)在設(shè)計(jì)和數(shù)據(jù)結(jié)構(gòu)有了很大的不同,
它們更強(qiáng)調(diào)數(shù)據(jù)庫(kù)數(shù)據(jù)的高并發(fā)讀寫和存儲(chǔ)大數(shù)據(jù),這類數(shù)據(jù)庫(kù)一般被稱為NoSQL(Not only SQL)數(shù)據(jù)庫(kù)。而傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)在一些傳統(tǒng)領(lǐng)域依然保持了強(qiáng)大的生命力。
以上內(nèi)容參考:百度百科——數(shù)據(jù)庫(kù)
國(guó)內(nèi)生產(chǎn)環(huán)境使用Cassandra比較多的大公司有360,從公開(kāi)的資料看,應(yīng)該有至少1500臺(tái)服務(wù)器的集群。360選用cassandra的原因如下:團(tuán)隊(duì)人員少,需求緊,選擇開(kāi)源項(xiàng)目;無(wú)單點(diǎn),無(wú)中心,適合在線業(yè)務(wù);代碼易懂,團(tuán)隊(duì)成員有代碼基礎(chǔ);社區(qū)比較活躍。
另外一些中小型公司和創(chuàng)業(yè)公司也有在使用。
這里要解釋幾個(gè)對(duì)cassandra的誤解:
1、Facebook棄用?Facebook當(dāng)初想用cassandra實(shí)現(xiàn)其消息系統(tǒng),但后來(lái)發(fā)現(xiàn)不合適,原因不是cassandra不靠譜,而是Cassandra的最終一致性模型不適合Message System,HBase具有更簡(jiǎn)單的一致性模型。Cassandra強(qiáng)調(diào)AP ,Hbase強(qiáng)調(diào)CP。目前Facebook的inbox search系統(tǒng)在使用,8億用戶,200T數(shù)據(jù);其移動(dòng)應(yīng)用開(kāi)發(fā)平臺(tái)也使用cassandra。
2、Twitter棄用?本質(zhì)是mysql和nosql之爭(zhēng)。cassandra能進(jìn)入twitter的視野,恰恰說(shuō)明cassandra是nosql的代表性產(chǎn)品之一。為什么twitter在tweets系統(tǒng)中不使用cassandra?"這是一次戰(zhàn)略上的變化。我們將繼續(xù)維護(hù)我們?cè)净贛ysql的存儲(chǔ)。我們相信,現(xiàn)在還沒(méi)有到大規(guī)模遷移數(shù)據(jù)到一個(gè)新技術(shù)的時(shí)候。”目前twitter也有使用cassandra——Using Cassandra in production for geolocation and analytics。
3、Cassandra不火?國(guó)內(nèi)對(duì)mongodb和hbase推崇備至,究其原因是因?yàn)閙ongodb這個(gè)公司進(jìn)入了中國(guó)市場(chǎng)并建立了中文組,而hbase在阿里的大范圍使用和推廣下培養(yǎng)了一大批用戶和公開(kāi)材料。Cassandra最近兩年在大數(shù)據(jù)公司Datastax的大力培育下獲得長(zhǎng)足發(fā)展,功能和性能均大幅提升,Datastax的估值也達(dá)數(shù)億美元。從apache cassandra首頁(yè)來(lái)看,大概有超過(guò)1500個(gè)公司在使用cassandra。其中除了facebook和twitter外還一些有代表性的公司列舉如下:
Instagram:inbox、newsfeed、 audit、fraud detection,12 EC2 node,1.2T,2w+ wps,1.5w+ rps;
eBay:200+TB,400+M寫,100+M讀,應(yīng)用場(chǎng)景:商品詳情頁(yè)上的Social Signals,如Like,Want,Own,Favorites等;用戶和商品的hunch taste graph;時(shí)間序列如移動(dòng)通知,反作弊,soa,監(jiān)控,日志服務(wù)等;
Netflix:包含288+96+60個(gè)實(shí)例的大規(guī)模集群,每秒110萬(wàn)的寫操作,3個(gè)AWS EC2 美國(guó)東部region的zone自動(dòng)復(fù)制副本,總計(jì)330萬(wàn)寫操作/秒;
Apple:75000+ nodes, 10s ?of PBs,Millions ops/s, largest cluster 1000+ nodes。
從技術(shù)實(shí)現(xiàn)上來(lái)講,cassandra同時(shí)具備AWS Dynamo和Google Bigtable的設(shè)計(jì)理念,同時(shí)引入了P2P技術(shù),具備大規(guī)模可分區(qū)行存儲(chǔ)能力,強(qiáng)調(diào)AP,實(shí)現(xiàn)了最終一致性,具備多數(shù)據(jù)中心復(fù)制支持,具備市場(chǎng)上最具有競(jìng)爭(zhēng)力的可擴(kuò)展性,無(wú)中心節(jié)點(diǎn),一致性和時(shí)延可調(diào),無(wú)單點(diǎn)故障,每個(gè)節(jié)點(diǎn)只有一個(gè)進(jìn)程等等大數(shù)據(jù)存儲(chǔ)管理的先進(jìn)特點(diǎn),并支持spark、storm、hadoop的集成。但同時(shí),Cassandra實(shí)現(xiàn)復(fù)雜性高,沒(méi)有相應(yīng)的中文社區(qū),文檔太少,國(guó)內(nèi)應(yīng)用和實(shí)踐太少,Datastax也未進(jìn)入中國(guó)市場(chǎng),因此在中國(guó)的推廣會(huì)比較困難。
目前存儲(chǔ)海量數(shù)據(jù)的技術(shù)主要包括NoSQL、分布式文件系統(tǒng)、和傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)。隨著互聯(lián)網(wǎng)行業(yè)不斷的發(fā)展,產(chǎn)生的數(shù)據(jù)量越來(lái)越多,并且這些數(shù)據(jù)的特點(diǎn)是半結(jié)構(gòu)化和非結(jié)構(gòu)化,數(shù)據(jù)很可能是不精確的,易變的。這樣傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)就無(wú)法發(fā)揮它的優(yōu)勢(shì)。因此,目前互聯(lián)網(wǎng)行業(yè)偏向于使用NoSQL和分布式文件系統(tǒng)來(lái)存儲(chǔ)海量數(shù)據(jù)。
下面介紹下常用的NoSQL和分布式文件系統(tǒng)。
NoSQL
互聯(lián)網(wǎng)行業(yè)常用的NoSQL有:HBase、MongoDB、Couchbase、LevelDB。
HBase是Apache Hadoop的子項(xiàng)目,理論依據(jù)為Google論文 Bigtable: A Distributed Storage System for Structured Data開(kāi)發(fā)的。HBase適合存儲(chǔ)半結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù)。HBase的數(shù)據(jù)模型是稀疏的、分布式的、持久穩(wěn)固的多維map。HBase也有行和列的概念,這是與RDBMS相同的地方,但卻又不同。HBase底層采用HDFS作為文件系統(tǒng),具有高可靠性、高性能。
MongoDB是一種支持高性能數(shù)據(jù)存儲(chǔ)的開(kāi)源文檔型數(shù)據(jù)庫(kù)。支持嵌入式數(shù)據(jù)模型以減少對(duì)數(shù)據(jù)庫(kù)系統(tǒng)的I/O、利用索引實(shí)現(xiàn)快速查詢,并且嵌入式文檔和集合也支持索引,它復(fù)制能力被稱作復(fù)制集(replica set),提供了自動(dòng)的故障遷移和數(shù)據(jù)冗余。MongoDB的分片策略將數(shù)據(jù)分布在服務(wù)器集群上。
Couchbase這種NoSQL有三個(gè)重要的組件:Couchbase服務(wù)器、Couchbase Gateway、Couchbase Lite。Couchbase服務(wù)器,支持橫向擴(kuò)展,面向文檔的數(shù)據(jù)庫(kù),支持鍵值操作,類似于SQL查詢和內(nèi)置的全文搜索;Couchbase Gateway提供了用于RESTful和流式訪問(wèn)數(shù)據(jù)的應(yīng)用層API。Couchbase Lite是一款面向移動(dòng)設(shè)備和“邊緣”系統(tǒng)的嵌入式數(shù)據(jù)庫(kù)。Couchbase支持千萬(wàn)級(jí)海量數(shù)據(jù)存儲(chǔ)
分布式文件系統(tǒng)
如果針對(duì)單個(gè)大文件,譬如超過(guò)100MB的文件,使用NoSQL存儲(chǔ)就不適當(dāng)了。使用分布式文件系統(tǒng)的優(yōu)勢(shì)在于,分布式文件系統(tǒng)隔離底層數(shù)據(jù)存儲(chǔ)和分布的細(xì)節(jié),展示給用戶的是一個(gè)統(tǒng)一的邏輯視圖。常用的分布式文件系統(tǒng)有Google File System、HDFS、MooseFS、Ceph、GlusterFS、Lustre等。
相比過(guò)去打電話、發(fā)短信、用彩鈴的“老三樣”,移動(dòng)互聯(lián)網(wǎng)的發(fā)展使得人們可以隨時(shí)隨地通過(guò)刷微博、看視頻、微信聊天、瀏覽網(wǎng)頁(yè)、地圖導(dǎo)航、網(wǎng)上購(gòu)物、外賣訂餐等,這些業(yè)務(wù)的海量數(shù)據(jù)都構(gòu)建在大規(guī)模網(wǎng)絡(luò)云資源池之上。當(dāng)14億中國(guó)人把衣食住行搬上移動(dòng)互聯(lián)網(wǎng)的同時(shí),也給網(wǎng)絡(luò)云資源池帶來(lái)巨大業(yè)務(wù)挑戰(zhàn)。
首先,用戶需求動(dòng)態(tài)變化,傳統(tǒng)業(yè)務(wù)流量主要是端到端模式,較為穩(wěn)定;而互聯(lián)網(wǎng)流量易受熱點(diǎn)內(nèi)容牽引,數(shù)據(jù)流量流向復(fù)雜和規(guī)模多變:比如雙十一購(gòu)物狂潮,電商平臺(tái)訂單創(chuàng)建峰值達(dá)到58.3萬(wàn)筆,要求通信網(wǎng)絡(luò)提供高并發(fā)支持;又如優(yōu)酷春節(jié)期間有超過(guò)23億人次上網(wǎng)刷劇、抖音拜年短視頻增長(zhǎng)超10倍,需要通信網(wǎng)絡(luò)能夠靈活擴(kuò)充帶寬。面對(duì)用戶動(dòng)態(tài)多變的需求,通信網(wǎng)絡(luò)需要具備快速洞察和響應(yīng)用戶需求的能力,提供高效、彈性、智能的數(shù)據(jù)服務(wù)。
“隨著通信網(wǎng)絡(luò)管道十倍百倍加粗、節(jié)點(diǎn)數(shù)從千萬(wàn)級(jí)逐漸躍升至百億千億級(jí),如何‘接得住、存得下’海量數(shù)據(jù),成為網(wǎng)絡(luò)云資源池建設(shè)面臨的巨大考驗(yàn)”,李輝表示。一直以來(lái),作為新數(shù)據(jù)存儲(chǔ)首倡者和引領(lǐng)者,浪潮存儲(chǔ)攜手通信行業(yè)用戶,不斷 探索 提速通信網(wǎng)絡(luò)云基礎(chǔ)設(shè)施的各種姿勢(shì)。
早在2018年,浪潮存儲(chǔ)就參與了通信行業(yè)基礎(chǔ)設(shè)施建設(shè),四年內(nèi)累計(jì)交付約5000套存儲(chǔ)產(chǎn)品,涵蓋全閃存儲(chǔ)、高端存儲(chǔ)、分布式存儲(chǔ)等明星產(chǎn)品。其中在網(wǎng)絡(luò)云建設(shè)中,浪潮存儲(chǔ)已連續(xù)兩年兩次中標(biāo)全球最大的NFV網(wǎng)絡(luò)云項(xiàng)目,其中在網(wǎng)絡(luò)云二期建設(shè)中,浪潮存儲(chǔ)提供數(shù)千節(jié)點(diǎn),為上層網(wǎng)元、應(yīng)用提供高效數(shù)據(jù)服務(wù)。在最新的NFV三期項(xiàng)目中,浪潮存儲(chǔ)也已中標(biāo)。
能夠與通信用戶在網(wǎng)絡(luò)云建設(shè)中多次握手,背后是浪潮存儲(chǔ)的持續(xù)技術(shù)投入與創(chuàng)新。浪潮存儲(chǔ)6年內(nèi)投入超30億研發(fā)經(jīng)費(fèi),開(kāi)發(fā)了業(yè)界首個(gè)“多合一”極簡(jiǎn)架構(gòu)的浪潮并行融合存儲(chǔ)系統(tǒng)。此存儲(chǔ)系統(tǒng)能夠統(tǒng)籌管理數(shù)千個(gè)節(jié)點(diǎn),實(shí)現(xiàn)性能、容量線性擴(kuò)展;同時(shí)基于浪潮iTurbo智能加速引擎的智能IO均衡、智能資源調(diào)度、智能元數(shù)據(jù)管理等功能,與自研NVMe SSD閃存盤進(jìn)行系統(tǒng)級(jí)別聯(lián)調(diào)優(yōu)化,讓百萬(wàn)級(jí)IO均衡落盤且路徑更短,將存儲(chǔ)系統(tǒng)性能發(fā)揮到極致。
“為了確保全球最大規(guī)模的網(wǎng)絡(luò)云正常上線運(yùn)行,我們聯(lián)合用戶對(duì)存儲(chǔ)集群展開(kāi)了長(zhǎng)達(dá)數(shù)月的魔鬼測(cè)試”,浪潮存儲(chǔ)工程師表示。網(wǎng)絡(luò)云的IO以虛擬機(jī)數(shù)據(jù)和上層應(yīng)用數(shù)據(jù)為主,浪潮按照每個(gè)存儲(chǔ)集群支持15000臺(tái)虛機(jī)進(jìn)行配置,分別對(duì)單卷隨機(jī)讀寫、順序?qū)?、混合讀寫以及全系統(tǒng)隨機(jī)讀寫的IO、帶寬、時(shí)延等指標(biāo)進(jìn)行了360無(wú)死角測(cè)試,達(dá)到了通信用戶提出的單卷、系統(tǒng)性能不低于4萬(wàn)和12萬(wàn)IOPS、時(shí)延小于3ms的要求,產(chǎn)品成熟度得到了驗(yàn)證。
以通信行業(yè)為例,2020年全國(guó)移動(dòng)互聯(lián)網(wǎng)接入流量1656億GB,相當(dāng)于中國(guó)14億人每人消耗118GB數(shù)據(jù);其中春節(jié)期間,移動(dòng)互聯(lián)網(wǎng)更是創(chuàng)下7天消耗36億GB數(shù)據(jù)流量的記錄,還“捎帶”打了548億分鐘電話、發(fā)送212億條短信……海量實(shí)時(shí)數(shù)據(jù)洪流,在網(wǎng)絡(luò)云資源池(NFV)支撐下收放自如,其中分布式存儲(chǔ)平臺(tái)發(fā)揮了作用。如此樣板工程,其巨大示范及拉動(dòng)作用不言而喻。