真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

硬件條件使nosql發(fā)展,NoSQL發(fā)展的硬件基礎(chǔ)

目前哪些NoSQL數(shù)據(jù)庫應(yīng)用廣泛,各有什么特點

特點:

創(chuàng)新互聯(lián)建站-專業(yè)網(wǎng)站定制、快速模板網(wǎng)站建設(shè)、高性價比鐵西網(wǎng)站開發(fā)、企業(yè)建站全套包干低至880元,成熟完善的模板庫,直接使用。一站式鐵西網(wǎng)站制作公司更省心,省錢,快速模板網(wǎng)站建設(shè)找我們,業(yè)務(wù)覆蓋鐵西地區(qū)。費用合理售后完善,十多年實體公司更值得信賴。

它們可以處理超大量的數(shù)據(jù)。

它們運行在便宜的PC服務(wù)器集群上。

PC集群擴充起來非常方便并且成本很低,避免了“sharding”操作的復雜性和成本。

它們擊碎了性能瓶頸。

NoSQL的支持者稱,通過NoSQL架構(gòu)可以省去將Web或Java應(yīng)用和數(shù)據(jù)轉(zhuǎn)換成SQL友好格式的時間,執(zhí)行速度變得更快。

“SQL并非適用于所有的程序代碼,” 對于那些繁重的重復操作的數(shù)據(jù),SQL值得花錢。但是當數(shù)據(jù)庫結(jié)構(gòu)非常簡單時,SQL可能沒有太大用處。

沒有過多的操作。

雖然NoSQL的支持者也承認關(guān)系數(shù)據(jù)庫提供了無可比擬的功能集合,而且在數(shù)據(jù)完整性上也發(fā)揮絕對穩(wěn)定,他們同時也表示,企業(yè)的具體需求可能沒有那么多。

Bootstrap支持

因為NoSQL項目都是開源的,因此它們?nèi)狈?yīng)商提供的正式支持。這一點它們與大多數(shù)開源項目一樣,不得不從社區(qū)中尋求支持。

優(yōu)點:

易擴展

NoSQL數(shù)據(jù)庫種類繁多,但是一個共同的特點都是去掉關(guān)系數(shù)據(jù)庫的關(guān)系型特性。數(shù)據(jù)之間無關(guān)系,這樣就非常容易擴展。也無形之間,在架構(gòu)的層面上帶來了可擴展的能力。

大數(shù)據(jù)量,高性能

NoSQL數(shù)據(jù)庫都具有非常高的讀寫性能,尤其在大數(shù)據(jù)量下,同樣表現(xiàn)優(yōu)秀。這得益于它的無關(guān)系性,數(shù)據(jù)庫的結(jié)構(gòu)簡單。一般MySQL使用 Query Cache,每次表的更新Cache就失效,是一種大粒度的Cache,在針對web2.0的交互頻繁的應(yīng)用,Cache性能不高。而NoSQL的 Cache是記錄級的,是一種細粒度的Cache,所以NoSQL在這個層面上來說就要性能高很多了。

靈活的數(shù)據(jù)模型

NoSQL無需事先為要存儲的數(shù)據(jù)建立字段,隨時可以存儲自定義的數(shù)據(jù)格式。而在關(guān)系數(shù)據(jù)庫里,增刪字段是一件非常麻煩的事情。如果是非常大數(shù)據(jù)量的表,增加字段簡直就是一個噩夢。這點在大數(shù)據(jù)量的web2.0時代尤其明顯。

高可用

NoSQL在不太影響性能的情況,就可以方便的實現(xiàn)高可用的架構(gòu)。比如Cassandra,HBase模型,通過復制模型也能實現(xiàn)高可用。

主要應(yīng)用:

Apache HBase

這個大數(shù)據(jù)管理平臺建立在谷歌強大的BigTable管理引擎基礎(chǔ)上。作為具有開源、Java編碼、分布式多個優(yōu)勢的數(shù)據(jù)庫,Hbase最初被設(shè)計應(yīng)用于Hadoop平臺,而這一強大的數(shù)據(jù)管理工具,也被Facebook采用,用于管理消息平臺的龐大數(shù)據(jù)。

Apache Storm

用于處理高速、大型數(shù)據(jù)流的分布式實時計算系統(tǒng)。Storm為Apache Hadoop添加了可靠的實時數(shù)據(jù)處理功能,同時還增加了低延遲的儀表板、安全警報,改進了原有的操作方式,幫助企業(yè)更有效率地捕獲商業(yè)機會、發(fā)展新業(yè)務(wù)。

Apache Spark

該技術(shù)采用內(nèi)存計算,從多迭代批量處理出發(fā),允許將數(shù)據(jù)載入內(nèi)存做反復查詢,此外還融合數(shù)據(jù)倉庫、流處理和圖計算等多種計算范式,Spark用Scala語言實現(xiàn),構(gòu)建在HDFS上,能與Hadoop很好的結(jié)合,而且運行速度比MapReduce快100倍。

Apache Hadoop

該技術(shù)迅速成為了大數(shù)據(jù)管理標準之一。當它被用來管理大型數(shù)據(jù)集時,對于復雜的分布式應(yīng)用,Hadoop體現(xiàn)出了非常好的性能,平臺的靈活性使它可以運行在商用硬件系統(tǒng),它還可以輕松地集成結(jié)構(gòu)化、半結(jié)構(gòu)化和甚至非結(jié)構(gòu)化數(shù)據(jù)集。

Apache Drill

你有多大的數(shù)據(jù)集?其實無論你有多大的數(shù)據(jù)集,Drill都能輕松應(yīng)對。通過支持HBase、Cassandra和MongoDB,Drill建立了交互式分析平臺,允許大規(guī)模數(shù)據(jù)吞吐,而且能很快得出結(jié)果。

Apache Sqoop

也許你的數(shù)據(jù)現(xiàn)在還被鎖定于舊系統(tǒng)中,Sqoop可以幫你解決這個問題。這一平臺采用并發(fā)連接,可以將數(shù)據(jù)從關(guān)系數(shù)據(jù)庫系統(tǒng)方便地轉(zhuǎn)移到Hadoop中,可以自定義數(shù)據(jù)類型以及元數(shù)據(jù)傳播的映射。事實上,你還可以將數(shù)據(jù)(如新的數(shù)據(jù))導入到HDFS、Hive和Hbase中。

Apache Giraph

這是功能強大的圖形處理平臺,具有很好可擴展性和可用性。該技術(shù)已經(jīng)被Facebook采用,Giraph可以運行在Hadoop環(huán)境中,可以將它直接部署到現(xiàn)有的Hadoop系統(tǒng)中。通過這種方式,你可以得到強大的分布式作圖能力,同時還能利用上現(xiàn)有的大數(shù)據(jù)處理引擎。

Cloudera Impala

Impala模型也可以部署在你現(xiàn)有的Hadoop群集上,監(jiān)視所有的查詢。該技術(shù)和MapReduce一樣,具有強大的批處理能力,而且Impala對于實時的SQL查詢也有很好的效果,通過高效的SQL查詢,你可以很快的了解到大數(shù)據(jù)平臺上的數(shù)據(jù)。

Gephi

它可以用來對信息進行關(guān)聯(lián)和量化處理,通過為數(shù)據(jù)創(chuàng)建功能強大的可視化效果,你可以從數(shù)據(jù)中得到不一樣的洞察力。Gephi已經(jīng)支持多個圖表類型,而且可以在具有上百萬個節(jié)點的大型網(wǎng)絡(luò)上運行。Gephi具有活躍的用戶社區(qū),Gephi還提供了大量的插件,可以和現(xiàn)有系統(tǒng)完美的集成到一起,它還可以對復雜的IT連接、分布式系統(tǒng)中各個節(jié)點、數(shù)據(jù)流等信息進行可視化分析。

MongoDB

這個堅實的平臺一直被很多組織推崇,它在大數(shù)據(jù)管理上有極好的性能。MongoDB最初是由DoubleClick公司的員工創(chuàng)建,現(xiàn)在該技術(shù)已經(jīng)被廣泛的應(yīng)用于大數(shù)據(jù)管理。MongoDB是一個應(yīng)用開源技術(shù)開發(fā)的NoSQL數(shù)據(jù)庫,可以用于在JSON這樣的平臺上存儲和處理數(shù)據(jù)。目前,紐約時報、Craigslist以及眾多企業(yè)都采用了MongoDB,幫助他們管理大型數(shù)據(jù)集。(Couchbase服務(wù)器也作為一個參考)。

十大頂尖公司:

Amazon Web Services

Forrester將AWS稱為“云霸主”,談到云計算領(lǐng)域的大數(shù)據(jù),那就不得不提到亞馬遜。該公司的Hadoop產(chǎn)品被稱為EMR(Elastic Map Reduce),AWS解釋這款產(chǎn)品采用了Hadoop技術(shù)來提供大數(shù)據(jù)管理服務(wù),但它不是純開源Hadoop,經(jīng)過修改后現(xiàn)在被專門用在AWS云上。

Forrester稱EMR有很好的市場前景。很多公司基于EMR為客戶提供服務(wù),有一些公司將EMR應(yīng)用于數(shù)據(jù)查詢、建模、集成和管理。而且AWS還在創(chuàng)新,F(xiàn)orrester稱未來EMR可以基于工作量的需要自動縮放調(diào)整大小。亞馬遜計劃為其產(chǎn)品和服務(wù)提供更強大的EMR支持,包括它的RedShift數(shù)據(jù)倉庫、新公布的Kenesis實時處理引擎以及計劃中的NoSQL數(shù)據(jù)庫和商業(yè)智能工具。不過AWS還沒有自己的Hadoop發(fā)行版。

Cloudera

Cloudera有開源Hadoop的發(fā)行版,這個發(fā)行版采用了Apache Hadoop開源項目的很多技術(shù),不過基于這些技術(shù)的發(fā)行版也有很大的進步。Cloudera為它的Hadoop發(fā)行版開發(fā)了很多功能,包括Cloudera管理器,用于管理和監(jiān)控,以及名為Impala的SQL引擎等。Cloudera的Hadoop發(fā)行版基于開源Hadoop,但也不是純開源的產(chǎn)品。當Cloudera的客戶需要Hadoop不具備的某些功能時,Cloudera的工程師們就會實現(xiàn)這些功能,或者找一個擁有這項技術(shù)的合作伙伴。Forrester表示:“Cloudera的創(chuàng)新方法忠于核心Hadoop,但因為其可實現(xiàn)快速創(chuàng)新并積極滿足客戶需求,這一點使它不同于其他那些供應(yīng)商?!蹦壳?,Cloudera的平臺已經(jīng)擁有200多個付費客戶,一些客戶在Cloudera的技術(shù)支持下已經(jīng)可以跨1000多個節(jié)點實現(xiàn)對PB級數(shù)據(jù)的有效管理。

Hortonworks

和Cloudera一樣,Hortonworks是一個純粹的Hadoop技術(shù)公司。與Cloudera不同的是,Hortonworks堅信開源Hadoop比任何其他供應(yīng)商的Hadoop發(fā)行版都要強大。Hortonworks的目標是建立Hadoop生態(tài)圈和Hadoop用戶社區(qū),推進開源項目的發(fā)展。Hortonworks平臺和開源Hadoop聯(lián)系緊密,公司管理人員表示這會給用戶帶來好處,因為它可以防止被供應(yīng)商套牢(如果Hortonworks的客戶想要離開這個平臺,他們可以輕松轉(zhuǎn)向其他開源平臺)。這并不是說Hortonworks完全依賴開源Hadoop技術(shù),而是因為該公司將其所有開發(fā)的成果回報給了開源社區(qū),比如Ambari,這個工具就是由Hortonworks開發(fā)而成,用來填充集群管理項目漏洞。Hortonworks的方案已經(jīng)得到了Teradata、Microsoft、Red Hat和SAP這些供應(yīng)商的支持。

IBM

當企業(yè)考慮一些大的IT項目時,很多人首先會想到IBM。IBM是Hadoop項目的主要參與者之一,F(xiàn)orrester稱IBM已有100多個Hadoop部署,它的很多客戶都有PB級的數(shù)據(jù)。IBM在網(wǎng)格計算、全球數(shù)據(jù)中心和企業(yè)大數(shù)據(jù)項目實施等眾多領(lǐng)域有著豐富的經(jīng)驗?!癐BM計劃繼續(xù)整合SPSS分析、高性能計算、BI工具、數(shù)據(jù)管理和建模、應(yīng)對高性能計算的工作負載管理等眾多技術(shù)。”

Intel

和AWS類似,英特爾不斷改進和優(yōu)化Hadoop使其運行在自己的硬件上,具體來說,就是讓Hadoop運行在其至強芯片上,幫助用戶打破Hadoop系統(tǒng)的一些限制,使軟件和硬件結(jié)合的更好,英特爾的Hadoop發(fā)行版在上述方面做得比較好。Forrester指出英特爾在最近才推出這個產(chǎn)品,所以公司在未來還有很多改進的可能,英特爾和微軟都被認為是Hadoop市場上的潛力股。

MapR Technologies

MapR的Hadoop發(fā)行版目前為止也許是最好的了,不過很多人可能都沒有聽說過。Forrester對Hadoop用戶的調(diào)查顯示,MapR的評級最高,其發(fā)行版在架構(gòu)和數(shù)據(jù)處理能力上都獲得了最高分。MapR已將一套特殊功能融入其Hadoop發(fā)行版中。例如網(wǎng)絡(luò)文件系統(tǒng)(NFS)、災(zāi)難恢復以及高可用性功能。Forrester說MapR在Hadoop市場上沒有Cloudera和Hortonworks那樣的知名度,MapR要成為一個真正的大企業(yè),還需要加強伙伴關(guān)系和市場營銷。

Microsoft

微軟在開源軟件問題上一直很低調(diào),但在大數(shù)據(jù)形勢下,它不得不考慮讓Windows也兼容Hadoop,它還積極投入到開源項目中,以更廣泛地推動Hadoop生態(tài)圈的發(fā)展。我們可以在微軟的公共云Windows Azure HDInsight產(chǎn)品中看到其成果。微軟的Hadoop服務(wù)基于Hortonworks的發(fā)行版,而且是為Azure量身定制的。

微軟也有一些其他的項目,包括名為Polybase的項目,讓Hadoop查詢實現(xiàn)了SQLServer查詢的一些功能。Forrester說:“微軟在數(shù)據(jù)庫、數(shù)據(jù)倉庫、云、OLAP、BI、電子表格(包括PowerPivot)、協(xié)作和開發(fā)工具市場上有很大優(yōu)勢,而且微軟擁有龐大的用戶群,但要在Hadoop這個領(lǐng)域成為行業(yè)領(lǐng)導者還有很遠的路要走?!?/p>

Pivotal Software

EMC和Vmware部分大數(shù)據(jù)業(yè)務(wù)分拆組合產(chǎn)生了Pivotal。Pivotal一直努力構(gòu)建一個性能優(yōu)越的Hadoop發(fā)行版,為此,Pivotal在開源Hadoop的基礎(chǔ)上又添加了一些新的工具,包括一個名為HAWQ的SQL引擎以及一個專門解決大數(shù)據(jù)問題的Hadoop應(yīng)用。Forrester稱Pivotal Hadoop平臺的優(yōu)勢在于它整合了Pivotal、EMC、Vmware的眾多技術(shù),Pivotal的真正優(yōu)勢實際上等于EMC和Vmware兩大公司為其撐腰。到目前為止,Pivotal的用戶還不到100個,而且大多是中小型客戶。

Teradata

對于Teradata來說,Hadoop既是一種威脅也是一種機遇。數(shù)據(jù)管理,特別是關(guān)于SQL和關(guān)系數(shù)據(jù)庫這一領(lǐng)域是Teradata的專長。所以像Hadoop這樣的NoSQL平臺崛起可能會威脅到Teradata。相反,Teradata接受了Hadoop,通過與Hortonworks合作,Teradata在Hadoop平臺集成了SQL技術(shù),這使Teradata的客戶可以在Hadoop平臺上方便地使用存儲在Teradata數(shù)據(jù)倉庫中的數(shù)據(jù)。

AMPLab

通過將數(shù)據(jù)轉(zhuǎn)變?yōu)樾畔?,我們才可以理解世界,而這也正是AMPLab所做的。AMPLab致力于機器學習、數(shù)據(jù)挖掘、數(shù)據(jù)庫、信息檢索、自然語言處理和語音識別等多個領(lǐng)域,努力改進對信息包括不透明數(shù)據(jù)集內(nèi)信息的甄別技術(shù)。除了Spark,開源分布式SQL查詢引擎Shark也源于AMPLab,Shark具有極高的查詢效率,具有良好的兼容性和可擴展性。近幾年的發(fā)展使計算機科學進入到全新的時代,而AMPLab為我們設(shè)想一個運用大數(shù)據(jù)、云計算、通信等各種資源和技術(shù)靈活解決難題的方案,以應(yīng)對越來越復雜的各種難題。

NoSQL 數(shù)據(jù)庫:何時使用 NoSQL 與 SQL?

NoSQL 數(shù)據(jù)庫因其功能性、易于開發(fā)性和可擴展性而廣受認可,它們越來越多地用于大數(shù)據(jù)和實時 Web 應(yīng)用程序,在本文中,我們通過示例討論 NoSQL、何時使用 NoSQL 與 SQL 及其用例。

NoSQL是一種下一代數(shù)據(jù)庫管理系統(tǒng) (DBMS)。NoSQL 數(shù)據(jù)庫具有靈活的模式,可用于構(gòu)建具有大量數(shù)據(jù)和高負載的現(xiàn)代應(yīng)用程序。

“NoSQL”一詞最初是由 Carlo Strozzi 在 1998 年創(chuàng)造的,盡管自 1960 年代后期以來就已經(jīng)存在類似的數(shù)據(jù)庫。然而,NoSQL 的發(fā)展始于 2009 年初,并且發(fā)展迅速。

在處理大量數(shù)據(jù)時,任何關(guān)系數(shù)據(jù)庫管理系統(tǒng) (RDBMS) 的響應(yīng)時間都會變慢。為了解決這個問題,我們可以通過升級現(xiàn)有硬件來“擴大”信息系統(tǒng),這非常昂貴。但是,NoSQL 可以更好地橫向擴展并且更具成本效益。

NoSQL 對于非結(jié)構(gòu)化或非常大的數(shù)據(jù)對象(例如聊天日志數(shù)據(jù)、視頻或圖像)非常有用,這就是為什么 NoSQL 在微軟、谷歌、亞馬遜、Meta (Facebook) 等互聯(lián)網(wǎng)巨頭中特別受歡迎的原因。

一些流行的 NoSQL 數(shù)據(jù)庫包括:

隨著企業(yè)更快地積累更大的數(shù)據(jù)集,結(jié)構(gòu)化數(shù)據(jù)和關(guān)系模式并不總是適合。有必要使用非結(jié)構(gòu)化數(shù)據(jù)和大型對象來更好地捕獲這些信息。

傳統(tǒng)的 RDBMS 使用 SQL(結(jié)構(gòu)化查詢語言)語法來存儲和檢索結(jié)構(gòu)化數(shù)據(jù),相反,NoSQL 數(shù)據(jù)庫包含廣泛的功能,可以存儲和檢索結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化和多態(tài)數(shù)據(jù)。

有時,NoSQL 也被稱為“ 不僅僅是 SQL ”,強調(diào)它可能支持類似 SQL 的語言或與 SQL 數(shù)據(jù)庫并列。SQL 和 NoSQL DBMS 之間的一個區(qū)別是 JOIN 功能。SQL 數(shù)據(jù)庫使用 JOIN 子句來組合來自兩個或多個表的行,因為 NoSQL 數(shù)據(jù)庫本質(zhì)上不是表格的,所以這個功能并不總是可行或相關(guān)的。

但是,一些 NoSQL DBMS 可以執(zhí)行類似于 JOIN的操作——就像 MongoDB 一樣。這并不意味著不再需要 SQL DBMS,相反,NoSQL 和 SQL 數(shù)據(jù)庫傾向于以不同的方式解決類似的問題。

一般來說,在以下情況下,NoSQL 比 SQL 更可取:

許多行業(yè)都在采用 NoSQL,取代關(guān)系數(shù)據(jù)庫,從而為某些業(yè)務(wù)應(yīng)用程序提供更高的靈活性和可擴展性,下面給出了 NoSQL 數(shù)據(jù)庫的一些企業(yè)用例。

內(nèi)容管理是一組用于收集、管理、傳遞、檢索和發(fā)布任何格式的信息的過程,包括文本、圖像、音頻和視頻。NoSQL 數(shù)據(jù)庫可以通過其靈活和開放的數(shù)據(jù)模型為存儲多媒體內(nèi)容提供更好的選擇。

例如,福布斯在短短幾個月內(nèi)就構(gòu)建了一個基于 MongoDB 的定制內(nèi)容管理系統(tǒng),以更低的成本為他們提供了更大的敏捷性。

大數(shù)據(jù)是指太大而無法通過傳統(tǒng)處理系統(tǒng)處理的數(shù)據(jù)集,實時存儲和檢索大數(shù)據(jù)的系統(tǒng)在分析 歷史 數(shù)據(jù)的同時使用流處理來攝取新數(shù)據(jù),這是一系列非常適合 NoSQL 數(shù)據(jù)庫的功能。

Zoom使用 DynamoDB(按需模式)使其數(shù)據(jù)能夠在沒有性能問題的情況下進行擴展,即使該服務(wù)在 COVID-19 大流行的早期使用量激增。

物聯(lián)網(wǎng)設(shè)備具有連接到互聯(lián)網(wǎng)或通信網(wǎng)絡(luò)的嵌入式軟件和傳感器,能夠在無需人工干預的情況下收集和共享數(shù)據(jù)。隨著數(shù)十億臺設(shè)備生成數(shù)不清的數(shù)據(jù),IoT NoSQL 數(shù)據(jù)庫為 IoT 服務(wù)提供商提供了可擴展性和更靈活的架構(gòu)。

Freshub就是這樣的一項服務(wù),它從 MySQL 切換到 MongoDB,以更好地處理其大型、動態(tài)、非統(tǒng)一的數(shù)據(jù)集。

擁有數(shù)十億智能手機用戶,可擴展性正成為在移動設(shè)備上提供服務(wù)的企業(yè)面臨的最大挑戰(zhàn)。具有更靈活數(shù)據(jù)模型的 NoSQL DBMS 通常是完美的解決方案。

例如,The Weather Channel使用 MongoDB 數(shù)據(jù)庫每分鐘處理數(shù)百萬個請求,同時還處理用戶數(shù)據(jù)并提供天氣更新。

簡述什么是nosql數(shù)據(jù)庫,并列舉兩種常見的nosql數(shù)據(jù)庫名稱及其特點

NoSQL太火,冒出太多產(chǎn)品了,保守估計也成百上千了。

互聯(lián)網(wǎng)公司常用的基本集中在以下幾種,每種只舉一個比較常見或者應(yīng)用比較成功的例子吧。

1. In-Memory KV Store : Redis

in memory key-value store,同時提供了更加豐富的數(shù)據(jù)結(jié)構(gòu)和運算的能力,成功用法是替代memcached,通過checkpoint和commit log提供了快速的宕機恢復,同時支持replication提供讀可擴展和高可用。

2. Disk-Based KV Store: Leveldb

真正基于磁盤的key-value storage, 模型單一簡單,數(shù)據(jù)量不受限于內(nèi)存大小,數(shù)據(jù)落盤高可靠,Google的幾位大神出品的精品,LSM模型天然寫優(yōu)化,順序?qū)懕P的方式對于新硬件ssd再適合不過了,不足是僅提供了一個庫,需要自己封裝server端。

3. Document Store: Mongodb

分布式nosql,具備了區(qū)別mysql的最大亮點:可擴展性。mongodb 最新引人的莫過于提供了sql接口,是目前nosql里最像mysql的,只是沒有ACID的特性,發(fā)展很快,支持了索引等特性,上手容易,對于數(shù)據(jù)量遠超內(nèi)存限制的場景來說,還需要慎重。

4. Column Table Store: HBase

這個富二代似乎不用贅述了,最大的優(yōu)勢是開源,對于普通的scan和基于行的get等基本查詢,性能完全不是問題,只是只提供裸的api,易用性上是短板,可擴展性方面是最強的,其次坐上了Hadoop的快車,社區(qū)發(fā)展很快,各種基于其上的開源產(chǎn)品不少,來解決諸如join、聚集運算等復雜查詢。

大數(shù)據(jù)應(yīng)用程序最佳選擇:是SQL還是NoSQL

執(zhí)行大數(shù)據(jù)[注]項目的企業(yè)面對的關(guān)鍵決策之一是使用哪個數(shù)據(jù)庫,SQL還是NoSQL?SQL有著驕人的業(yè)績,龐大的安裝基礎(chǔ);而NoSQL正在獲得可觀的收益,且有很多支持者。我們來看看兩位專家對這個問題的看法。

專家

·VoltDB公司首席技術(shù)官Ryan Betts表示,SQL已經(jīng)贏得了大型企業(yè)的廣泛部署,大數(shù)據(jù)是它可以支持的另一個領(lǐng)域。

·Couchbase公司首席執(zhí)行官Bob Wiederhold表示,NoSQL是可行的選擇,并且從很多方面來看,它是大數(shù)據(jù)的最佳選擇,特別是涉及到可擴展性時。

SQL經(jīng)歷時間的考驗,并仍然在蓬勃發(fā)展

VoltDB公司首席技術(shù)官Ryan Betts

結(jié)構(gòu)化查詢語言(SQL)是經(jīng)過時間考驗的勝利者,它已經(jīng)主宰了幾十年,目前大數(shù)據(jù)公司和組織(例如谷歌、Facebook、Cloudera和Apache)正在積極投資于SQL。

在成為主導技術(shù)(例如SQL)后,有時候我們很容易忘記其優(yōu)越性。SQL的獨特優(yōu)勢包括:

1. SQL能夠加強與數(shù)據(jù)的交互,并允許對單個數(shù)據(jù)庫設(shè)計提出問題。這是很關(guān)鍵的特征,因為無法交互的數(shù)據(jù)基本上是沒用的,并且,增強的交互性能夠帶來新的見解、新的問題和更有意義的未來交互。

2. SQL是標準化的,使用戶能夠跨系統(tǒng)運用他們的知識,并對第三方附件和工具提供支持。

3. SQL能夠擴展,并且是多功能和經(jīng)過時間驗證的,這能夠解決從快寫為主導的傳輸?shù)綊呙杳芗蜕钊敕治龅葐栴}。

4. SQL對數(shù)據(jù)呈現(xiàn)和存儲采用正交形式,一些SQL系統(tǒng)支持JSON和其他結(jié)構(gòu)化對象格式,比NoSQL具有更好的性能和更多功能。

雖然NoSQL的出現(xiàn)帶來了一些影響,但SQL仍然主導著市場,并在大數(shù)據(jù)領(lǐng)域贏得了很多投資和廣泛部署。

NoSQL的說法很含糊,對于本次討論,我借用Rick Cattell對NoSQL的定義,即提供簡單操作(例如密鑰/數(shù)值存儲)或簡單記錄和索引,并專注于這些簡單操作的橫向可擴展性的系統(tǒng)。

很顯然,現(xiàn)在很多新的數(shù)據(jù)庫并不是都一樣,認識每種數(shù)據(jù)庫背后的原理以及潛在問題是成功的關(guān)鍵。NoSQL的主要特點使其更適合于特定的問題。例如,圖形數(shù)據(jù)庫更適合于數(shù)據(jù)通過關(guān)系組織的情況,而專門的文本搜索系統(tǒng)更適合于需要實時搜索的情況。

在這里,讓我們看看SQL系統(tǒng)的主要優(yōu)勢和差異化功能:

* SQL可實現(xiàn)交互性。 SQL是一種聲明性查詢語言。用戶說出他們想要什么(例如,顯示過去五年三月份期間頂級客戶的地理位置),數(shù)據(jù)庫內(nèi)部就會構(gòu)件算法并提取請求的結(jié)果。相比之下,NoSQL編程創(chuàng)新MapReduce是一種程序性查詢技術(shù)。在用戶提出請求時,MapReduce要求用戶不僅說出自己想要什么,而且要求他們陳述如何產(chǎn)生答案。

這聽起來像一個無趣的技術(shù)差異,但這很關(guān)鍵,原因在于:首先,聲明性SQL查詢更容易通過圖形化工具以及點擊報告構(gòu)建器來構(gòu)建。這讓分析師、操作員、管理者和其他不具備軟件編程能力的員工進行數(shù)據(jù)庫查詢;其次,數(shù)據(jù)庫引擎可以利用內(nèi)部信息來選擇最有效的算法。改變數(shù)據(jù)庫的物理布局或數(shù)據(jù)庫,最佳算法仍然能夠計算出來。而在程序性系統(tǒng)中,編程人員需要重新訪問和重新編程算法,這是非常昂貴且容易出錯的過程。

市場理解這個關(guān)鍵區(qū)別。在2010年,谷歌宣布部署SQL來補充MapReduce,主要受內(nèi)部用戶需求所驅(qū)動。最近,F(xiàn)acebook發(fā)布了Presto(一種SQL部署)來查詢其PB級HDFS集群。根據(jù)Facebook表示:“隨著我們的倉庫增長到PB級,以及我們的需求變化,我們清楚地意識到,我們需要一個提供低延時查詢的互動系統(tǒng)。”此外,Cloudera也正在構(gòu)建Impala—另一個基于HDFS的SQL部署。

* SQL是標準化的。 雖然供應(yīng)商有時候會添加自己的語言到SQL界面,但SQL的核心是標準化的,還有其他規(guī)格(例如ODBC和JDBC)提供廣泛可用的穩(wěn)定界面到SQL存儲。這帶來了一個管理和操作工具生態(tài)系統(tǒng),可以在SQL系統(tǒng)之上設(shè)計、監(jiān)控、檢查、探索和構(gòu)建應(yīng)用程序。

SQL用戶和程序員可用跨多個后端系統(tǒng)重復使用其API和UI知識,減少了應(yīng)用程序的開發(fā)時間。標準化還允許聲明性第三方提取、轉(zhuǎn)換、加載(ETL)工具,使企業(yè)可以在數(shù)據(jù)庫之間以及跨系統(tǒng)傳輸數(shù)據(jù)。

* SQL可擴展。 認為SQL必須犧牲以獲得可擴展性的看法,完全是錯誤的。如前所述,F(xiàn)acebook創(chuàng)建了一個SQL界面來查詢PB級數(shù)據(jù)。SQL能夠非常有效地運行極快的ACID傳輸。SQL對數(shù)據(jù)存儲和索引提供的抽象[注]化允許跨各種問題和數(shù)據(jù)集大小的一致使用,讓SQL可以跨集群復制數(shù)據(jù)存儲有效地運行。使用SQL作為界面獨立于構(gòu)建云、規(guī)?;騂A系統(tǒng),SQL中并沒有什么在阻止和限制容錯、高可用性和復制。事實上,所有現(xiàn)代SQL系統(tǒng)支持云友好型橫向可擴展性、復制和容錯性。

* SQL支持JSON。 幾年前,很多SQL系統(tǒng)增加了XML文檔支持?,F(xiàn)在,隨著JSON成為一種流行的數(shù)據(jù)交換格式,SQL供應(yīng)商也紛紛加入了JSON型的支持?;诂F(xiàn)在靈活的編程過程和web基礎(chǔ)設(shè)施的正常運行時間要求,我們很需要結(jié)構(gòu)化數(shù)據(jù)類型的支持。Oracle 12c、PostgreSQL 9.2、VoltDB和其他支持JSON的數(shù)據(jù)庫,通常具有優(yōu)于“原生”JSON的性能。

SQL將繼續(xù)贏得市場份額,并會繼續(xù)看到新的投資和部署。NoSQL數(shù)據(jù)庫提供專有查詢語言或簡單的鍵值語義,而沒有更深層次的技術(shù)差異化?,F(xiàn)代SQL系統(tǒng)提供可擴展性的同時,還支持更豐富的查詢語義,并有龐大的用戶安裝基礎(chǔ),廣泛的生態(tài)系統(tǒng)整合和深度企業(yè)部署。

NoSQL更適合大數(shù)據(jù)應(yīng)用程序

Couchbase公司首席執(zhí)行官Bob Wiederhold

NoSQL越來越多地被認為是關(guān)系型數(shù)據(jù)庫的可行替代品,特別是對于大數(shù)據(jù)應(yīng)用程序。此外,無模式數(shù)據(jù)模型通常更適合于現(xiàn)在捕捉和處理的數(shù)據(jù)種類和類型。

當我們談?wù)揘oSQL領(lǐng)域的大數(shù)據(jù)時,我們指的是從操作數(shù)據(jù)庫讀取和寫入。不要將操作數(shù)據(jù)庫與分析數(shù)據(jù)庫混淆,這通常會查看大量數(shù)據(jù),并從這些數(shù)據(jù)獲取可視性。

雖然操作數(shù)據(jù)庫的大數(shù)據(jù)看起來不具有可分析性,但操作數(shù)據(jù)庫通常會存儲超大量用戶的大型數(shù)據(jù)集,這些用戶經(jīng)常需要訪問數(shù)據(jù)來實時執(zhí)行交易。這種數(shù)據(jù)庫的操作規(guī)模也解釋了NoSQL的關(guān)鍵特性,也就是為什么NoSQL是大數(shù)據(jù)應(yīng)用程序的關(guān)鍵的原因。

NoSQL是可擴展性的關(guān)鍵

每次技術(shù)行業(yè)經(jīng)歷硬件發(fā)展的根本性轉(zhuǎn)變時,都會出現(xiàn)一個拐點。在數(shù)據(jù)庫領(lǐng)域,從縱向擴展到橫向擴展的轉(zhuǎn)變推動了NoSQL的發(fā)展。關(guān)系型數(shù)據(jù)庫(包括來自甲骨文和IBM的數(shù)據(jù)庫)是縱向擴展。也就是說,它們是集中式、共享一切的技術(shù),只能通過增加更多昂貴的硬件來擴展。

而NoSQL數(shù)據(jù)庫是分布式橫向擴展技術(shù)。它們使用了分布式節(jié)點集(稱為集群)來提供高度彈性擴展功能,讓用戶可以添加節(jié)點來動態(tài)處理負載。

分布式橫向擴展的做法通常要比縱向做法更加便宜。商業(yè)關(guān)系型數(shù)據(jù)庫的授權(quán)費用也讓人望而卻步,因為他們的價格是按每臺服務(wù)器來計算。另一方面,NoSQL數(shù)據(jù)庫通常是開源技術(shù),按照運行的服務(wù)器集群收費,而且價格相對便宜。

NoSQL是靈活性的關(guān)鍵

關(guān)系型數(shù)據(jù)庫和NoSQL數(shù)據(jù)模型有很大的不同。關(guān)系型模式獲取數(shù)據(jù),并將數(shù)據(jù)分配到很多相互關(guān)聯(lián)的表中,這些表通過外鍵相互應(yīng)用。

當用戶需要對數(shù)據(jù)集運行查詢時,所需信息需要從多個表中收集(通常涉及數(shù)百個企業(yè)應(yīng)用程序),并結(jié)合這些信息,再提供給應(yīng)用程序。同樣地,當寫入數(shù)據(jù)時,需要在多個表協(xié)調(diào)和執(zhí)行寫入。當數(shù)據(jù)相對較少,并且,數(shù)據(jù)以較慢速度流入數(shù)據(jù)庫時,關(guān)系型數(shù)據(jù)庫通常能夠捕捉和存儲信息。然而,現(xiàn)在的應(yīng)用程序通常需要快速寫入(和讀取)海量數(shù)據(jù)。

NoSQL數(shù)據(jù)庫采用非常不同的模式。在其核心,NoSQL數(shù)據(jù)庫其實是“NoREL”,或者說非關(guān)系型,這意味著它們沒有依賴于表以及表之間的聯(lián)系,以存儲和組織信息。例如,以文檔為導向的NoSQL數(shù)據(jù)庫獲取你想要存儲的數(shù)據(jù),并采用JSON格式整合到文檔中。每個JSON文檔可以被你的應(yīng)用程序視為一個對象。JSON文檔可能會提取跨越25個表的數(shù)據(jù),將數(shù)據(jù)集成到一個文檔中。

聚合這些信息可能會導致信息重復,但由于存儲已不再是一個成本問題,數(shù)據(jù)模型靈活性、發(fā)布所產(chǎn)生文檔的簡便性以及讀取和寫入性能提高,讓這成為不錯的選擇。

NoSQL是大數(shù)據(jù)應(yīng)用程序的關(guān)鍵

通過第三方(包括社交媒體網(wǎng)站),數(shù)據(jù)正變得越來越容易捕捉和訪問。這些數(shù)據(jù)包括:個人用戶信息、地理位置數(shù)據(jù)、用戶生產(chǎn)的內(nèi)容、機器記錄數(shù)據(jù)和傳感器產(chǎn)生的數(shù)據(jù)。企業(yè)還可以依賴于大數(shù)據(jù)來推動其關(guān)鍵任務(wù)型應(yīng)用程序。同時,企業(yè)正在轉(zhuǎn)向到NoSQL數(shù)據(jù)庫,因為這種數(shù)據(jù)庫非常適合現(xiàn)在新型的數(shù)據(jù)類型。

開發(fā)人員想要一個靈活的數(shù)據(jù)庫,可以很容易適應(yīng)新的數(shù)據(jù)類型,并且,不會受第三方數(shù)據(jù)供應(yīng)商的內(nèi)容結(jié)構(gòu)變化的影響。大多數(shù)新數(shù)據(jù)是非結(jié)構(gòu)化和半結(jié)構(gòu)化,因此,開發(fā)人員也需要能夠有效存儲這些數(shù)據(jù)的數(shù)據(jù)庫。然而,關(guān)系型數(shù)據(jù)庫采用的嚴格定義的基于模式的做法讓其不可能快速整合新數(shù)據(jù)類型,并且很不適合于非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。

總體來說,隨著web和移動應(yīng)用程序的增加、新的趨勢、網(wǎng)上消費者行為的轉(zhuǎn)變以及新的數(shù)據(jù)類型的出現(xiàn),行業(yè)需要能夠提供可擴展的靈活的數(shù)據(jù)庫技術(shù)來管理和訪問數(shù)據(jù)。NoSQL技術(shù)是有效滿足這些需求的唯一可行解決方案。


網(wǎng)站名稱:硬件條件使nosql發(fā)展,NoSQL發(fā)展的硬件基礎(chǔ)
當前網(wǎng)址:http://weahome.cn/article/dsshhhp.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部