什么是NoSQL
在通榆等地區(qū),都構建了全面的區(qū)域性戰(zhàn)略布局,加強發(fā)展的系統(tǒng)性、市場前瞻性、產品創(chuàng)新能力,以專注、極致的服務理念,為客戶提供網站設計、成都網站建設 網站設計制作按需網站開發(fā),公司網站建設,企業(yè)網站建設,成都品牌網站建設,成都全網營銷,外貿網站制作,通榆網站建設費用合理。
大家有沒有聽說過“NoSQL”呢?近年,這個詞極受關注??吹健癗oSQL”這個詞,大家可能會誤以為是“No!SQL”的縮寫,并深感憤怒:“SQL怎么會沒有必要了呢?”但實際上,它是“Not Only SQL”的縮寫。它的意義是:適用關系型數據庫的時候就使用關系型數據庫,不適用的時候也沒有必要非使用關系型數據庫不可,可以考慮使用更加合適的數據存儲。
為彌補關系型數據庫的不足,各種各樣的NoSQL數據庫應運而生。
為了更好地了解本書所介紹的NoSQL數據庫,對關系型數據庫的理解是必不可少的。那么,就讓我們先來看一看關系型數據庫的歷史、分類和特征吧。
關系型數據庫簡史
1969年,埃德加?6?1弗蘭克?6?1科德(Edgar Frank Codd)發(fā)表了劃時代的論文,首次提出了關系數據模型的概念。但可惜的是,刊登論文的《IBM Research Report》只是IBM公司的內部刊物,因此論文反響平平。1970年,他再次在刊物《Communication of the ACM》上發(fā)表了題為“A Relational Model of Data for Large Shared Data banks”(大型共享數據庫的關系模型)的論文,終于引起了大家的關注。
科德所提出的關系數據模型的概念成為了現今關系型數據庫的基礎。當時的關系型數據庫由于硬件性能低劣、處理速度過慢而遲遲沒有得到實際應用。但之后隨著硬件性能的提升,加之使用簡單、性能優(yōu)越等優(yōu)點,關系型數據庫得到了廣泛的應用。
通用性及高性能
雖然本書是講解NoSQL數據庫的,但有一個重要的大前提,請大家一定不要誤解。這個大前提就是“關系型數據庫的性能絕對不低,它具有非常好的通用性和非常高的性能”。毫無疑問,對于絕大多數的應用來說它都是最有效的解決方案。
突出的優(yōu)勢
關系型數據庫作為應用廣泛的通用型數據庫,它的突出優(yōu)勢主要有以下幾點:
保持數據的一致性(事務處理)
由于以標準化為前提,數據更新的開銷很小(相同的字段基本上都只有一處)
可以進行JOIN等復雜查詢
存在很多實際成果和專業(yè)技術信息(成熟的技術)
這其中,能夠保持數據的一致性是關系型數據庫的最大優(yōu)勢。在需要嚴格保證數據一致性和處理完整性的情況下,用關系型數據庫是肯定沒有錯的。但是有些情況不需要JOIN,對上述關系型數據庫的優(yōu)點也沒有什么特別需要,這時似乎也就沒有必要拘泥于關系型數據庫了。
關系型數據庫的不足
不擅長的處理
就像之前提到的那樣,關系型數據庫的性能非常高。但是它畢竟是一個通用型的數據庫,并不能完全適應所有的用途。具體來說它并不擅長以下處理:
大量數據的寫入處理
為有數據更新的表做索引或表結構(schema)變更
字段不固定時應用
對簡單查詢需要快速返回結果的處理
。。。。。。
NoSQL數據庫
為了彌補關系型數據庫的不足(特別是最近幾年),NoSQL數據庫出現了。關系型數據庫應用廣泛,能進行事務處理和JOIN等復雜處理。相對地,NoSQL數據庫只應用在特定領域,基本上不進行復雜的處理,但它恰恰彌補了之前所列舉的關系型數據庫的不足之處。
易于數據的分散
如前所述,關系型數據庫并不擅長大量數據的寫入處理。原本關系型數據庫就是以JOIN為前提的,就是說,各個數據之間存在關聯(lián)是關系型數據庫得名的主要原因。為了進行JOIN處理,關系型數據庫不得不把數據存儲在同一個服務器內,這不利于數據的分散。相反,NoSQL數據庫原本就不支持JOIN處理,各個數據都是獨立設計的,很容易把數據分散到多個服務器上。由于數據被分散到了多個服務器上,減少了每個服務器上的數據量,即使要進行大量數據的寫入操作,處理起來也更加容易。同理,數據的讀入操作當然也同樣容易。
提升性能和增大規(guī)模
下面說一點題外話,如果想要使服務器能夠輕松地處理更大量的數據,那么只有兩個選擇:一是提升性能,二是增大規(guī)模。下面我們來整理一下這兩者的不同。
首先,提升性能指的就是通過提升現行服務器自身的性能來提高處理能力。這是非常簡單的方法,程序方面也不需要進行變更,但需要一些費用。若要購買性能翻倍的服務器,需要花費的資金往往不只是原來的2倍,可能需要多達5到10倍。這種方法雖然簡單,但是成本較高。
另一方面,增大規(guī)模指的是使用多臺廉價的服務器來提高處理能力。它需要對程序進行變更,但由于使用廉價的服務器,可以控制成本。另外,以后只要依葫蘆畫瓢增加廉價服務器的數量就可以了。
不對大量數據進行處理的話就沒有使用的必要嗎?
NoSQL數據庫基本上來說為了“使大量數據的寫入處理更加容易(讓增加服務器數量更容易)”而設計的。但如果不是對大量數據進行操作的話,NoSQL數據庫的應用就沒有意義嗎?
答案是否定的。的確,它在處理大量數據方面很有優(yōu)勢。但實際上NoSQL數據庫還有各種各樣的特點,如果能夠恰當地利用這些特點將會是非常有幫助。具體的例子將會在第2章和第3章進行介紹,這些用途將會讓你感受到利用NoSQL的好處。
希望順暢地對數據進行緩存(Cache)處理
希望對數組類型的數據進行高速處理
希望進行全部保存
多樣的NoSQL數據庫
NoSQL數據庫存在著“key-value存儲”、“文檔型數據庫”、“列存儲數據庫”等各種各樣的種類,每種數據庫又包含各自的特點。下一節(jié)讓我們一起來了解一下NoSQL數據庫的種類和特點。
NoSQL數據庫是什么
NoSQL說起來簡單,但實際上到底有多少種呢?我在提筆的時候,到NoSQL的官方網站上確認了一下,竟然已經有122種了。另外官方網站上也介紹了本書沒有涉及到的圖形數據庫和對象數據庫等各個類別。不知不覺間,原來已經出現了這么多的NoSQL數據庫啊。
本節(jié)將為大家介紹具有代表性的NoSQL數據庫。
key-value存儲
這是最常見的NoSQL數據庫,它的數據是以key-value的形式存儲的。雖然它的處理速度非??欤腔旧现荒芡ㄟ^key的完全一致查詢獲取數據。根據數據的保存方式可以分為臨時性、永久性和兩者兼具三種。
臨時性
memcached屬于這種類型。所謂臨時性就是 “數據有可能丟失”的意思。memcached把所有數據都保存在內存中,這樣保存和讀取的速度非常快,但是當memcached停止的時候,數據就不存在了。由于數據保存在內存中,所以無法操作超出內存容量的數據(舊數據會丟失)。
在內存中保存數據
可以進行非常快速的保存和讀取處理
數據有可能丟失
永久性
Tokyo Tyrant、Flare、ROMA等屬于這種類型。和臨時性相反,所謂永久性就是“數據不會丟失”的意思。這里的key-value存儲不像memcached那樣在內存中保存數據,而是把數據保存在硬盤上。與memcached在內存中處理數據比起來,由于必然要發(fā)生對硬盤的IO操作,所以性能上還是有差距的。但數據不會丟失是它最大的優(yōu)勢。
在硬盤上保存數據
可以進行非??焖俚谋4婧妥x取處理(但無法與memcached相比)
數據不會丟失
兩者兼具
Redis屬于這種類型。Redis有些特殊,臨時性和永久性兼具,且集合了臨時性key-value存儲和永久性key-value存儲的優(yōu)點。Redis首先把數據保存到內存中,在滿足特定條件(默認是15分鐘一次以上,5分鐘內10個以上,1分鐘內10000個以上的key發(fā)生變更)的時候將數據寫入到硬盤中。這樣既確保了內存中數據的處理速度,又可以通過寫入硬盤來保證數據的永久性。這種類型的數據庫特別適合于處理數組類型的數據。
同時在內存和硬盤上保存數據
可以進行非??焖俚谋4婧妥x取處理
保存在硬盤上的數據不會消失(可以恢復)
適合于處理數組類型的數據
面向文檔的數據庫
MongoDB、CouchDB屬于這種類型。它們屬于NoSQL數據庫,但與key-value存儲相異。
不定義表結構
面向文檔的數據庫具有以下特征:即使不定義表結構,也可以像定義了表結構一樣使用。關系型數據庫在變更表結構時比較費事,而且為了保持一致性還需修改程序。然而NoSQL數據庫則可省去這些麻煩(通常程序都是正確的),確實是方便快捷。
可以使用復雜的查詢條件
跟key-value存儲不同的是,面向文檔的數據庫可以通過復雜的查詢條件來獲取數據。雖然不具備事務處理和JOIN這些關系型數據庫所具有的處理能力,但除此以外的其他處理基本上都能實現。這是非常容易使用的NoSQL數據庫。
不需要定義表結構
可以利用復雜的查詢條件
面向列的數據庫
Cassandra、Hbase、HyperTable屬于這種類型。由于近年來數據量出現爆發(fā)性增長,這種類型的NoSQL數據庫尤其引人注目。
面向行的數據庫和面向列的數據庫
普通的關系型數據庫都是以行為單位來存儲數據的,擅長進行以行為單位的讀入處理,比如特定條件數據的獲取。因此,關系型數據庫也被稱為面向行的數據庫。相反,面向列的數據庫是以列為單位來存儲數據的,擅長以列為單位讀入數據。
高擴展性
面向列的數據庫具有高擴展性,即使數據增加也不會降低相應的處理速度(特別是寫入速度),所以它主要應用于需要處理大量數據的情況。另外,利用面向列的數據庫的優(yōu)勢,把它作為批處理程序的存儲器來對大量數據進行更新也是非常有用的。但由于面向列的數據庫跟現行數據庫存儲的思維方式有很大不同,應用起來十分困難。
高擴展性(特別是寫入處理)
應用十分困難
最近,像Twitter和Facebook這樣需要對大量數據進行更新和查詢的網絡服務不斷增加,面向列的數據庫的優(yōu)勢對其中一些服務是非常有用的,但是由于這與本書所要介紹的內容關系不大,就不進行詳細介紹了。
總結:
NoSQL并不是No-SQL,而是指Not Only SQL。
NoSQL的出現是為了彌補SQL數據庫因為事務等機制帶來的對海量數據、高并發(fā)請求的處理的性能上的欠缺。
NoSQL不是為了替代SQL而出現的,它是一種替補方案,而不是解決方案的首選。
絕大多數的NoSQL產品都是基于大內存和高性能隨機讀寫的(比如具有更高性能的固態(tài)硬盤陣列),一般的小型企業(yè)在選擇NoSQL時一定要慎重!不要為了NoSQL而NoSQL,可能會導致花了冤枉錢又耽擱了項目進程。
NoSQL不是萬能的,但在大型項目中,你往往需要它!
即非關系型數據庫和關系型數據庫。
MySQL的優(yōu)點:事務處理—保持數據的一致性;由于以標準化為前提,數據更新的開銷很?。ㄏ嗤淖侄位旧现挥幸惶帲?;可以進行Join等復雜查詢
NoSQL的優(yōu)點:首先它是基于內存的,也就是數據放在內存中,而不是像數據庫那樣把數據放在磁盤上,而內存的讀取速度是磁盤讀取速度的幾十倍到上百倍,所以NoSQL工具的速度遠比數據庫讀取速度要快得多,滿足了高響應的要求。即使NoSQL將數據放在磁盤中,它也是一種半結構化的數據 格式,讀取到解析的復雜度遠比MySQL要簡單,這是因為MySQL存儲的是經過結構化、多范式等有復雜規(guī)則的數據,還原為內存結構的速度較慢。NoSQL在很大程度上滿足了高并發(fā)、快速讀/和響應的要求,所以它也是Java互聯(lián)網系統(tǒng)的利器。
簡單的擴展:典型例子是Cassandra,由于其架構是類似于經典的P2P,所以能通過輕松地添加新的節(jié)點來擴展這個集群;
低廉的成本:這是大多數分布式數據庫共有的特點,因為主要都是開源軟件,沒有昂貴的License成本;
NoSQL的缺點:大多數NoSQL數據庫都不支持事務,也不像 SQL Server和Oracle那樣能提供各種附加功能,比如BI和報表等; 不提供對SQL的支持
那么該如何選擇?
如果規(guī)模和性能比24小時的數據一致性更重要,那NoSQL是一個理想的選擇 (NoSQL依賴于BASE模型——基本可用、軟狀態(tài)、最終一致性)。
但如果要保證到“始終一致”,尤其是對于機密信息和財務信息,那么MySQL很可能是最優(yōu)的選擇(MySQL依賴于ACID模型——原子性、一致性、獨立性和耐久性)。
如果關系數據庫在你的應用場景中,完全能夠很好的工作,而你又是非常善于使用和維護關系數據庫的,那么我覺得你完全沒有必要遷移到NoSQL上面,除非你是個喜歡折騰的人。如果你是在金融,電信等以數據為王的關鍵領域,目前使用的是Oracle數據庫來提供高可靠性的,除非遇到特別大的瓶頸,不然也別貿然嘗試NoSQL。
然而,在WEB2.0的網站中,關系數據庫大部分都出現了瓶頸。在磁盤IO、數據庫可擴展上都花費了開發(fā)人員相當多的精力來優(yōu)化,比如做分表分庫(database sharding)、主從復制、異構復制等等,然而,這些工作需要的技術能力越來越高,也越來越具有挑戰(zhàn)性。如果你正在經歷這些場合,那么我覺得你應該嘗試一下NoSQL了。
具體問題具體分析
MySQL體積小、速度快、成本低、結構穩(wěn)定、便于查詢,可以保證數據的一致性,但缺乏靈活性。
NoSQL高性能、高擴展、高可用,不用局限于固定的結構,減少了時間和空間上的開銷,卻又很難保證數據一致性。
————————————————
版權聲明:本文為CSDN博主「蒟蒻熊」的原創(chuàng)文章,遵循CC 4.0 BY-SA版權協(xié)議,轉載請附上原文出處鏈接及本聲明。
原文鏈接:
Web1.0的時代,數據訪問量很有限,用一夫當關的高性能的單點服務器可以解決大部分問題。
隨著Web2.0的時代的到來,用戶訪問量大幅度提升,同時產生了大量的用戶數據。加上后來的智能移動設備的普及,所有的互聯(lián)網平臺都面臨了巨大的性能挑戰(zhàn)。
NoSQL(NoSQL = Not Only SQL ),意即“不僅僅是SQL”,泛指非關系型的數據庫。
NoSQL 不依賴業(yè)務邏輯方式存儲,而以簡單的key-value模式存儲。因此大大的增加了數據庫的擴展能力。
Memcache Memcache Redis Redis MongoDB MongoDB 列式數據庫 列式數據庫 Hbase Hbase
HBase是Hadoop項目中的數據庫。它用于需要對大量的數據進行隨機、實時的讀寫操作的場景中。
HBase的目標就是處理數據量非常龐大的表,可以用普通的計算機處理超過10億行數據,還可處理有數百萬列元素的數據表。
Cassandra Cassandra
Apache Cassandra是一款免費的開源NoSQL數據庫,其設計目的在于管理由大量商用服務器構建起來的龐大集群上的海量數據集(數據量通常達到PB級別)。在眾多顯著特性當中,Cassandra最為卓越的長處是對寫入及讀取操作進行規(guī)模調整,而且其不強調主集群的設計思路能夠以相對直觀的方式簡化各集群的創(chuàng)建與擴展流程。
主要應用:社會關系,公共交通網絡,地圖及網絡拓譜(n*(n-1)/2)
答案:A
1.文檔型數據庫
作為最受歡迎的NoSQL產品,文檔型數據庫MongoDB當仁不讓地占據了第一的位置,同時它也是所有NoSQL數據庫中排名最靠前的產品(總排行榜第七名)。Apache基金會的CouchDB排在第二,基于.Net的數據庫RavenDB排在第三,Couchbase排在第四。
2.鍵值(Key-value)數據庫
鍵值(Key-value)數據庫是NoSQL領域中應用范圍最廣的,也是涉及產品最多的一種模型。從最簡單的BerkeleyDB到功能豐富的分布式數據庫Riak再到Amazon托管的DynamoDB不一而足。
在鍵值數據庫流行度排行中,Redis不出意外地排名第一,它是一款由Vmware支持的內存數據庫,總體排名第十一。排在第二位的是Memcached,它在緩存系統(tǒng)中應用十分廣泛。排在之后的是Riak、BerkeleyDB、SimpleDB、DynamoDB以及甲骨文的Oracle NoSQL數據庫。值得注意的是,Oracle NoSQL數據庫上榜不久,得分已經翻番,上升勢頭非常迅猛。
3. 列式存儲
列式存儲被視為NoSQL數據庫中非常重要的一種模式,其中Cassandra流行度最高,它已經由Facebook轉交給到Apache進行管理,同時Cassandra在全體數據庫排名中排在第十位,緊隨MongoDB成為第二受歡迎的NoSQL數據庫?;贖adoop的Hbase排在第二位,Hypertable排在第三。而Google的BigTable并未列入排名,原因是它并未正式公開。
NoSQL與RDBMS的九點區(qū)別聯(lián)系?
1 理解ACID與BASE的區(qū)別(ACID是關系型數據庫強一致性的四個要求,而BASE是NoSQL數據庫通常對可用性及一致性的弱要求原則,它們的意思分別是,ACID:atomicity, consistency, isolation, durability;BASE:Basically Available, Soft-state, Eventually Consistent。同時有意思的是ACID在英語里意為酸,BASE意思為堿)
2 理解持久化與非持久化的區(qū)別。這么說是因為有的NoSQL系統(tǒng)是純內存存儲的。
3 你必須意識到傳統(tǒng)有關系型數據庫與NoSQL系統(tǒng)在數據結構上的本質區(qū)別。傳統(tǒng)關系型數據庫通常是基于行的表格型存儲,而NoSQL系統(tǒng)包括了列式存儲(Cassandra)、key/value存儲(Memcached)、文檔型存儲(CouchDB)以及圖結構存儲(Neo4j)
4與傳統(tǒng)關系數據庫有統(tǒng)一的SQL語言操作接口不同,NoSQL系統(tǒng)通常有自己特有的API接口。
5 在架構上,你必須搞清楚,NoSQL系統(tǒng)是被設計用于成百上千臺機器的集群中的,而非共享型數據庫系統(tǒng)的架構。
6在NoSQL系統(tǒng)中,可能你得習慣一下不知道你的數據具體存在何處的情況。
7 在NoSQL系統(tǒng)中,你最好習慣它的弱一致性。”eventually consistent”(最終一致性)正是BASE原則中的重要一項。比如在Twitter,你在Followers列表中經常會感受到數據的延遲。
8 在NoSQL系統(tǒng)中,你要理解,很多時候數據并不總是可用的。
9 你得理解,有的方案是擁有分區(qū)容忍性的,有的方案不一定有。
(1) 確保主存儲節(jié)點一旦失效就立刻切換到備用復制節(jié)點。這一般基于成熟健壯的看門狗技術 (Watch Dog),看門狗持續(xù)的監(jiān)控節(jié)點,一旦發(fā)現失效就切換到健康的復制節(jié)點。
(2) 對于你的應用程序而言切換過程應盡可能透明;最理想的情況是無需更改任何配置。更高級的解決方案是僅僅修改DNS中存儲節(jié)點的IP地址,確保修復過程在幾秒鐘之內完成。
(3) 自動切換應當基于Quorum并且是完全一致(Fully Consistent)或最終一致(Eventually Consistent)的。