NoSQL不像傳統(tǒng)關(guān)系型庫那樣有統(tǒng)一的標(biāo)準(zhǔn),也不具有普適性。所以要根據(jù)應(yīng)用和數(shù)據(jù)的存取特征來選擇適合的NoSQL。
成都創(chuàng)新互聯(lián)公司從2013年開始,先為勐海等服務(wù)建站,勐海等地企業(yè),進行企業(yè)商務(wù)咨詢服務(wù)。為勐海企業(yè)網(wǎng)站制作PC+手機+微官網(wǎng)三網(wǎng)同步一站式服務(wù)解決您的所有建站問題。
如果以前沒有接觸過NoSQL,MongoDB是一個比較好的選擇,他支持的所以和查詢能力是所有NoSQL中最強大的,缺點是索引的成本和文檔大小限制。
如果是使用Hadoop大數(shù)據(jù)分析,數(shù)據(jù)基本上不存在修改,只是插入和查詢,并且需要配合Hadoop的MR任務(wù),HBase會是很好的選擇。
如果要求有很強的擴展能力,高并發(fā)讀寫和維護方便,Casaandra則是不錯的選擇。
當(dāng)然除了上面三個流行的NoSQL,還有很多優(yōu)秀的NoSQL數(shù)據(jù)庫,而且他們都有各自擅長領(lǐng)域,所以需要了解你們產(chǎn)品自身的特點然后分析選擇哪種才是最適合的,往往在大型系統(tǒng)中不是單一的數(shù)據(jù)庫,而是使用多種數(shù)據(jù)庫組合。
2. 什么是NoSQL?
2.1 NoSQL 概述
NoSQL(NoSQL = Not Only SQL ),意即“不僅僅是SQL”,
泛指非關(guān)系型的數(shù)據(jù)庫。隨著互聯(lián)網(wǎng)web2.0網(wǎng)站的興起,傳統(tǒng)的關(guān)系數(shù)據(jù)庫在應(yīng)付web2.0網(wǎng)站,特別是超大規(guī)模和高并發(fā)的SNS類型的web2.0純動態(tài)網(wǎng)站已經(jīng)顯得力不從心,暴露了很多難以克服的問題,而非關(guān)系型的數(shù)據(jù)庫則由于其本身的特點得到了非常迅速的發(fā)展。NoSQL數(shù)據(jù)庫的產(chǎn)生就是為了解決大規(guī)模數(shù)據(jù)集合多重數(shù)據(jù)種類帶來的挑戰(zhàn),尤其是大數(shù)據(jù)應(yīng)用難題,包括超大規(guī)模數(shù)據(jù)的存儲。
(例如谷歌或Facebook每天為他們的用戶收集萬億比特的數(shù)據(jù))。這些類型的數(shù)據(jù)存儲不需要固定的模式,無需多余操作就可以橫向擴展。
2.2 NoSQL代表
MongDB、 Redis、Memcache
3. 關(guān)系型數(shù)據(jù)庫與NoSQL的區(qū)別?
3.1 RDBMS
高度組織化結(jié)構(gòu)化數(shù)據(jù)
結(jié)構(gòu)化查詢語言(SQL)
數(shù)據(jù)和關(guān)系都存儲在單獨的表中。
數(shù)據(jù)操縱語言,數(shù)據(jù)定義語言
嚴(yán)格的一致性
基礎(chǔ)事務(wù)
ACID
關(guān)系型數(shù)據(jù)庫遵循ACID規(guī)則
事務(wù)在英文中是transaction,和現(xiàn)實世界中的交易很類似,它有如下四個特性:
A (Atomicity) 原子性
原子性很容易理解,也就是說事務(wù)里的所有操作要么全部做完,要么都不做,事務(wù)成功的條件是事務(wù)里的所有操作都成功,只要有一個操作失敗,整個事務(wù)就失敗,需要回滾。比如銀行轉(zhuǎn)賬,從A賬戶轉(zhuǎn)100元至B賬戶,分為兩個步驟:1)從A賬戶取100元;2)存入100元至B賬戶。這兩步要么一起完成,要么一起不完成,如果只完成第一步,第二步失敗,錢會莫名其妙少了100元。
C (Consistency) 一致性
一致性也比較容易理解,也就是說數(shù)據(jù)庫要一直處于一致的狀態(tài),事務(wù)的運行不會改變數(shù)據(jù)庫原本的一致性約束。
I (Isolation) 獨立性
所謂的獨立性是指并發(fā)的事務(wù)之間不會互相影響,如果一個事務(wù)要訪問的數(shù)據(jù)正在被另外一個事務(wù)修改,只要另外一個事務(wù)未提交,它所訪問的數(shù)據(jù)就不受未提交事務(wù)的影響。比如現(xiàn)有有個交易是從A賬戶轉(zhuǎn)100元至B賬戶,在這個交易還未完成的情況下,如果此時B查詢自己的賬戶,是看不到新增加的100元的
D (Durability) 持久性
持久性是指一旦事務(wù)提交后,它所做的修改將會永久的保存在數(shù)據(jù)庫上,即使出現(xiàn)宕機也不會丟失。
3.2 NoSQL
代表著不僅僅是SQL
沒有聲明性查詢語言
沒有預(yù)定義的模式
鍵 - 值對存儲,列存儲,文檔存儲,圖形數(shù)據(jù)庫
最終一致性,而非ACID屬性
非結(jié)構(gòu)化和不可預(yù)知的數(shù)據(jù)
CAP定理
高性能,高可用性和可伸縮性
分布式數(shù)據(jù)庫中的CAP原理(了解)
CAP定理:
Consistency(一致性), 數(shù)據(jù)一致更新,所有數(shù)據(jù)變動都是同步的
Availability(可用性), 好的響應(yīng)性能
Partition tolerance(分區(qū)容錯性) 可靠性
P: 系統(tǒng)中任意信息的丟失或失敗不會影響系統(tǒng)的繼續(xù)運作。
定理:任何分布式系統(tǒng)只可同時滿足二點,沒法三者兼顧。
CAP理論的核心是:一個分布式系統(tǒng)不可能同時很好的滿足一致性,可用性和分區(qū)容錯性這三個需求,
因此,根據(jù) CAP 原理將 NoSQL 數(shù)據(jù)庫分成了滿足 CA 原則、滿足 CP 原則和滿足 AP 原則三 大類:
CA - 單點集群,滿足一致性,可用性的系統(tǒng),通常在可擴展性上不太強大。
CP - 滿足一致性,分區(qū)容忍性的系統(tǒng),通常性能不是特別高。
AP - 滿足可用性,分區(qū)容忍性的系統(tǒng),通??赡軐σ恢滦砸蟮鸵恍?/p>
CAP理論就是說在分布式存儲系統(tǒng)中,最多只能實現(xiàn)上面的兩點。
而由于當(dāng)前的網(wǎng)絡(luò)硬件肯定會出現(xiàn)延遲丟包等問題,所以分區(qū)容忍性是我們必須需要實現(xiàn)的。
所以我們只能在一致性和可用性之間進行權(quán)衡,沒有NoSQL系統(tǒng)能同時保證這三點。
說明:C:強一致性 A:高可用性 P:分布式容忍性
舉例:
CA:傳統(tǒng)Oracle數(shù)據(jù)庫
AP:大多數(shù)網(wǎng)站架構(gòu)的選擇
CP:Redis、Mongodb
注意:分布式架構(gòu)的時候必須做出取舍。
一致性和可用性之間取一個平衡。多余大多數(shù)web應(yīng)用,其實并不需要強一致性。
因此犧牲C換取P,這是目前分布式數(shù)據(jù)庫產(chǎn)品的方向。
4. 當(dāng)下NoSQL的經(jīng)典應(yīng)用
當(dāng)下的應(yīng)用是 SQL 與 NoSQL 一起使用的。
代表項目:阿里巴巴商品信息的存放。
去 IOE 化。
ps:I 是指 IBM 的小型機,很貴的,好像好幾萬一臺;O 是指 Oracle 數(shù)據(jù)庫,也很貴的,好幾萬呢;M 是指 EMC 的存儲設(shè)備,也很貴的。
難點:
數(shù)據(jù)類型多樣性。
數(shù)據(jù)源多樣性和變化重構(gòu)。
數(shù)據(jù)源改造而服務(wù)平臺不需要大面積重構(gòu)。
數(shù)據(jù)庫是一組信息的集合,以便可以方便地訪問、管理和更新,常用數(shù)據(jù)庫有:1、關(guān)系型數(shù)據(jù)庫;2、分布式數(shù)據(jù)庫;3、云數(shù)據(jù)庫;4、NoSQL數(shù)據(jù)庫;5、面向?qū)ο蟮臄?shù)據(jù)庫;6、圖形數(shù)據(jù)庫。
計算機數(shù)據(jù)庫通常包含數(shù)據(jù)記錄或文件的聚合,例如銷售事務(wù)、產(chǎn)品目錄和庫存以及客戶配置文件。
通常,數(shù)據(jù)庫管理器為用戶提供了控制讀寫訪問、指定報表生成和分析使用情況的能力。有些數(shù)據(jù)庫提供ACID(原子性、一致性、隔離性和持久性)遵從性,以確保數(shù)據(jù)的一致性和事務(wù)的完整性。
數(shù)據(jù)庫普遍存在于大型主機系統(tǒng)中,但也存在于較小的分布式工作站和中端系統(tǒng)中,如IBM的as /400和個人計算機。
數(shù)據(jù)庫的演變
數(shù)據(jù)庫從1960年代開始發(fā)展,從層次數(shù)據(jù)庫和網(wǎng)絡(luò)數(shù)據(jù)庫開始,到1980年代的面向?qū)ο髷?shù)據(jù)庫,再到今天的SQL和NoSQL數(shù)據(jù)庫和云數(shù)據(jù)庫。
一種觀點認(rèn)為,數(shù)據(jù)庫可以按照內(nèi)容類型分類:書目、全文、數(shù)字和圖像。在計算中,數(shù)據(jù)庫有時根據(jù)其組織方法進行分類。有許多不同類型的數(shù)據(jù)庫,從最流行的方法關(guān)系數(shù)據(jù)庫到分布式數(shù)據(jù)庫、云數(shù)據(jù)庫或NoSQL數(shù)據(jù)庫。
常用數(shù)據(jù)庫:
1、關(guān)系型數(shù)據(jù)庫
關(guān)系型數(shù)據(jù)庫是由IBM的E.F. Codd于1970年發(fā)明的,它是一個表格數(shù)據(jù)庫,其中定義了數(shù)據(jù),因此可以以多種不同的方式對其進行重組和訪問。
關(guān)系數(shù)據(jù)庫由一組表組成,其中的數(shù)據(jù)屬于預(yù)定義的類別。每個表在一個列中至少有一個數(shù)據(jù)類別,并且每一行對于列中定義的類別都有一個特定的數(shù)據(jù)實例。
結(jié)構(gòu)化查詢語言(SQL)是關(guān)系數(shù)據(jù)庫的標(biāo)準(zhǔn)用戶和應(yīng)用程序接口。關(guān)系數(shù)據(jù)庫易于擴展,并且可以在原始數(shù)據(jù)庫創(chuàng)建之后添加新的數(shù)據(jù)類別,而不需要修改所有現(xiàn)有應(yīng)用程序。
2、分布式數(shù)據(jù)庫
分布式數(shù)據(jù)庫是一種數(shù)據(jù)庫,其中部分?jǐn)?shù)據(jù)庫存儲在多個物理位置,處理在網(wǎng)絡(luò)中的不同點之間分散或復(fù)制。
分布式數(shù)據(jù)庫可以是同構(gòu)的,也可以是異構(gòu)的。同構(gòu)分布式數(shù)據(jù)庫系統(tǒng)中的所有物理位置都具有相同的底層硬件,并運行相同的操作系統(tǒng)和數(shù)據(jù)庫應(yīng)用程序。異構(gòu)分布式數(shù)據(jù)庫中的硬件、操作系統(tǒng)或數(shù)據(jù)庫應(yīng)用程序在每個位置上可能是不同的。
3、云數(shù)據(jù)庫
云數(shù)據(jù)庫是針對虛擬化環(huán)境(混合云、公共云或私有云)優(yōu)化或構(gòu)建的數(shù)據(jù)庫。云數(shù)據(jù)庫提供了一些好處,比如可以按每次使用支付存儲容量和帶寬的費用,還可以根據(jù)需要提供可伸縮性和高可用性。
云數(shù)據(jù)庫還為企業(yè)提供了在軟件即服務(wù)部署中支持業(yè)務(wù)應(yīng)用程序的機會。
4、NoSQL數(shù)據(jù)庫
NoSQL數(shù)據(jù)庫對于大型分布式數(shù)據(jù)集非常有用。
NoSQL數(shù)據(jù)庫對于關(guān)系數(shù)據(jù)庫無法解決的大數(shù)據(jù)性能問題非常有效。當(dāng)組織必須分析大量非結(jié)構(gòu)化數(shù)據(jù)或存儲在云中多個虛擬服務(wù)器上的數(shù)據(jù)時,它們是最有效的。
5、面向?qū)ο蟮臄?shù)據(jù)庫
使用面向?qū)ο缶幊陶Z言創(chuàng)建的項通常存儲在關(guān)系數(shù)據(jù)庫中,但是面向?qū)ο髷?shù)據(jù)庫非常適合于這些項。
面向?qū)ο蟮臄?shù)據(jù)庫是圍繞對象(而不是操作)和數(shù)據(jù)(而不是邏輯)組織的。例如,關(guān)系數(shù)據(jù)庫中的多媒體記錄可以是可定義的數(shù)據(jù)對象,而不是字母數(shù)字值。
6、圖形數(shù)據(jù)庫
面向圖形的數(shù)據(jù)庫是一種NoSQL數(shù)據(jù)庫,它使用圖形理論存儲、映射和查詢關(guān)系。圖數(shù)據(jù)庫基本上是節(jié)點和邊的集合,其中每個節(jié)點表示一個實體,每個邊表示節(jié)點之間的連接。
圖形數(shù)據(jù)庫在分析互連方面越來越受歡迎。例如,公司可以使用圖形數(shù)據(jù)庫從社交媒體中挖掘關(guān)于客戶的數(shù)據(jù)。
訪問數(shù)據(jù)庫:DBMS和RDBMS
數(shù)據(jù)庫管理系統(tǒng)(DBMS)是一種允許您定義、操作、檢索和管理存儲在數(shù)據(jù)庫中的數(shù)據(jù)的軟件。
關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)是上世紀(jì)70年代開發(fā)的一種基于關(guān)系模型的數(shù)據(jù)庫管理軟件,目前仍然是最流行的數(shù)據(jù)庫管理方法。
Microsoft SQL Server、Oracle數(shù)據(jù)庫、IBM DB2和MySQL是企業(yè)用戶最常用的RDBMS產(chǎn)品。DBMS技術(shù)始于20世紀(jì)60年代,支持分層數(shù)據(jù)庫,包括IBM的信息管理系統(tǒng)和CA的集成數(shù)據(jù)庫管理系統(tǒng)。一個關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)是一種數(shù)據(jù)庫管理軟件是在20世紀(jì)70年代開發(fā)的,基于關(guān)系模式,仍然是管理數(shù)據(jù)庫的最普遍的方式。
希望能幫助你還請及時采納謝謝