由于現(xiàn)在的網(wǎng)絡(luò)資源越來越多,所以非關(guān)系型的NoSQL需要也越來越大,我是比較看好NoSQL的,未來的NoSQL主要就是幾個(gè)方向,速度、分布式和命中算法
創(chuàng)新互聯(lián)公司是一家專業(yè)提供羅甸企業(yè)網(wǎng)站建設(shè),專注與網(wǎng)站建設(shè)、網(wǎng)站設(shè)計(jì)、H5技術(shù)、小程序制作等業(yè)務(wù)。10年已為羅甸眾多企業(yè)、政府機(jī)構(gòu)等服務(wù)。創(chuàng)新互聯(lián)專業(yè)網(wǎng)站建設(shè)公司優(yōu)惠進(jìn)行中。
應(yīng)該說,現(xiàn)在是國(guó)產(chǎn)分布式數(shù)據(jù)庫發(fā)展的利好時(shí)期。在討論發(fā)展前景前,首先要先看看分布式數(shù)據(jù)庫的發(fā)展方向。
大家把傳統(tǒng)關(guān)系型數(shù)據(jù)庫稱作oldSQL,給人感覺要被淘汰似的。但其實(shí)數(shù)據(jù)量不是很大或者事務(wù)處理的場(chǎng)景夏,關(guān)系型數(shù)據(jù)庫的還是占優(yōu)的。
關(guān)系型數(shù)據(jù)庫的主要問題在于:
性能瓶頸,
單一模型(關(guān)系模型),只適合OLTP
應(yīng)對(duì)業(yè)務(wù)的靈活性不夠,
彈性擴(kuò)充能力不夠,
兩地三中心和雙活等問題上不足。
隨著互聯(lián)網(wǎng)和手機(jī)的飛速發(fā)展,無論從用戶規(guī)模、使用頻率、還是場(chǎng)景多樣性都使得這些問題浮出水面。其實(shí)Oracle在92年就開始嘗試轉(zhuǎn)向分布式,還當(dāng)時(shí)引起了業(yè)界的巨大爭(zhēng)論,最后失敗。更何況過去CPU、內(nèi)存、存儲(chǔ)、帶寬的高成本導(dǎo)致分布式數(shù)據(jù)庫的性價(jià)比并不高,只能停留在學(xué)術(shù)階段,限制了分布式的發(fā)展。
新分布式數(shù)據(jù)庫首先是要避免和傳統(tǒng)關(guān)系型數(shù)據(jù)庫的競(jìng)爭(zhēng),這是明智的選擇,能夠輕裝上陣。因此從幾個(gè)方面入手,應(yīng)對(duì)海量數(shù)據(jù)處理、分析、緩存、流式處理、開發(fā)模式等等。相對(duì)應(yīng)列式,KV,Document等多種存儲(chǔ)數(shù)據(jù)結(jié)構(gòu)。
所有這些都被稱為NoSQL數(shù)據(jù)庫,放棄ACID和事務(wù)能力還換取性能。然而,NoSQL又收到了大量的批評(píng)反對(duì)意見,主要是說把數(shù)據(jù)庫應(yīng)該處理的問題交還給了開發(fā)是種發(fā)展的倒退。這些問題包括,索引、版本、SQL支持、事務(wù)支持等等。市場(chǎng)上超過90%的開發(fā)員都需要SQL,而且SQL也是非常有效和成熟。于是大家無論底層是什么存儲(chǔ)結(jié)構(gòu)又開始支持SQL,形成了NewSQL。
這里插一句題外話,在硅谷已經(jīng)不再用SQL、NoSQL、NewSQL來劃分?jǐn)?shù)據(jù)庫了。理由很簡(jiǎn)單,SQL是一種語言,從來沒有SQL數(shù)據(jù)庫的說法,自然也不應(yīng)該有NoSQL數(shù)據(jù)庫的說法。NewSQL數(shù)據(jù)庫就更不合理,用的SQL并非什么“New“的新東西。所以專業(yè)上用關(guān)系型和非關(guān)系型數(shù)據(jù)庫來劃分,分布式數(shù)據(jù)庫主要都是非關(guān)系型數(shù)據(jù)庫。
回過頭來看國(guó)內(nèi)分布式數(shù)據(jù)庫市場(chǎng)需求,中小企業(yè)不滿足Mysql的性能,分庫分表又很難搞,也不徹底;大型企業(yè)被Oracle等壟斷支付高額成本,而且又不解決實(shí)際碰到的瓶頸問題。因此,用戶都在尋找新的解決方案。小型用戶、云計(jì)算的用戶、大型企業(yè)都需要對(duì)應(yīng)的分布式數(shù)據(jù)庫產(chǎn)品。
再加上國(guó)產(chǎn)自主和去IOE浪潮,更加推動(dòng)了國(guó)產(chǎn)分布式數(shù)據(jù)庫的發(fā)展利好。值得注意的是,數(shù)據(jù)庫研發(fā)是個(gè)嚴(yán)肅的事情,沒法短平快。
這次的NoSQL專欄系列將先整體介紹NoSQL,然后介紹如何把NoSQL運(yùn)用到自己的項(xiàng)目中合適的場(chǎng)景中,還會(huì)適當(dāng)?shù)胤治鲆恍┏晒Π咐M谐晒κ褂肗oSQL經(jīng)驗(yàn)的朋友給我提供一些線索和信息。
NoSQL概念隨著web2.0的快速發(fā)展,非關(guān)系型、分布式數(shù)據(jù)存儲(chǔ)得到了快速的發(fā)展,它們不保證關(guān)系數(shù)據(jù)的ACID特性。NoSQL概念在2009年被提了出來。NoSQL最常見的解釋是“non-relational”,“Not Only SQL”也被很多人接受。(“NoSQL”一詞最早于1998年被用于一個(gè)輕量級(jí)的關(guān)系數(shù)據(jù)庫的名字。)
NoSQL被我們用得最多的當(dāng)數(shù)key-value存儲(chǔ),當(dāng)然還有其他的文檔型的、列存儲(chǔ)、圖型數(shù)據(jù)庫、xml數(shù)據(jù)庫等。在NoSQL概念提出之前,這些數(shù)據(jù)庫就被用于各種系統(tǒng)當(dāng)中,但是卻很少用于web互聯(lián)網(wǎng)應(yīng)用。比如cdb、qdbm、bdb數(shù)據(jù)庫。
傳統(tǒng)關(guān)系數(shù)據(jù)庫的瓶頸
傳統(tǒng)的關(guān)系數(shù)據(jù)庫具有不錯(cuò)的性能,高穩(wěn)定型,久經(jīng)歷史考驗(yàn),而且使用簡(jiǎn)單,功能強(qiáng)大,同時(shí)也積累了大量的成功案例。在互聯(lián)網(wǎng)領(lǐng)域,MySQL成為了絕對(duì)靠前的王者,毫不夸張的說,MySQL為互聯(lián)網(wǎng)的發(fā)展做出了卓越的貢獻(xiàn)。
在90年代,一個(gè)網(wǎng)站的訪問量一般都不大,用單個(gè)數(shù)據(jù)庫完全可以輕松應(yīng)付。在那個(gè)時(shí)候,更多的都是靜態(tài)網(wǎng)頁,動(dòng)態(tài)交互類型的網(wǎng)站不多。
到了最近10年,網(wǎng)站開始快速發(fā)展。火爆的論壇、博客、sns、微博逐漸引領(lǐng)web領(lǐng)域的潮流。在初期,論壇的流量其實(shí)也不大,如果你接觸網(wǎng)絡(luò)比較早,你可能還記得那個(gè)時(shí)候還有文本型存儲(chǔ)的論壇程序,可以想象一般的論壇的流量有多大。
Memcached+MySQL
后來,隨著訪問量的上升,幾乎大部分使用MySQL架構(gòu)的網(wǎng)站在數(shù)據(jù)庫上都開始出現(xiàn)了性能問題,web程序不再僅僅專注在功能上,同時(shí)也在追求性能。程序員們開始大量的使用緩存技術(shù)來緩解數(shù)據(jù)庫的壓力,優(yōu)化數(shù)據(jù)庫的結(jié)構(gòu)和索引。開始比較流行的是通過文件緩存來緩解數(shù)據(jù)庫壓力,但是當(dāng)訪問量繼續(xù)增大的時(shí)候,多臺(tái)web機(jī)器通過文件緩存不能共享,大量的小文件緩存也帶了了比較高的IO壓力。在這個(gè)時(shí)候,Memcached就自然的成為一個(gè)非常時(shí)尚的技術(shù)產(chǎn)品。
Memcached作為一個(gè)獨(dú)立的分布式的緩存服務(wù)器,為多個(gè)web服務(wù)器提供了一個(gè)共享的高性能緩存服務(wù),在Memcached服務(wù)器上,又發(fā)展了根據(jù)hash算法來進(jìn)行多臺(tái)Memcached緩存服務(wù)的擴(kuò)展,然后又出現(xiàn)了一致性hash來解決增加或減少緩存服務(wù)器導(dǎo)致重新hash帶來的大量緩存失效的弊端。當(dāng)時(shí),如果你去面試,你說你有Memcached經(jīng)驗(yàn),肯定會(huì)加分的。
Mysql主從讀寫分離
由于數(shù)據(jù)庫的寫入壓力增加,Memcached只能緩解數(shù)據(jù)庫的讀取壓力。讀寫集中在一個(gè)數(shù)據(jù)庫上讓數(shù)據(jù)庫不堪重負(fù),大部分網(wǎng)站開始使用主從復(fù)制技術(shù)來達(dá)到讀寫分離,以提高讀寫性能和讀庫的可擴(kuò)展性。Mysql的master-slave模式成為這個(gè)時(shí)候的網(wǎng)站標(biāo)配了。
分表分庫隨著web2.0的繼續(xù)高速發(fā)展,在Memcached的高速緩存,MySQL的主從復(fù)制,讀寫分離的基礎(chǔ)之上,這時(shí)MySQL主庫的寫壓力開始出現(xiàn)瓶頸,而數(shù)據(jù)量的持續(xù)猛增,由于MyISAM使用表鎖,在高并發(fā)下會(huì)出現(xiàn)嚴(yán)重的鎖問題,大量的高并發(fā)MySQL應(yīng)用開始使用InnoDB引擎代替MyISAM。同時(shí),開始流行使用分表分庫來緩解寫壓力和數(shù)據(jù)增長(zhǎng)的擴(kuò)展問題。這個(gè)時(shí)候,分表分庫成了一個(gè)熱門技術(shù),是面試的熱門問題也是業(yè)界討論的熱門技術(shù)問題。也就在這個(gè)時(shí)候,MySQL推出了還不太穩(wěn)定的表分區(qū),這也給技術(shù)實(shí)力一般的公司帶來了希望。雖然MySQL推出了MySQL Cluster集群,但是由于在互聯(lián)網(wǎng)幾乎沒有成功案例,性能也不能滿足互聯(lián)網(wǎng)的要求,只是在高可靠性上提供了非常大的保證。
MySQL的擴(kuò)展性瓶頸
在互聯(lián)網(wǎng),大部分的MySQL都應(yīng)該是IO密集型的,事實(shí)上,如果你的MySQL是個(gè)CPU密集型的話,那么很可能你的MySQL設(shè)計(jì)得有性能問題,需要優(yōu)化了。大數(shù)據(jù)量高并發(fā)環(huán)境下的MySQL應(yīng)用開發(fā)越來越復(fù)雜,也越來越具有技術(shù)挑戰(zhàn)性。分表分庫的規(guī)則把握都是需要經(jīng)驗(yàn)的。雖然有像淘寶這樣技術(shù)實(shí)力強(qiáng)大的公司開發(fā)了透明的中間件層來屏蔽開發(fā)者的復(fù)雜性,但是避免不了整個(gè)架構(gòu)的復(fù)雜性。分庫分表的子庫到一定階段又面臨擴(kuò)展問題。還有就是需求的變更,可能又需要一種新的分庫方式。
MySQL數(shù)據(jù)庫也經(jīng)常存儲(chǔ)一些大文本字段,導(dǎo)致數(shù)據(jù)庫表非常的大,在做數(shù)據(jù)庫恢復(fù)的時(shí)候就導(dǎo)致非常的慢,不容易快速恢復(fù)數(shù)據(jù)庫。比如1000萬4KB大小的文本就接近40GB的大小,如果能把這些數(shù)據(jù)從MySQL省去,MySQL將變得非常的小。
關(guān)系數(shù)據(jù)庫很強(qiáng)大,但是它并不能很好的應(yīng)付所有的應(yīng)用場(chǎng)景。MySQL的擴(kuò)展性差(需要復(fù)雜的技術(shù)來實(shí)現(xiàn)),大數(shù)據(jù)下IO壓力大,表結(jié)構(gòu)更改困難,正是當(dāng)前使用MySQL的開發(fā)人員面臨的問題。
NOSQL的優(yōu)勢(shì)易擴(kuò)展NoSQL數(shù)據(jù)庫種類繁多,但是一個(gè)共同的特點(diǎn)都是去掉關(guān)系數(shù)據(jù)庫的關(guān)系型特性。數(shù)據(jù)之間無關(guān)系,這樣就非常容易擴(kuò)展。也無形之間,在架構(gòu)的層面上帶來了可擴(kuò)展的能力。
大數(shù)據(jù)量,高性能
NoSQL數(shù)據(jù)庫都具有非常高的讀寫性能,尤其在大數(shù)據(jù)量下,同樣表現(xiàn)優(yōu)秀。這得益于它的無關(guān)系性,數(shù)據(jù)庫的結(jié)構(gòu)簡(jiǎn)單。一般MySQL使用Query Cache,每次表的更新Cache就失效,是一種大粒度的Cache,在針對(duì)web2.0的交互頻繁的應(yīng)用,Cache性能不高。而NoSQL的Cache是記錄級(jí)的,是一種細(xì)粒度的Cache,所以NoSQL在這個(gè)層面上來說就要性能高很多了。
靈活的數(shù)據(jù)模型
NoSQL無需事先為要存儲(chǔ)的數(shù)據(jù)建立字段,隨時(shí)可以存儲(chǔ)自定義的數(shù)據(jù)格式。而在關(guān)系數(shù)據(jù)庫里,增刪字段是一件非常麻煩的事情。如果是非常大數(shù)據(jù)量的表,增加字段簡(jiǎn)直就是一個(gè)噩夢(mèng)。這點(diǎn)在大數(shù)據(jù)量的web2.0時(shí)代尤其明顯。
高可用NoSQL在不太影響性能的情況,就可以方便的實(shí)現(xiàn)高可用的架構(gòu)。比如Cassandra,HBase模型,通過復(fù)制模型也能實(shí)現(xiàn)高可用。
總結(jié)NoSQL數(shù)據(jù)庫的出現(xiàn),彌補(bǔ)了關(guān)系數(shù)據(jù)(比如MySQL)在某些方面的不足,在某些方面能極大的節(jié)省開發(fā)成本和維護(hù)成本。
MySQL和NoSQL都有各自的特點(diǎn)和使用的應(yīng)用場(chǎng)景,兩者的緊密結(jié)合將會(huì)給web2.0的數(shù)據(jù)庫發(fā)展帶來新的思路。
NoSQL:是一項(xiàng)全新的數(shù)據(jù)庫革命性運(yùn)動(dòng),NoSQL的擁護(hù)者們提倡運(yùn)用非關(guān)系型的數(shù)據(jù)存儲(chǔ)?,F(xiàn)今的計(jì)算機(jī)體系結(jié)構(gòu)在數(shù)據(jù)存儲(chǔ)方面要求具 備龐大的水平擴(kuò) 展性,而NoSQL致力于改變這一現(xiàn)狀。
但是NoSQL數(shù)據(jù)庫之間的不同,遠(yuǎn)超過兩 SQL數(shù)據(jù)庫之間的差別。這意味著軟件架構(gòu)師更應(yīng)該在項(xiàng)目開始時(shí)就選擇好一個(gè)適合的 NoSQL數(shù)據(jù)庫。
目前大概有如下幾種
Cassandra、Mongodb、CouchDB、Redis、 Riak、Membase、Neo4j 和 HBase