目前存儲海量數(shù)據(jù)的技術主要包括NoSQL、分布式文件系統(tǒng)、和傳統(tǒng)關系型數(shù)據(jù)庫。隨著互聯(lián)網(wǎng)行業(yè)不斷的發(fā)展,產生的數(shù)據(jù)量越來越多,并且這些數(shù)據(jù)的特點是半結構化和非結構化,數(shù)據(jù)很可能是不精確的,易變的。這樣傳統(tǒng)關系型數(shù)據(jù)庫就無法發(fā)揮它的優(yōu)勢。因此,目前互聯(lián)網(wǎng)行業(yè)偏向于使用NoSQL和分布式文件系統(tǒng)來存儲海量數(shù)據(jù)。
創(chuàng)新互聯(lián)主營長寧網(wǎng)站建設的網(wǎng)絡公司,主營網(wǎng)站建設方案,成都APP應用開發(fā),長寧h5小程序制作搭建,長寧網(wǎng)站營銷推廣歡迎長寧等地區(qū)企業(yè)咨詢
下面介紹下常用的NoSQL和分布式文件系統(tǒng)。
NoSQL
互聯(lián)網(wǎng)行業(yè)常用的NoSQL有:HBase、MongoDB、Couchbase、LevelDB。
HBase是Apache Hadoop的子項目,理論依據(jù)為Google論文 Bigtable: A Distributed Storage System for Structured Data開發(fā)的。HBase適合存儲半結構化或非結構化的數(shù)據(jù)。HBase的數(shù)據(jù)模型是稀疏的、分布式的、持久穩(wěn)固的多維map。HBase也有行和列的概念,這是與RDBMS相同的地方,但卻又不同。HBase底層采用HDFS作為文件系統(tǒng),具有高可靠性、高性能。
MongoDB是一種支持高性能數(shù)據(jù)存儲的開源文檔型數(shù)據(jù)庫。支持嵌入式數(shù)據(jù)模型以減少對數(shù)據(jù)庫系統(tǒng)的I/O、利用索引實現(xiàn)快速查詢,并且嵌入式文檔和集合也支持索引,它復制能力被稱作復制集(replica set),提供了自動的故障遷移和數(shù)據(jù)冗余。MongoDB的分片策略將數(shù)據(jù)分布在服務器集群上。
Couchbase這種NoSQL有三個重要的組件:Couchbase服務器、Couchbase Gateway、Couchbase Lite。Couchbase服務器,支持橫向擴展,面向文檔的數(shù)據(jù)庫,支持鍵值操作,類似于SQL查詢和內置的全文搜索;Couchbase Gateway提供了用于RESTful和流式訪問數(shù)據(jù)的應用層API。Couchbase Lite是一款面向移動設備和“邊緣”系統(tǒng)的嵌入式數(shù)據(jù)庫。Couchbase支持千萬級海量數(shù)據(jù)存儲
分布式文件系統(tǒng)
如果針對單個大文件,譬如超過100MB的文件,使用NoSQL存儲就不適當了。使用分布式文件系統(tǒng)的優(yōu)勢在于,分布式文件系統(tǒng)隔離底層數(shù)據(jù)存儲和分布的細節(jié),展示給用戶的是一個統(tǒng)一的邏輯視圖。常用的分布式文件系統(tǒng)有Google File System、HDFS、MooseFS、Ceph、GlusterFS、Lustre等。
相比過去打電話、發(fā)短信、用彩鈴的“老三樣”,移動互聯(lián)網(wǎng)的發(fā)展使得人們可以隨時隨地通過刷微博、看視頻、微信聊天、瀏覽網(wǎng)頁、地圖導航、網(wǎng)上購物、外賣訂餐等,這些業(yè)務的海量數(shù)據(jù)都構建在大規(guī)模網(wǎng)絡云資源池之上。當14億中國人把衣食住行搬上移動互聯(lián)網(wǎng)的同時,也給網(wǎng)絡云資源池帶來巨大業(yè)務挑戰(zhàn)。
首先,用戶需求動態(tài)變化,傳統(tǒng)業(yè)務流量主要是端到端模式,較為穩(wěn)定;而互聯(lián)網(wǎng)流量易受熱點內容牽引,數(shù)據(jù)流量流向復雜和規(guī)模多變:比如雙十一購物狂潮,電商平臺訂單創(chuàng)建峰值達到58.3萬筆,要求通信網(wǎng)絡提供高并發(fā)支持;又如優(yōu)酷春節(jié)期間有超過23億人次上網(wǎng)刷劇、抖音拜年短視頻增長超10倍,需要通信網(wǎng)絡能夠靈活擴充帶寬。面對用戶動態(tài)多變的需求,通信網(wǎng)絡需要具備快速洞察和響應用戶需求的能力,提供高效、彈性、智能的數(shù)據(jù)服務。
“隨著通信網(wǎng)絡管道十倍百倍加粗、節(jié)點數(shù)從千萬級逐漸躍升至百億千億級,如何‘接得住、存得下’海量數(shù)據(jù),成為網(wǎng)絡云資源池建設面臨的巨大考驗”,李輝表示。一直以來,作為新數(shù)據(jù)存儲首倡者和引領者,浪潮存儲攜手通信行業(yè)用戶,不斷 探索 提速通信網(wǎng)絡云基礎設施的各種姿勢。
早在2018年,浪潮存儲就參與了通信行業(yè)基礎設施建設,四年內累計交付約5000套存儲產品,涵蓋全閃存儲、高端存儲、分布式存儲等明星產品。其中在網(wǎng)絡云建設中,浪潮存儲已連續(xù)兩年兩次中標全球最大的NFV網(wǎng)絡云項目,其中在網(wǎng)絡云二期建設中,浪潮存儲提供數(shù)千節(jié)點,為上層網(wǎng)元、應用提供高效數(shù)據(jù)服務。在最新的NFV三期項目中,浪潮存儲也已中標。
能夠與通信用戶在網(wǎng)絡云建設中多次握手,背后是浪潮存儲的持續(xù)技術投入與創(chuàng)新。浪潮存儲6年內投入超30億研發(fā)經(jīng)費,開發(fā)了業(yè)界首個“多合一”極簡架構的浪潮并行融合存儲系統(tǒng)。此存儲系統(tǒng)能夠統(tǒng)籌管理數(shù)千個節(jié)點,實現(xiàn)性能、容量線性擴展;同時基于浪潮iTurbo智能加速引擎的智能IO均衡、智能資源調度、智能元數(shù)據(jù)管理等功能,與自研NVMe SSD閃存盤進行系統(tǒng)級別聯(lián)調優(yōu)化,讓百萬級IO均衡落盤且路徑更短,將存儲系統(tǒng)性能發(fā)揮到極致。
“為了確保全球最大規(guī)模的網(wǎng)絡云正常上線運行,我們聯(lián)合用戶對存儲集群展開了長達數(shù)月的魔鬼測試”,浪潮存儲工程師表示。網(wǎng)絡云的IO以虛擬機數(shù)據(jù)和上層應用數(shù)據(jù)為主,浪潮按照每個存儲集群支持15000臺虛機進行配置,分別對單卷隨機讀寫、順序寫、混合讀寫以及全系統(tǒng)隨機讀寫的IO、帶寬、時延等指標進行了360無死角測試,達到了通信用戶提出的單卷、系統(tǒng)性能不低于4萬和12萬IOPS、時延小于3ms的要求,產品成熟度得到了驗證。
以通信行業(yè)為例,2020年全國移動互聯(lián)網(wǎng)接入流量1656億GB,相當于中國14億人每人消耗118GB數(shù)據(jù);其中春節(jié)期間,移動互聯(lián)網(wǎng)更是創(chuàng)下7天消耗36億GB數(shù)據(jù)流量的記錄,還“捎帶”打了548億分鐘電話、發(fā)送212億條短信……海量實時數(shù)據(jù)洪流,在網(wǎng)絡云資源池(NFV)支撐下收放自如,其中分布式存儲平臺發(fā)揮了作用。如此樣板工程,其巨大示范及拉動作用不言而喻。
顧名思義就是非關系型數(shù)據(jù)庫,它的出現(xiàn),就是為了解決關系型數(shù)據(jù)庫存在的一些問題,可以用NoSQL來進行彌補,現(xiàn)在聽得比較多的NoSQL數(shù)據(jù)庫有Redis、MongoDB、HBase等。
常見的非關系型數(shù)據(jù)庫有:1、mongodb;2、cassandra;3、redis;4、hbase;5、neo4j。其中mongodb是非常著名的NoSQL數(shù)據(jù)庫,它是一個面向文檔的開源數(shù)據(jù)庫。
常見的幾種非關系型數(shù)據(jù)庫:
1、MongoDB
MongoDB是最著名的NoSQL數(shù)據(jù)庫。它是一個面向文檔的開源數(shù)據(jù)庫。MongoDB是一個可伸縮和可訪問的數(shù)據(jù)庫。它在c++中。MongoDB同樣可以用作文件系統(tǒng)。在MongoDB中,JavaScript可以作為查詢語言使用。通過使用sharding MongoDB水平伸縮。它在流行的JavaScript框架中非常有用。
人們真的很享受分片、高級文本搜索、gridFS和map-reduce功能。驚人的性能和新特性使這個NoSQL數(shù)據(jù)庫在我們的列表中名列第一。
特點:提供高性能;自動分片;運行在多個服務器上;支持主從復制;數(shù)據(jù)以JSON樣式文檔的形式存儲;索引文檔中的任何字段;由于數(shù)據(jù)被放置在碎片中,所以它具有自動負載平衡配置;支持正則表達式搜索;在失敗的情況下易于管理。
優(yōu)點:易于安裝MongoDB;MongoDB Inc.為客戶提供專業(yè)支持;支持臨時查詢;高速數(shù)據(jù)庫;無模式數(shù)據(jù)庫;橫向擴展數(shù)據(jù)庫;性能非常高。
缺點:不支持連接;數(shù)據(jù)量大;嵌套文檔是有限的;增加不必要的內存使用。
2、Cassandra
Cassandra是Facebook為收件箱搜索開發(fā)的。Cassandra是一個用于處理大量結構化數(shù)據(jù)的分布式數(shù)據(jù)存儲系統(tǒng)。通常,這些數(shù)據(jù)分布在許多普通服務器上。您還可以添加數(shù)據(jù)存儲容量,使您的服務保持在線,您可以輕松地完成這項任務。由于集群中的所有節(jié)點都是相同的,因此不需要處理復雜的配置。
Cassandra是用Java編寫的。Cassandra查詢語言(CQL)是查詢Cassandra數(shù)據(jù)庫的一種類似sql的語言。因此,Cassandra在最佳開源數(shù)據(jù)庫中排名第二。Facebook、Twitter、思科(Cisco)、Rackspace、eBay、Twitter、Netflix等一些最大的公司都在使用Cassandra。
特點:線性可伸縮;;保持快速響應時間;支持原子性、一致性、隔離性和耐久性(ACID)等屬性;使用Apache Hadoop支持MapReduce;分配數(shù)據(jù)的最大靈活性;高度可伸縮;點對點架構。
優(yōu)點:高度可伸縮;無單點故障;Multi-DC復制;與其他基于JVM的應用程序緊密集成;更適合多數(shù)據(jù)中心部署、冗余、故障轉移和災難恢復。
缺點:對聚合的有限支持;不可預知的性能;不支持特別查詢。
3、Redis
Redis是一個鍵值存儲。此外,它是最著名的鍵值存儲。Redis支持一些c++、PHP、Ruby、Python、Perl、Scala等等。Redis是用C語言編寫的。此外,它是根據(jù)BSD授權的。
特點:自動故障轉移;將其數(shù)據(jù)庫完全保存在內存中;事務;Lua腳本;將數(shù)據(jù)復制到任意數(shù)量的從屬服務器;鑰匙的壽命有限;LRU驅逐鑰匙;支持發(fā)布/訂閱。
優(yōu)點:支持多種數(shù)據(jù)類型;很容易安裝;非常快(每秒執(zhí)行約11萬組,每秒執(zhí)行約81000次);操作都是原子的;多用途工具(在許多用例中使用)。
缺點:不支持連接;存儲過程所需的Lua知識;數(shù)據(jù)集必須很好地適應內存。
4、HBase
HBase是一個分布式的、面向列的開源數(shù)據(jù)庫,該技術來源于 Fay Chang 所撰寫的Google論文“Bigtable:一個結構化數(shù)據(jù)的分布式存儲系統(tǒng)”。就像Bigtable利用了Google文件系統(tǒng)(File System)所提供的分布式數(shù)據(jù)存儲一樣,HBase在Hadoop之上提供了類似于Bigtable的能力。
HBase是Apache的Hadoop項目的子項目。HBase不同于一般的關系數(shù)據(jù)庫,它是一個適合于非結構化數(shù)據(jù)存儲的數(shù)據(jù)庫。另一個不同的是HBase基于列的而不是基于行的模式。
5、neo4j
Neo4j被稱為原生圖數(shù)據(jù)庫,因為它有效地實現(xiàn)了屬性圖模型,一直到存儲層。這意味著數(shù)據(jù)完全按照白板的方式存儲,數(shù)據(jù)庫使用指針導航和遍歷圖。Neo4j有數(shù)據(jù)庫的社區(qū)版和企業(yè)版。企業(yè)版包括Community Edition必須提供的所有功能,以及額外的企業(yè)需求,如備份、集群和故障轉移功能。
特點:它支持唯一的約束;Neo4j支持完整的ACID(原子性、一致性、隔離性和持久性)規(guī)則;Java API: Cypher API和本機Java API;使用Apache Lucence索引;簡單查詢語言Neo4j CQL;包含用于執(zhí)行CQL命令的UI: Neo4j Data Browser。
優(yōu)點:容易檢索其相鄰節(jié)點或關系細節(jié),無需連接或索引;易于學習Neo4j CQL查詢語言命令;不需要復雜的連接來檢索數(shù)據(jù);非常容易地表示半結構化數(shù)據(jù);大型企業(yè)實時應用程序的高可用性;簡化的調優(yōu)。
缺點:不支持分片
一般將NoSQL數(shù)據(jù)庫分為四大類:鍵值(Key-Value)存儲數(shù)據(jù)庫、列存儲數(shù)據(jù)庫、文檔型數(shù)據(jù)庫和圖形(Graph)數(shù)據(jù)庫。它們的數(shù)據(jù)模型、優(yōu)缺點、典型應用場景。
鍵值(Key-Value)存儲數(shù)據(jù)庫Key指向Value的鍵值對,通常用hash表來實現(xiàn)查找速度快數(shù)據(jù)無結構化(通常只被當作字符串或者二進制數(shù)據(jù))內容緩存,主要用于處理大量數(shù)據(jù)的高訪問負載,也用于一些日志系統(tǒng)等。
列存儲數(shù)據(jù)庫,以列簇式存儲,將同一列數(shù)據(jù)存在一起查找速度快,可擴展性強,更容易進行分布式擴展功能相對局限分布式的文件系統(tǒng)。
文檔型數(shù)據(jù)庫,Key-Value對應的鍵值對,Value為結構化數(shù)據(jù),數(shù)據(jù)結構要求不嚴格,表結構可變(不需要像關系型數(shù)據(jù)庫一樣需預先定義表結構),查詢性能不高,而且缺乏統(tǒng)一的查詢語法,Web應用。
圖形(Graph)數(shù)據(jù)庫,圖結構,利用圖結構相關算法(如最短路徑尋址,N度關系查找等),很多時候需要對整個圖做計算才能得出需要的信息,而且這種結構不太好做分布式的集群方案,社交網(wǎng)絡,推薦系統(tǒng)等。