NoSQL作為大數(shù)據(jù)時代的關鍵技術之一,擁有大量的支持者,NoSQL數(shù)據(jù)庫產品的種類也非常豐富。世界上沒有免費的午餐:NoSQL相對于傳統(tǒng)關系數(shù)據(jù)庫淘汰了一個功能,即在不同的列之間JOIN數(shù)據(jù)。通過移除關系數(shù)據(jù)庫的這個關鍵功能,NoSQL極大的簡化了底層的實現(xiàn)。
成都創(chuàng)新互聯(lián)公司專注于南芬網站建設服務及定制,我們擁有豐富的企業(yè)做網站經驗。 熱誠為您提供南芬營銷型網站建設,南芬網站制作、南芬網頁設計、南芬網站官網定制、微信小程序開發(fā)服務,打造南芬網絡公司原創(chuàng)品牌,更為您提供南芬網站排名全網營銷落地服務。
另外,這些NoSQL數(shù)據(jù)庫在“持久性(durability)”上偷工減料。什么是“持久性”呢?簡單來講就是將數(shù)據(jù)放到斷電后數(shù)據(jù)不會丟失的設備中。想象你在教室里拿著筆記本或者是餐廳服務員在點餐,如果只聽不寫,速度肯定會很快。但是只記在腦子中,如果忘記了其中的某一部分,只能再次詢問獲得答案。這就是持久性的利弊,NoSQL并不總是將數(shù)據(jù)放入永久存儲中的,這樣做可能會提高速度,但會更容易出錯,丟失數(shù)據(jù)對于DBA來說是不能掉以輕心的。
AWS推出了與SQL兼容的查詢語言PartiQL,只要數(shù)據(jù)庫查詢引擎提供PartiQL支持,使用者就能以PartiQL單一查詢關聯(lián)式數(shù)據(jù)庫的結構化資料,以及開放資料格式中的巢狀資料或是半結構化資料,甚至還能用來查詢NoSQL或是文件數(shù)據(jù)庫中無固定結構(Schema-less)的資料。除了AWS自家的數(shù)據(jù)庫服務,NoSQL數(shù)據(jù)庫Couchbase Server也承諾將會支持PartiQL。
企業(yè)資料分散在關聯(lián)式數(shù)據(jù)庫、非關聯(lián)式數(shù)據(jù)庫以及資料湖泊中。高度結構化的資料,儲存在SQL數(shù)據(jù)庫或是資料倉儲;無固定結構的資料則由鍵值儲存、圖形數(shù)據(jù)庫(Graph Database)、分類帳數(shù)據(jù)庫或是時間序列數(shù)據(jù)庫等NoSQL數(shù)據(jù)庫處理;而在資料湖泊中的資料,可能也有部分缺乏結構,或是可能為巢狀或是多值結構。不同的資料類型適用于不同的使用案例,而每種類型的資料,可能都有自己的查詢語言。
不同的資料儲存對應不同的查詢語言,當企業(yè)更換資料格式或是數(shù)據(jù)庫引擎時,可能還需要跟著改變應用程式和查詢語法,AWS提到,這對于資料的應用,特別是使用資料湖泊的靈活性與效率,有著很大的阻礙。為了統(tǒng)一不同類型數(shù)據(jù)庫存取方法,AWS發(fā)布了查詢語言PartiQL,這是個與SQL兼容的查詢語言,可以用來查詢以各種格式儲存在各地的資料。
用戶可以使用PartiQL來查詢關聯(lián)式數(shù)據(jù)庫,像是在Redshift實作交易或是資料分析等應用,或對于Amazon S3資料湖泊的開放資料格式,同樣能使用PartiQL對巢狀資料與半結構化資料例如Amazon Ion格式進行查詢,另外,PartiQL也可用于文件數(shù)據(jù)庫等NoSQL數(shù)據(jù)庫,查詢無固定結構的資料。
AWS表示,PartiQL的出現(xiàn),是為了滿足自家查詢和轉換大量資料的需求,其提供嚴格的SQL兼容性,可與標準SQL混合使用,執(zhí)行連接(Join)、過濾(Filtering)與聚合(Aggregation)操作,并以最小擴充支持巢狀和半結構化資料,讓開發(fā)者以簡單且一致的方法,不需要更改查詢語言,就能查詢各種格式和服務的資料。
PartiQL具格式獨立性與儲存獨立性,PartiQL語法和語義不依賴任何資料格式,無論使用者是要查詢JSON、Parquet、ORC、CSV還是Ion等格式,查詢語句的寫法都相同,PartiQL的查詢在綜合邏輯類型系統(tǒng)上運作,才對應到不同底層的格式。而PartiQL也不相依于特定資料儲存,因此適用于不同的底層資料儲存。
雖然過去針對跨不同類型數(shù)據(jù)庫查詢的問題,已有不少解決方案,AWS指出,像是Postgres JSON同樣也兼容于SQL,但是卻無法良好地處理JSON巢狀資料;而半結構化查詢語言,雖然能良好處理巢狀資料,但卻無法與SQL語言兼容。AWS提到,PartiQL是第一個能夠完全解決這些問題的查詢語言。
目前AWS已在自家多項服務支持PartiQL,包括Amazon S3 Select、Amazon Glacier Select、Amazon Redshift Spectrum、Amazon QLDB,接下來幾個月將會有更多的AWS服務支持PartiQL,Couchbase也公布將加入支持PartiQL的行列?,F(xiàn)在PartiQL以Apache2.0授權許可開源,公開教學、規(guī)范以及參考實作,所有社群都能使用并參與貢獻。
Redis是一個nosql數(shù)據(jù)庫,可以存儲key-value值。因為其底層實現(xiàn)中,數(shù)據(jù)讀寫是基于內存,速度非???,所以常用于緩存;進而因其為獨立部署的中間件,常用于分布式緩存的實現(xiàn)方案。
常用場景有:緩存、秒殺控制、分布式鎖。
雖然其是基于內存讀寫,但底層也有持久化機制;同時具備集群模式;不用擔心其可用性。
關于Redis的使用,可以參考《Redis的使用方法、常見應用場景》
隨著大數(shù)據(jù)分析市場迅速擴展,哪些技術是最有需求和最有增長潛力的呢?在Forrester Research的一份最新研究報告中,評估了22種技術在整個數(shù)據(jù)生命周期中的成熟度和軌跡。這些技術都對大數(shù)據(jù)的實時、預測和綜合洞察有著巨大的貢獻。
1. 預測分析技術
這也是大數(shù)據(jù)的主要功能之一。預測分析允許公司通過分析大數(shù)據(jù)源來發(fā)現(xiàn)、評估、優(yōu)化和部署預測模型,從而提高業(yè)務性能或降低風險。同時,大數(shù)據(jù)的預測分析也與我們的生活息息相關。淘寶會預測你每次購物可能還想買什么,愛奇藝正在預測你可能想看什么,百合網和其他約會網站甚至試圖預測你會愛上誰……
2. NoSQL數(shù)據(jù)庫
NoSQL,Not Only SQL,意思是“不僅僅是SQL”,泛指非關系型數(shù)據(jù)庫。NoSQL數(shù)據(jù)庫提供了比關系數(shù)據(jù)庫更靈活、可伸縮和更便宜的替代方案,打破了傳統(tǒng)數(shù)據(jù)庫市場一統(tǒng)江山的格局。并且,NoSQL數(shù)據(jù)庫能夠更好地處理大數(shù)據(jù)應用的需求。常見的NoSQL數(shù)據(jù)庫有HBase、Redis、MongoDB、Couchbase、LevelDB等。
3. 搜索和知識發(fā)現(xiàn)
支持來自于多種數(shù)據(jù)源(如文件系統(tǒng)、數(shù)據(jù)庫、流、api和其他平臺和應用程序)中的大型非結構化和結構化數(shù)據(jù)存儲庫中自助提取信息的工具和技術。如,數(shù)據(jù)挖掘技術和各種大數(shù)據(jù)平臺。
4. 大數(shù)據(jù)流計算引擎
能夠過濾、聚合、豐富和分析來自多個完全不同的活動數(shù)據(jù)源的數(shù)據(jù)的高吞吐量的框架,可以采用任何數(shù)據(jù)格式?,F(xiàn)今流行的流式計算引擎有Spark Streaming和Flink。
5. 內存數(shù)據(jù)結構
通過在分布式計算機系統(tǒng)中動態(tài)隨機訪問內存(DRAM)、閃存或SSD上分布數(shù)據(jù),提供低延遲的訪問和處理大量數(shù)據(jù)。
6. 分布式文件存儲
為了保證文件的可靠性和存取性能,數(shù)據(jù)通常以副本的方式存儲在多個節(jié)點上的計算機網絡。常見的分布式文件系統(tǒng)有GFS、HDFS、Lustre 、Ceph等。
7. 數(shù)據(jù)虛擬化
數(shù)據(jù)虛擬化是一種數(shù)據(jù)管理方法,它允許應用程序檢索和操作數(shù)據(jù),而不需要關心有關數(shù)據(jù)的技術細節(jié),比如數(shù)據(jù)在源文件中是何種格式,或者數(shù)據(jù)存儲的物理位置,并且可以提供單個客戶用戶視圖。
8. 數(shù)據(jù)集成
用于跨解決方案進行數(shù)據(jù)編排的工具,如Amazon Elastic MapReduce (EMR)、Apache Hive、Apache Pig、Apache Spark、MapReduce、Couchbase、Hadoop和MongoDB等。
9. 數(shù)據(jù)準備
減輕采購、成形、清理和共享各種雜亂數(shù)據(jù)集的負擔的軟件,以加速數(shù)據(jù)對分析的有用性。
10. 數(shù)據(jù)質量
使用分布式數(shù)據(jù)存儲和數(shù)據(jù)庫上的并行操作,對大型高速數(shù)據(jù)集進行數(shù)據(jù)清理和充實的產品。
NoSQL,泛指非關系型的數(shù)據(jù)庫。隨著互聯(lián)網web2.0網站的興起,傳統(tǒng)的關系數(shù)據(jù)庫在應付web2.0網站,特別是超大規(guī)模和高并發(fā)的SNS類型的web2.0純動態(tài)網站已經顯得力不從心,暴露了很多難以克服的問題,而非關系型的數(shù)據(jù)庫則由于其本身的特點得到了非常迅速的發(fā)展。NoSQL數(shù)據(jù)庫的產生就是為了解決大規(guī)模數(shù)據(jù)集合多重數(shù)據(jù)種類帶來的挑戰(zhàn),尤其是大數(shù)據(jù)應用難題。
雖然NoSQL流行語火起來才短短一年的時間,但是不可否認,現(xiàn)在已經開始了第二代運動。盡管早期的堆棧代碼只能算是一種實驗,然而現(xiàn)在的系統(tǒng)已經更加的成熟、穩(wěn)定。不過現(xiàn)在也面臨著一個嚴酷的事實:技術越來越成熟——以至于原來很好的NoSQL數(shù)據(jù)存儲不得不進行重寫,也有少數(shù)人認為這就是所謂的2.0版本。這里列出一些比較知名的工具,可以為大數(shù)據(jù)建立快速、可擴展的存儲庫。
NoSQL(NoSQL = Not Only SQL ),意即“不僅僅是SQL”,是一項全新的數(shù)據(jù)庫革命性運動,早期就有人提出,發(fā)展至2009年趨勢越發(fā)高漲。NoSQL的擁護者們提倡運用非關系型的數(shù)據(jù)存儲,相對于鋪天蓋地的關系型數(shù)據(jù)庫運用,這一概念無疑是一種全新的思維的注入。
NoSQL數(shù)據(jù)庫在以下的這幾種情況下比較適用:1、數(shù)據(jù)模型比較簡單;2、需要靈活性更強的IT系統(tǒng);3、對數(shù)據(jù)庫性能要求較高;4、不需要高度的數(shù)據(jù)一致性;5、對于給定key,比較容易映射復雜值的環(huán)境。