真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯網站制作重慶分公司

nosql缺陷,淺談nosql技術及應用論文

nosql數據庫的幾大類型

1. 鍵值數據庫

公司主營業(yè)務:成都網站制作、做網站、移動網站開發(fā)等業(yè)務。幫助企業(yè)客戶真正實現互聯網宣傳,提高企業(yè)的競爭能力。創(chuàng)新互聯建站是一支青春激揚、勤奮敬業(yè)、活力青春激揚、勤奮敬業(yè)、活力澎湃、和諧高效的團隊。公司秉承以“開放、自由、嚴謹、自律”為核心的企業(yè)文化,感謝他們對我們的高要求,感謝他們從不同領域給我們帶來的挑戰(zhàn),讓我們激情的團隊有機會用頭腦與智慧不斷的給客戶帶來驚喜。創(chuàng)新互聯建站推出陵水黎族免費做網站回饋大家。

相關產品:Redis、Riak、SimpleDB、Chordless、Scalaris、Memcached

應用:內容緩存

優(yōu)點:擴展性好、靈活性好、大量寫操作時性能高

缺點:無法存儲結構化信息、條件查詢效率較低

使用者:百度云(Redis)、GitHub(Riak)、BestBuy(Riak)、Twitter(Ridis和Memcached)

2. 列族數據庫

相關產品:BigTable、HBase、Cassandra、HadoopDB、GreenPlum、PNUTS

應用:分布式數據存儲與管理

優(yōu)點:查找速度快、可擴展性強、容易進行分布式擴展、復雜性低

使用者:Ebay(Cassandra)、Instagram(Cassandra)、NASA(Cassandra)、Facebook(HBase)

3. 文檔數據庫

相關產品:MongoDB、CouchDB、ThruDB、CloudKit、Perservere、Jackrabbit

應用:存儲、索引并管理面向文檔的數據或者類似的半結構化數據

優(yōu)點:性能好、靈活性高、復雜性低、數據結構靈活

缺點:缺乏統(tǒng)一的查詢語言

使用者:百度云數據庫(MongoDB)、SAP(MongoDB)

4. 圖形數據庫

圖形數據庫-使用圖作為數據模型來存儲數據。

相關產品:Neo4J、OrientDB、InfoGrid、GraphDB

應用:大量復雜、互連接、低結構化的圖結構場合,如社交網絡、推薦系統(tǒng)等

優(yōu)點:靈活性高、支持復雜的圖形算法、可用于構建復雜的關系圖譜

缺點:復雜性高、只能支持一定的數據規(guī)模

使用者:Adobe(Neo4J)、Cisco(Neo4J)、T-Mobile(Neo4J)

傳統(tǒng)數據庫與新型數據庫的優(yōu)缺點

一:傳統(tǒng)數據庫

(1)傳統(tǒng)索引不適于海量數據? ??

傳統(tǒng)行存數據庫索引需要手工設定,對應用不完全透明,隨場景和需求的變化需要不斷調整,人工維護成本很高。并且傳統(tǒng)索引占用存儲空間很大,甚至高于數據本身,造成查詢效率的下降。

(2)數據裝載速度慢

因為索引需要重新創(chuàng)建,加載性能會變的很糟糕。分析型架構系統(tǒng)要解決這些個問題,必須最大限度地減少磁盤 I/O ,提升查詢效率,減小人工維護成本。南大通用分析型數據庫GBase8a (以下簡稱GBase 8a)通過列存儲模式、數據壓縮、智能化的索引、并行處理、并發(fā)控制、高效的查詢優(yōu)化器等技術,使得上述問題得到有效解決。以下各節(jié)將描述 GBase 8a 的創(chuàng)新架構如何實現這些目標。

二:新型數據庫

新型數據庫采用分布式并行計算架構,部署于X86通用服務器,滿足大數據實時交易需求,成本低、擴展性高,突破了傳統(tǒng)數據庫性能瓶頸。

分布式非關系型數據庫技術創(chuàng)新

非關系型數據庫即NoSQL,拋棄了關系數據庫復雜的關系操作、事務處理等功能,僅提供簡單的鍵值對(Key, Value)數據的存儲與查詢,換取高擴展性和高性能,滿足論壇、博客、SNS、微博等互聯網類應用場景下針對海量數據的簡單操作需求。主要技術創(chuàng)新為:

(1) 簡單的數據操作換取高效響應。NoSQL僅支持按照Key(關鍵字)來存儲和查詢Value(數據),不支持對非關鍵字數據列的高效查詢;因數據操作簡單、數據間一般不需要關聯操作,故系統(tǒng)可支持高并發(fā)和較快的響應速度。

(2) 多種一致性策略滿足業(yè)務需求。不同于傳統(tǒng)關系型數據庫僅支持強一致性策略,NoSQL還支持弱一致性和最終一致性等多種策略,可根據應用場景進行對應配置。例如,對寫入操作頻繁,但數據讀取最新版本要求并不嚴格的應用,如互聯網網頁數據的存儲和分析應用,可以采用最終一致性策略;而對訂購關系存儲的應用,則必須用強一致性策略,保證總是讀取最新版本數據

大數據下的地質資料信息存儲架構設計

頡貴琴 胡曉琴

(甘肅省國土資源信息中心)

摘要 為推進我國地質資料信息服務集群化產業(yè)化工作,更大更好地發(fā)揮地質資料信息的價值,本文針對我國現有的地質資料信息集群化共享服務平臺存在的缺陷和問題,基于現有系統(tǒng)的存儲架構,設計了一種大數據下的地質資料信息存儲架構,以便于我國地質資料信息服務集群化產業(yè)化工作能夠適應大數據時代的數據存儲。

關鍵詞 大數據 地質資料 存儲 NoSQL 雙數據庫

0 引言

新中國成立60多年來,我國形成了海量的地質資料信息,為國民經濟和社會發(fā)展提供了重要支撐。但在地質資料管理方面長期存在資料信息分散、綜合研究不夠、數字化信息化程度不高、服務渠道不暢、服務能力不強等問題,使地質資料信息的巨大潛在價值未能得到充分發(fā)揮。為進一步提高地質工作服務國民經濟和社會發(fā)展的能力,充分發(fā)揮地質資料信息的服務功能,擴大服務領域,國土資源部根據國內外地質工作的先進經驗,做出了全面推進地質資料信息服務集群化產業(yè)化工作的部署。

目前,全國各省地質資料館都在有條不紊地對本省成果、原始和實物地質資料進行清理,并對其中重要地質資料進行數字化和存儲工作。然而,由于我國地質資源豐富,經過幾十年的積累,已經形成了海量的地質資料,數據量早已經超過了幾百太字節(jié)(TB)。在進行地質資料信息服務集群化工作中,隨著共享數據量的不斷增大,傳統(tǒng)的數據存儲方式和管理系統(tǒng)必然會展現出存儲和檢索方面的不足以及系統(tǒng)管理方面的缺陷。為了解決該問題,需要設計更加先進的數據存儲架構來實現海量地質資料的存儲。

而大數據(Big Data)作為近年來在云計算領域中出現的一種新型數據,科技工作者在不斷的研究中,設計了適合大數據存儲管理的非關系型數據庫NoSQL進行大數據的存儲和管理。本文將針對我國現有的地質資料信息集群化共享服務平臺存在的缺陷和問題,利用大數據存儲管理模式的思想,提出一種海量地質資料存儲架構,改進現有系統(tǒng)存儲架構,以便于我國全面推進地質資料信息服務集群化產業(yè)化工作。

1 工作現狀

1.1 國內外地質資料信息的存儲現狀

在美國,主要有兩大地質資料公共服務平臺,分別是地球科學信息中心(ESIC)、地球資源觀測和科學中心(EROS),其目的是通過為社會和政府提供更加便利、快速的地質信息服務。20世紀90年代初,澳大利亞出臺了國家地球科學填圖協議,采用先進的科學方法和技術進行數據存儲,從而形成了第二代澳大利亞陸地地質圖。

目前,我國地質資料信息服務集群化產業(yè)化工作剛剛起步,雖然國土資源部信息中心已經開發(fā)了地質資料信息集群化共享服務平臺,并倡導各地方用戶使用該系統(tǒng)。但由于各個地方早期的工作背景不一致,因此各地方所使用的存儲系統(tǒng)也不盡相同,主要有Access、SQL Server、Oracle、MySQL等系統(tǒng)。本文以國土資源部信息中心開發(fā)的地質資料信息集群化共享服務平臺的存儲系統(tǒng)MySQL為例說明。該系統(tǒng)是基于關系數據庫管理系統(tǒng)MySQL的一套分布式存儲檢索系統(tǒng)。該系統(tǒng)的部署使得我國地質資料信息服務集群化產業(yè)化工作取得了重大進展,同時也為我國建立標準統(tǒng)一的地質資料信息共享服務平臺和互聯互通的網絡服務體系奠定了堅實的基礎。然而,該系統(tǒng)的研發(fā)并沒有考慮到地質資料信息進一步集群化以及在未來地質資料信息進入大數據時代的信息共享和存儲管理問題,也沒有給出明確的解決方案。

1.2 大數據的存儲架構介紹

大數據是近年在云計算領域中出現的一種新型數據,具有數據量大、數據結構不固定、類型多樣、查詢分析復雜等特點。傳統(tǒng)關系型數據庫管理系統(tǒng)在數據存儲規(guī)模、檢索效率等方面已不再適合大數據存儲。NoSQL(Not Only SQL)是與關系數據庫相對的一類數據庫的總稱。這些數據庫放棄了對關系數據庫的支持,轉而采用靈活的、分布式的數據存儲方式管理數據,從而可以滿足大數據存儲和處理的需求。NoSQL基于非關系型數據存儲的設計理念,以鍵值對進行存儲,采用的數據字的結構不固定,每一個元組可以有不一樣的字段,且每個元組可以根據自己的需要增加一些自己的鍵值對,可以減少一些檢索時間和存儲空間。目前,應用廣泛的 NoSQL 數據庫有 Google BigTable、HBase、MongoDB、Neo4 j、Infinite Graph等。

2 大數據下的地質資料信息存儲架構設計

根據國土資源部做出的全面推進地質資料信息服務集群化產業(yè)化工作的部署,國土資源部倡導全國地質資料館使用國土資源部信息中心開發(fā)的地質資料信息集群化共享服務平臺,實現地質資料信息的存儲和共享。該系統(tǒng)采用了數據庫管理系統(tǒng)MySQL作為數據存儲系統(tǒng)。

為了與現有系統(tǒng)和現有的工作進行對接,并為將來地質資料進入大數據時代后的存儲工作做準備,本文設計了一種能用于海量地質資料信息存儲并且兼容MySQL的分布式的數據存儲架構(圖1)。

整個系統(tǒng)可以根據不同的用戶等級分為不同的用戶管理層,由于圖幅限制,在圖1 中僅僅展示了3級:國家級管理層(即共享服務平臺用戶層)、省級管理層以及市級管理層(可根據實際需要延伸至縣級)。

每級管理層的每個用戶可以單獨管理一個服務器。如國土資源部信息中心可以單獨管理一個服務器;甘肅省國土資源信息中心可以單獨管理一個服務器,陜西省國土資源信息中心可以單獨管理一個服務器;甘肅的若干個市級國土資源局可以根據需要分別管理各自的服務器。

在服務器上分別安裝兩套數據庫管理系統(tǒng),一套是原有的MySQL數據庫管理系統(tǒng),另一套是為大數據存儲而配備的NoSQL型數據庫管理系統(tǒng)。在服務器上還專門開發(fā)一個數據庫管理器中間件,用于進行用戶層和數據庫的通信以及兩套數據庫之間的通信。

由于各個管理層都各自維護自己的數據庫和數據。當用戶需要進行數據存儲時,他所影響的數據庫僅僅是本地數據庫,存儲效率較高;當用戶需要從多個數據庫讀取數據時,頂層的共享服務平臺會根據用戶需求進行任務分解,將任務分發(fā)給下層的管理層進行數據庫讀取,由于各個數據庫并行讀取,從而提高了數據庫讀取效率。

圖1 大數據下的地質資料信息存儲架構框圖

2.1 用戶管理層

用戶管理層根據權限范圍,分為多層(本文以3層為例)。

位于頂層的國家級管理層(共享服務平臺用戶層)負責用戶訪問權限的分配、與其直接關聯的數據庫的訪問、下級管理層任務的分配等工作。

用戶訪問權限的分配是指為訪問本共享服務平臺的個人用戶和單位用戶分配數據的使用權限、安全性的設計等。

與其直接關聯的數據庫訪問是指直接存儲在其本地數據庫上的數據的訪問。在該數據庫中不僅要存儲所需要的地質資料,還要存儲注冊用戶信息等數據。

下級管理層任務分配是指如果用戶需要訪問多個下層數據庫,用戶只需要輸入查詢這幾個下層數據庫的命令,而如何查找下層數據庫則由該功能來完成。例如某用戶要查找甘肅、陜西、上海、北京的鐵礦分布圖,則用戶只需要輸入這幾個地方及鐵礦等查詢條件,系統(tǒng)將自動把各個省的數據庫查詢任務分派到下級管理層。

同理,位于下層的省級管理層和市級管理層除了沒有用戶訪問權限功能外,其余功能與國家級管理層是相同的。各層之間的數據庫通過互聯網相互連接成分布式的數據庫系統(tǒng)。

2.2 MySQL和NoSQL的融合

MySQL是關系型數據庫,它支持SQL查詢語言,而NoSQL是非關系型數據庫,它不支持SQL查詢語言。用戶要想透明地訪問這兩套數據庫,必須要設計數據庫管理器中間件,作為用戶訪問數據庫的統(tǒng)一入口和兩套數據庫管理系統(tǒng)的通信平臺。本文所設計的數據庫管理器簡單模型如圖2所示。

圖2 數據庫管理器模型

服務器管理器通過用戶程序接口與應用程序進行通訊,通過MySQL數據庫接口與MySQL服務器通訊,通過NoSQL數據庫接口與NoSQL數據庫接口通訊。當應用程序接口接收到一條數據庫訪問命令之后,交由數據庫訪問命令解析器進行命令解析,從而形成MySQL訪問命令或者NoSQL訪問命令,通過相應的數據庫接口訪問數據庫;數據庫返回訪問結果后經過匯總,由應用程序接口返回給應用程序。

兩套數據庫可以通過雙數據庫通信協議進行相互的通信和互訪。此通信協議的建立便于地質工作人員將已經存入MySQL數據庫的不適合結構化存儲的數據轉存到NoSQL數據庫中,從而便于系統(tǒng)的升級和優(yōu)化。

2.3 系統(tǒng)的存儲和檢索模式

在本存儲框架設計中,系統(tǒng)采用分布式網絡存儲模式,即采用可擴展的存儲結構,利用分散在全國各地的多臺獨立的服務器進行數據存儲。這種方式不僅分擔了服務器的存儲壓力,提高了系統(tǒng)的可靠性和可用性,還易于進行系統(tǒng)擴展。另外,由于地質資料信息存儲的特殊性,各地方用戶的數據存儲工作基本都是在本地服務器進行,很少通過網絡進行遠程存儲,所以數據存儲效率較高。

在一臺數據庫服務器上安裝有MySQL和NoSQL型兩套數據庫管理系統(tǒng),分別用于存儲地質資料信息中的結構化數據和非結構化數據。其中,NoSQL型數據庫作為主數據庫,用于存儲一部分結構化數據和全部的非結構化數據;而MySQL數據庫作為輔助數據庫,用于存儲一部分結構化的數據,以及舊系統(tǒng)中已經存儲的數據。使用兩套數據庫不僅可以存儲結構化數據而且還可以適用于大數據時代地質資料信息的存儲,因此系統(tǒng)具有很好的適應性和靈活性。

2.4 安全性設計

地質資料信息是國家的機密,地質工作人員必須要保證它的安全。地質資料信息進入數字化時代之后,地質資料常常在計算機以及網絡上進行傳輸,地質資料信息的安全傳輸和保存更是地質工作人員必須關注和解決的問題。在本存儲架構的設計中設計的安全問題主要有數據庫存儲安全、數據傳輸安全、數據訪問安全等問題。

數據庫設計時采用多邊安全模型和多級安全模型阻止數據庫中信息和數據的泄露來提高數據庫的安全性能,以保障地質信息在數據庫中的存儲安全;當用戶登錄系統(tǒng)訪問數據庫時,必須進行用戶甄別和實名認證,這主要是對用戶的身份進行有效的識別,防止非法用戶訪問數據庫;在對地質資料進行網絡傳輸時,應該首先將數據進行加密,然后再進行網絡傳輸,以防止地質信息在傳輸過程中被竊取。

3 結語

提高地質資料數字化信息化水平,是國外地質工作強國的普遍做法。為推進我國地質資料信息服務集群化產業(yè)化工作,本文針對我國現有的地質資料信息集群化共享服務平臺存在的缺陷和問題,利用大數據存儲管理模式的思想,基于現有系統(tǒng)的存儲架構,設計了一種大數據下的地質資料信息存儲架構,以便于我國地質資料信息服務集群化產業(yè)化工作能夠適應大數據時代的數據存儲。該存儲架構的設計只涉及了簡單模型的構建,具體詳細復雜的功能設計和軟件實現還需要在進一步的研究工作中完成。

參考文獻

[1]吳金朋.一種大數據存儲模型的研究與應用[D].北京:北京郵電大學計算機學院,2012.

[2]吳廣君,王樹鵬,陳明,等.海量結構化數據存儲檢索系統(tǒng)[J].計算機研究與發(fā)展,2012,49(Suppl):1~5.

[3]黃

,易曉東,李姍姍,等.面向高性能計算機的海量數據處理平臺實現與評測[J].計算機研究與發(fā)展,2012,49(Suppl):357~361.

newsql和nosql的區(qū)別和聯系

在大數據時代,“多種架構支持多類應用”成為數據庫行業(yè)應對大數據的基本思路,數據庫行業(yè)出現互為補充的三大陣營,適用于事務處理應用的OldSQL、適用于數據分析應用的NewSQL和適用于互聯網應用的NoSQL。但在一些復雜的應用場景中,單一數據庫架構都不能完全滿足應用場景對海量結構化和非結構化數據的存儲管理、復雜分析、關聯查詢、實時性處理和控制建設成本等多方面的需要,因此不同架構數據庫混合部署應用成為滿足復雜應用的必然選擇。不同架構數據庫混合使用的模式可以概括為:OldSQL+NewSQL、OldSQL+NoSQL、NewSQL+NoSQL三種主要模式。下面通過三個案例對不同架構數據庫的混合應用部署進行介紹。

OldSQL+NewSQL 在數據中心類應用中混合部署

采用OldSQL+NewSQL模式構建數據中心,在充分發(fā)揮OldSQL數據庫的事務處理能力的同時,借助NewSQL在實時性、復雜分析、即席查詢等方面的獨特優(yōu)勢,以及面對海量數據時較強的擴展能力,滿足數據中心對當前“熱”數據事務型處理和海量歷史“冷”數據分析兩方面的需求。OldSQL+NewSQL模式在數據中心類應用中的互補作用體現在,OldSQL彌補了NewSQL不適合事務處理的不足,NewSQL彌補了OldSQL在海量數據存儲能力和處理性能方面的缺陷。

商業(yè)銀行數據中心采用OldSQL+NewSQL混合部署方式搭建,OldSQL數據庫滿足各業(yè)務系統(tǒng)數據的歸檔備份和事務型應用,NewSQL MPP數據庫集群對即席查詢、多維分析等應用提供高性能支持,并且通過MPP集群架構實現應對海量數據存儲的擴展能力。

商業(yè)銀行數據中心存儲架構

與傳統(tǒng)的OldSQL模式相比,商業(yè)銀行數據中心采用OldSQL+NewSQL混合搭建模式,數據加載性能提升3倍以上,即席查詢和統(tǒng)計分析性能提升6倍以上。NewSQL MPP的高可擴展性能夠應對新的業(yè)務需求,可隨著數據量的增長采用集群方式構建存儲容量更大的數據中心。

OldSQL+NoSQL 在互聯網大數據應用中混合部署

在互聯網大數據應用中采用OldSQL+NoSQL混合模式,能夠很好的解決互聯網大數據應用對海量結構化和非結構化數據進行存儲和快速處理的需求。在諸如大型電子商務平臺、大型SNS平臺等互聯網大數據應用場景中,OldSQL在應用中負責高價值密度結構化數據的存儲和事務型處理,NoSQL在應用中負責存儲和處理海量非結構化的數據和低價值密度結構化數據。OldSQL+NoSQL模式在互聯網大數據應用中的互補作用體現在,OldSQL彌補了NoSQL在ACID特性和復雜關聯運算方面的不足,NoSQL彌補了OldSQL在海量數據存儲和非結構化數據處理方面的缺陷。

數據魔方是淘寶網的一款數據產品,主要提供行業(yè)數據分析、店鋪數據分析。淘寶數據產品在存儲層采用OldSQL+NoSQL混合模式,由基于MySQL的分布式關系型數據庫集群MyFOX和基于HBase的NoSQL存儲集群Prom組成。由于OldSQL強大的語義和關系表達能力,在應用中仍然占據著重要地位,目前存儲在MyFOX中的統(tǒng)計結果數據已經達到10TB,占據著數據魔方總數據量的95%以上。另一方面,NoSQL作為SQL的有益補充,解決了OldSQL數據庫無法解決的全屬性選擇器等問題。

淘寶海量數據產品技術架構

基于OldSQL+NoSQL混合架構的特點,數據魔方目前已經能夠提供壓縮前80TB的數據存儲空間,支持每天4000萬的查詢請求,平均響應時間在28毫秒,足以滿足未來一段時間內的業(yè)務增長需求。

NewSQL+NoSQL 在行業(yè)大數據應用中混合部署

行業(yè)大數據與互聯網大數據的區(qū)別在于行業(yè)大數據的價值密度更高,并且對結構化數據的實時處理、復雜的多表關聯分析、即席查詢、數據強一致性等都比互聯網大數據有更高的要求。行業(yè)大數據應用場景主要是分析類應用,如:電信、金融、政務、能源等行業(yè)的決策輔助、預測預警、統(tǒng)計分析、經營分析等。

在行業(yè)大數據應用中采用NewSQL+NoSQL混合模式,充分利用NewSQL在結構化數據分析處理方面的優(yōu)勢,以及NoSQL在非結構數據處理方面的優(yōu)勢,實現NewSQL與NoSQL的功能互補,解決行業(yè)大數據應用對高價值結構化數據的實時處理、復雜的多表關聯分析、即席查詢、數據強一致性等要求,以及對海量非結構化數據存儲和精確查詢的要求。在應用中,NewSQL承擔高價值密度結構化數據的存儲和分析處理工作,NoSQL承擔存儲和處理海量非結構化數據和不需要關聯分析、Ad-hoc查詢較少的低價值密度結構化數據的工作。

當前電信運營商在集中化BI系統(tǒng)建設過程中面臨著數據規(guī)模大、數據處理類型多等問題,并且需要應對大量的固定應用,以及占統(tǒng)計總數80%以上的突發(fā)性臨時統(tǒng)計(ad-hoc)需求。在集中化BI系統(tǒng)的建設中采用NewSQL+NoSQL混搭的模式,充分利用NewSQL在復雜分析、即席查詢等方面處理性能的優(yōu)勢,及NoSQL在非結構化數據處理和海量數據存儲方面的優(yōu)勢,實現高效低成本。

集中化BI系統(tǒng)數據存儲架構

集中化BI系統(tǒng)按照數據類型和處理方式的不同,將結構化數據和非結構化數據分別存儲在不同的系統(tǒng)中:非結構化數據在Hadoop平臺上存儲與處理;結構化、不需要關聯分析、Ad-hoc查詢較少的數據保存在NoSQL數據庫或Hadoop平臺;結構化、需要關聯分析或經常ad-hoc查詢的數據,保存在NewSQL MPP數據庫中,短期高價值數據放在高性能平臺,中長期放在低成本產品中。

結語

當前信息化應用的多樣性、復雜性,以及三種數據庫架構各自所具有的優(yōu)勢和局限性,造成任何一種架構的數據庫都不能完全滿足應用需求,因此不同架構數據庫混合使用,從而彌補其他架構的不足成為必然選擇。根據應用場景采用不同架構數據庫進行組合搭配,充分發(fā)揮每種架構數據庫的特點和優(yōu)勢,并且與其他架構數據庫形成互補,完全涵蓋應用需求,保證數據資源的最優(yōu)化利用,將成為未來一段時期內信息化應用主要采用的解決方式。

目前在國內市場上,OldSQL主要為Oracle、IBM等國外數據庫廠商所壟斷,達夢、金倉等國產廠商仍處于追趕狀態(tài);南大通用憑借國產新型數據庫GBase 8a異軍突起,與EMC的Greenplum和HP的Vertica躋身NewSQL市場三強;NoSQL方面用戶則大多采用Hadoop開源方案。

非關系型數據庫有哪些優(yōu)缺點?

非關系型數據庫嚴格上不是一種數據庫,應該是一種數據結構化存儲方法的集合,可以是文檔或者鍵值對等。當初我在黑馬程序員培訓時候就學過。

優(yōu)點:

1、格式靈活:存儲數據的格式可以是key,value形式、文檔形式、圖片形式等等,文檔形式、圖片形式等等,使用靈活,應用場景廣泛,而關系型數據庫則只支持基礎類型。

2、速度快:nosql可以使用硬盤或者隨機存儲器作為載體,而關系型數據庫只能使用硬盤;

3、高擴展性;

4、成本低:nosql數據庫部署簡單,基本都是開源軟件。

缺點:

1、不提供sql支持,學習和使用成本較高;

2、無事務處理;

3、數據結構相對復雜,復雜查詢方面稍欠。

非關系型數據庫的分類和比較:

1、文檔型

2、key-value型

3、列式數據庫

4、圖形數據庫

保護大數據安全的10個要點

一項對2021年數據泄露的分析顯示,總共有50億份數據被泄露,這對所有參與大數據管道工作的人來說,從開發(fā)人員到DevOps工程師,安全性與基礎業(yè)務需求同等重要。

大數據安全是指在存儲、處理和分析過于龐大和復雜的數據集時,采用任何措施來保護數據免受惡意活動的侵害,傳統(tǒng)數據庫應用程序無法處理這些數據集。大數據可以混合結構化格式(組織成包含數字、日期等的行和列)或非結構化格式(社交媒體數據、PDF 文件、電子郵件、圖像等)。不過,估計顯示高達90%的大數據是非結構化的。

大數據的魅力在于,它通常包含一些隱藏的洞察力,可以改善業(yè)務流程,推動創(chuàng)新,或揭示未知的市場趨勢。由于分析這些信息的工作負載通常會將敏感的客戶數據或專有數據與第三方數據源結合起來,因此數據安全性至關重要。聲譽受損和巨額經濟損失是大數據泄露和數據被破壞的兩大主要后果。

在確保大數據安全時,需要考慮三個關鍵階段:

當數據從源位置移動到存儲或實時攝取(通常在云中)時,確保數據的傳輸

保護大數據管道的存儲層中的數據(例如Hadoop分布式文件系統(tǒng))

確保輸出數據的機密性,例如報告和儀表板,這些數據包含通過Apache Spark等分析引擎運行數據收集的情報

這些環(huán)境中的安全威脅類型包括不適當的訪問控制、分布式拒絕服務(DDoS)攻擊、產生虛假或惡意數據的端點,或在大數據工作期間使用的庫、框架和應用程序的漏洞。

由于所涉及的架構和環(huán)境復雜性,大數據安全面臨著許多挑戰(zhàn)。在大數據環(huán)境中,不同的硬件和技術在分布式計算環(huán)境中相互作用。比如:

像Hadoop這樣的開源框架在設計之初并沒有考慮到安全性

依賴分布式計算來處理這些大型數據集意味著有更多的系統(tǒng)可能出錯

確保從端點收集的日志或事件數據的有效性和真實性

控制內部人員對數據挖掘工具的訪問,監(jiān)控可疑行為

運行標準安全審計的困難

保護非關系NoSQL數據庫

這些挑戰(zhàn)是對保護任何類型數據的常見挑戰(zhàn)的補充。

靜態(tài)數據和傳輸中數據的可擴展加密對于跨大數據管道實施至關重要??蓴U展性是這里的關鍵點,因為除了NoSQL等存儲格式之外,需要跨分析工具集及其輸出加密數據。加密的作用在于,即使威脅者設法攔截數據包或訪問敏感文件,實施良好的加密過程也會使數據不可讀。

獲得訪問控制權可針對一系列大數據安全問題提供強大的保護,例如內部威脅和特權過剩。基于角色的訪問可以幫助控制對大數據管道多層的訪問。例如,數據分析師可以訪問分析工具,但他們可能不應該訪問大數據開發(fā)人員使用的工具,如ETL軟件。最小權限原則是訪問控制的一個很好的參考點,它限制了對執(zhí)行用戶任務所必需的工具和數據的訪問。

大數據工作負載所需要的固有的大存儲容量和處理能力使得大多數企業(yè)可以為大數據使用云計算基礎設施和服務。但是,盡管云計算很有吸引力,暴露的API密鑰、令牌和錯誤配置都是云中值得認真對待的風險。如果有人讓S3中的AWS數據湖完全開放,并且對互聯網上的任何人都可以訪問,那會怎么樣?有了自動掃描工具,可以快速掃描公共云資產以尋找安全盲點,從而更容易降低這些風險。

在復雜的大數據生態(tài)系統(tǒng)中,加密的安全性需要一種集中的密鑰管理方法,以確保對加密密鑰進行有效的策略驅動處理。集中式密鑰管理還可以控制從創(chuàng)建到密鑰輪換的密鑰治理。對于在云中運行大數據工作負載的企業(yè),自帶密鑰 (BYOK) 可能是允許集中密鑰管理而不將加密密鑰創(chuàng)建和管理的控制權交給第三方云提供商的最佳選擇。

在大數據管道中,由于數據來自許多不同的來源,包括來自社交媒體平臺的流數據和來自用戶終端的數據,因此會有持續(xù)的流量。網絡流量分析提供了對網絡流量和任何潛在異常的可見性,例如來自物聯網設備的惡意數據或正在使用的未加密通信協議。

2021年的一份報告發(fā)現,98%的組織感到容易受到內部攻擊。在大數據的背景下,內部威脅對敏感公司信息的機密性構成嚴重風險。有權訪問分析報告和儀表板的惡意內部人員可能會向競爭對手透露見解,甚至提供他們的登錄憑據進行銷售。從內部威脅檢測開始的一個好地方是檢查常見業(yè)務應用程序的日志,例如 RDP、VPN、Active Directory 和端點。這些日志可以揭示值得調查的異常情況,例如意外的數據下載或異常的登錄時間。

威脅搜尋主動搜索潛伏在您的網絡中未被發(fā)現的威脅。這個過程需要經驗豐富的網絡安全分析師的技能組合,利用來自現實世界的攻擊、威脅活動的情報或來自不同安全工具的相關發(fā)現來制定關于潛在威脅的假設。具有諷刺意味的是,大數據實際上可以通過發(fā)現大量安全數據中隱藏的洞察力來幫助改進威脅追蹤工作。但作為提高大數據安全性的一種方式,威脅搜尋會監(jiān)控數據集和基礎設施,以尋找表明大數據環(huán)境受到威脅的工件。

出于安全目的監(jiān)視大數據日志和工具會產生大量信息,這些信息通常最終形成安全信息和事件管理(SIEM)解決方案。

用戶行為分析比內部威脅檢測更進一步,它提供了專門的工具集來監(jiān)控用戶在與其交互的系統(tǒng)上的行為。通常情況下,行為分析使用一個評分系統(tǒng)來創(chuàng)建正常用戶、應用程序和設備行為的基線,然后在這些基線出現偏差時進行提醒。通過用戶行為分析,可以更好地檢測威脅大數據環(huán)境中資產的保密性、完整性或可用性的內部威脅和受損的用戶帳戶。

未經授權的數據傳輸的前景讓安全領導者徹夜難眠,特別是如果數據泄露發(fā)生在可以復制大量潛在敏感資產的大數據管道中。檢測數據泄露需要對出站流量、IP地址和流量進行深入監(jiān)控。防止數據泄露首先來自于在代碼和錯誤配置中發(fā)現有害安全錯誤的工具,以及數據丟失預防和下一代防火墻。另一個重要方面是在企業(yè)內進行教育和提高認識。

框架、庫、軟件實用程序、數據攝取、分析工具和自定義應用程序——大數據安全始于代碼級別。 無論是否實施了上述公認的安全實踐,代碼中的安全缺陷都可能導致數據泄漏。 通過在軟件開發(fā)生命周期中檢測自研代碼及開源組件成分的安全性,加強軟件安全性來防止數據丟失。


本文標題:nosql缺陷,淺談nosql技術及應用論文
文章網址:http://weahome.cn/article/dssspoj.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部