這篇文章主要介紹了關(guān)系型數(shù)據(jù)庫不適于Hadoop原因有哪些,具有一定借鑒價(jià)值,感興趣的朋友可以參考下,希望大家閱讀完這篇文章之后大有收獲,下面讓小編帶著大家一起了解一下。
東港網(wǎng)站建設(shè)公司成都創(chuàng)新互聯(lián),東港網(wǎng)站設(shè)計(jì)制作,有大型網(wǎng)站制作公司豐富經(jīng)驗(yàn)。已為東港成百上千家提供企業(yè)網(wǎng)站建設(shè)服務(wù)。企業(yè)網(wǎng)站搭建\外貿(mào)網(wǎng)站制作要多少錢,請找那個(gè)售后服務(wù)好的東港做網(wǎng)站的公司定做!
問題要從計(jì)算機(jī)硬盤說起,現(xiàn)階段硬盤尋址時(shí)間的提升速度遠(yuǎn)不及傳輸速率提升的速度。尋址是將磁頭移動到特定硬盤位置進(jìn)行讀寫操作的過程,它是導(dǎo)致硬盤操作延遲的主要原因,而傳輸速率取決于硬盤的帶寬。形象的來說就是,工人裝載貨物的效率提高,遠(yuǎn)不及高速上運(yùn)輸貨物的效率。
如果數(shù)據(jù)的訪問模式中包含大量的硬盤尋址,那么讀取大量數(shù)據(jù)集就必然會花更長的時(shí)間,而流數(shù)據(jù)讀取模式取決于傳輸速率。另一方面,如果數(shù)據(jù)庫系統(tǒng)只更新一小部分記錄,那么傳統(tǒng)的B樹就更有優(yōu)勢(關(guān)系型數(shù)據(jù)庫中使用的一種數(shù)據(jù)結(jié)構(gòu),受限于尋址的比例)。但數(shù)據(jù)庫系統(tǒng)中有大量的數(shù)據(jù)更新時(shí),B樹的效率就明顯落后于MapReduce,因?yàn)樾枰褂谩芭判?合并”來重建數(shù)據(jù)庫。
在許多情況下,可以將MapReduce視為關(guān)系型數(shù)據(jù)庫管理系統(tǒng)的補(bǔ)充。
傳統(tǒng)的關(guān)系型數(shù)據(jù)庫 | MapReduce | |
數(shù)據(jù)大小 | GB | PB |
數(shù)據(jù)存取 | 交互式和批處理 | 批處理 |
更新 | 多次讀寫 | 一次寫入,多次讀取 |
結(jié)構(gòu) | 靜態(tài)模式 | 動態(tài)模式 |
完整性 | 高 | 低 |
橫向擴(kuò)展 | 非線性 | 線性 |
MapReduce和關(guān)系型數(shù)據(jù)庫之間的另一個(gè)區(qū)別在于它們所操作的數(shù)據(jù)集結(jié)構(gòu)化程度。結(jié)構(gòu)化數(shù)據(jù)(structured data)是具有既定格式的實(shí)體化數(shù)據(jù),如XML文檔或滿足特定的預(yù)定義格式的數(shù)據(jù)庫表。這是RDBMS包括的內(nèi)容。另一方面,半結(jié)構(gòu)化數(shù)據(jù)(semi-structured data)比較松散,雖然可能有格式,但經(jīng)常被忽略,所以它只能作為對數(shù)據(jù)結(jié)構(gòu)的一般性指導(dǎo)。例如電子表格,它在結(jié)構(gòu)上是由單元格組成的網(wǎng)格,但是每個(gè)單元格內(nèi)可以保存任何形式的數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)(unstructured data)沒什么特別的內(nèi)部結(jié)構(gòu),例如純文本或圖像數(shù)據(jù)。MapReduce對非結(jié)構(gòu)化數(shù)或半結(jié)構(gòu)化數(shù)據(jù)非常有效,因?yàn)樗窃谔幚頂?shù)據(jù)時(shí)才對數(shù)據(jù)時(shí)才對數(shù)據(jù)進(jìn)行解釋。換句話說MapReduce輸入的鍵和值并不是數(shù)據(jù)的固有屬性,而是由分析數(shù)據(jù)的人來選的。
關(guān)系型數(shù)據(jù)庫往往是規(guī)范的(normalized),以保持?jǐn)?shù)據(jù)的完整性且不含冗余。規(guī)范給MapReduce帶來了問題,因?yàn)樗褂涗涀x取成為非本地操作,而MapReduce的核心假設(shè)之一就是可以進(jìn)行高速的流讀寫操作。比如web服務(wù)器日志是典型的非規(guī)范化數(shù)據(jù)記錄,例如每一次都要記錄客戶端主機(jī)全名,這回導(dǎo)致同一客戶端的全名可能多次出現(xiàn),這也是MapReduce非常適用于分析各種日志文件的原因之一。
MapReduce是一種線性的可伸縮編程模型,程序員需要寫兩個(gè)函數(shù),分別是map和reduce函數(shù),每個(gè)函數(shù)定義了一個(gè)鍵值對集合到另一個(gè)鍵值對集合的映射。這些函數(shù)不必關(guān)注數(shù)據(jù)集及其所用集群的大小,可以原封不動地應(yīng)用于小規(guī)模數(shù)據(jù)集或大規(guī)模數(shù)據(jù)集。如果輸入的數(shù)據(jù)量是原來的兩倍,那么運(yùn)行時(shí)間也是原來的兩倍,但是如果集群規(guī)模是原來的兩倍,作業(yè)的運(yùn)行速度卻仍然與原來的一樣快。SQL查詢一般不具備該特性。
感謝你能夠認(rèn)真閱讀完這篇文章,希望小編分享的“關(guān)系型數(shù)據(jù)庫不適于Hadoop原因有哪些”這篇文章對大家有幫助,同時(shí)也希望大家多多支持創(chuàng)新互聯(lián),關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,更多相關(guān)知識等著你來學(xué)習(xí)!