本篇內(nèi)容主要講解“Hadoop 與 MPPDB 的區(qū)別是什么”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實(shí)用性強(qiáng)。下面就讓小編來帶大家學(xué)習(xí)“Hadoop 與 MPPDB 的區(qū)別是什么”吧!
創(chuàng)新互聯(lián)堅持“要么做到,要么別承諾”的工作理念,服務(wù)領(lǐng)域包括:成都網(wǎng)站制作、成都做網(wǎng)站、企業(yè)官網(wǎng)、英文網(wǎng)站、手機(jī)端網(wǎng)站、網(wǎng)站推廣等服務(wù),滿足客戶于互聯(lián)網(wǎng)時代的海陵網(wǎng)站設(shè)計、移動媒體設(shè)計的需求,幫助企業(yè)找到有效的互聯(lián)網(wǎng)解決方案。努力成為您成熟可靠的網(wǎng)絡(luò)建設(shè)合作伙伴!
1、 什么是MPP?
MPP (Massively Parallel Processing),即大規(guī)模并行處理,在數(shù)據(jù)庫非共享集群中,每個節(jié)點(diǎn)都有獨(dú)立的磁盤存儲系統(tǒng)和內(nèi)存系統(tǒng),業(yè)務(wù)數(shù)據(jù)根據(jù)數(shù)據(jù)庫模型和應(yīng)用特點(diǎn)劃分到各個節(jié)點(diǎn)上,每臺數(shù)據(jù)節(jié)點(diǎn)通過專用網(wǎng)絡(luò)或者商業(yè)通用網(wǎng)絡(luò)互相連接,彼此協(xié)同計算,作為整體提供數(shù)據(jù)庫服務(wù)。非共享數(shù)據(jù)庫集群有完全的可伸縮性、高可用、高性能、優(yōu)秀的性價比、資源共享等優(yōu)勢。
簡單來說,MPP是將任務(wù)并行的分散到多個服務(wù)器和節(jié)點(diǎn)上,在每個節(jié)點(diǎn)上計算完成后,將各自部分的結(jié)果匯總在一起得到最終的結(jié)果(與Hadoop相似)。
2、MPP(大規(guī)模并行處理)架構(gòu)
(MPP架構(gòu))
3、 MPP架構(gòu)特征
● 任務(wù)并行執(zhí)行;
● 數(shù)據(jù)分布式存儲(本地化);
● 分布式計算;
● 私有資源;
● 橫向擴(kuò)展;
● Shared Nothing架構(gòu)。
4、 MPP服務(wù)器架構(gòu)
它由多個SMP服務(wù)器通過一定的節(jié)點(diǎn)互聯(lián)網(wǎng)絡(luò)進(jìn)行連接,協(xié)同工作,完成相同的任務(wù),從用戶的角度來看是一個服務(wù)器系統(tǒng)。其基本特征是由多個SMP服務(wù)器(每個SMP服務(wù)器稱節(jié)點(diǎn))通過節(jié)點(diǎn)互聯(lián)網(wǎng)絡(luò)連接而成,每個節(jié)點(diǎn)只訪問自己的本地資源(內(nèi)存、存儲等),是一種完全無共享(Share Nothing)結(jié)構(gòu),因而擴(kuò)展能力最好,理論上其擴(kuò)展無限制。
5、MPPDB
MPPDB是一款 Shared Nothing 架構(gòu)的分布式并行結(jié)構(gòu)化數(shù)據(jù)庫集群,具備高性能、高可用、高擴(kuò)展特性,可以為超大規(guī)模數(shù)據(jù)管理提供高性價比的通用計算平臺,并廣泛地用于支撐各類數(shù)據(jù)倉庫系統(tǒng)、BI 系統(tǒng)和決策支持系統(tǒng)
6、MPPDB架構(gòu)
MPP 采用完全并行的MPP + Shared Nothing 的分布式扁平架構(gòu),這種架構(gòu)中的每一個節(jié)點(diǎn)(node)都是獨(dú)立的、自給的、節(jié)點(diǎn)之間對等,而且整個系統(tǒng)中不存在單點(diǎn)瓶頸,具有非常強(qiáng)的擴(kuò)展性。
7、 MPPDB特征
MPP 具備以下技術(shù)特征:
1) 低硬件成本:完全使用 x86 架構(gòu)的 PC Server,不需要昂貴的 Unix 服務(wù)器和磁盤陣列;
2) 集群架構(gòu)與部署:完全并行的 MPP + Shared Nothing 的分布式架構(gòu),采用 Non-Master 部署,節(jié)點(diǎn)對等的扁平結(jié)構(gòu);
3) 海量數(shù)據(jù)分布壓縮存儲:可處理 PB 級別以上的結(jié)構(gòu)化數(shù)據(jù),采用 hash分布、random 存儲策略進(jìn)行數(shù)據(jù)存儲;同時采用先進(jìn)的壓縮算法,減少存儲數(shù)據(jù)所需的空間,可以將所用空間減少 1~20 倍,并相應(yīng)地提高 I/O 性能;
4) 數(shù)據(jù)加載高效性:基于策略的數(shù)據(jù)加載模式,集群整體加載速度可達(dá)2TB/h;
5) 高擴(kuò)展、高可靠:支持集群節(jié)點(diǎn)的擴(kuò)容和縮容,支持全量、增量的備份/恢復(fù);
6) 高可用、易維護(hù):數(shù)據(jù)通過副本提供冗余保護(hù),自動故障探測和管理,自動同步元數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)。提供圖形化工具,以簡化管理員對數(shù)據(jù)庫的管理工作;
7) 高并發(fā):讀寫不互斥,支持?jǐn)?shù)據(jù)的邊加載邊查詢,單個節(jié)點(diǎn)并發(fā)能力大于 300 用戶;
8) 行列混合存儲:提供行列混合存儲方案,從而提高了列存數(shù)據(jù)庫特殊查詢場景的查詢響應(yīng)耗時;
9) 標(biāo)準(zhǔn)化:支持SQL92 標(biāo)準(zhǔn),支持 C API、ODBC、JDBC、ADO.NET 等接口規(guī)范。
8、 常見MPPDB
● GREENPLUM(EMC)
● Asterdata(Teradata)
● Nettezza(IBM)
● Vertica(HP)
● GBase 8a MPP cluster(南大通用)
9、 MPPDB、Hadoop與傳統(tǒng)數(shù)據(jù)庫技術(shù)對比與適用場景
MPPDB與Hadoop都是將運(yùn)算分布到節(jié)點(diǎn)中獨(dú)立運(yùn)算后進(jìn)行結(jié)果合并(分布式計算),但由于依據(jù)的理論和采用的技術(shù)路線不同而有各自的優(yōu)缺點(diǎn)和適用范圍。兩種技術(shù)以及傳統(tǒng)數(shù)據(jù)庫技術(shù)的對比如下:
綜合而言,Hadoop和MPP兩種技術(shù)的特定和適用場景為:
● Hadoop在處理非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)上具備優(yōu)勢,尤其適合海量數(shù)據(jù)批處理等應(yīng)用要求。
● MPP適合替代現(xiàn)有關(guān)系數(shù)據(jù)機(jī)構(gòu)下的大數(shù)據(jù)處理,具有較高的效率。
MPP適合多維度數(shù)據(jù)自助分析、數(shù)據(jù)集市等;Hadoop適合海量數(shù)據(jù)存儲查詢、批量數(shù)據(jù)ETL、非機(jī)構(gòu)化數(shù)據(jù)分析(日志分析、文本分析)等。
由上述對比可預(yù)見未來大數(shù)據(jù)存儲與處理趨勢:MPPDB+Hadoop混搭使用,用MPP處理PB級別的、高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù),同時為應(yīng)用提供豐富的SQL和事物支持能力;用Hadoop實(shí)現(xiàn)半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)處理。這樣可以同時滿足結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的高效處理需求。
到此,相信大家對“Hadoop 與 MPPDB 的區(qū)別是什么”有了更深的了解,不妨來實(shí)際操作一番吧!這里是創(chuàng)新互聯(lián)網(wǎng)站,更多相關(guān)內(nèi)容可以進(jìn)入相關(guān)頻道進(jìn)行查詢,關(guān)注我們,繼續(xù)學(xué)習(xí)!