真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

Hadoop技術(shù)體系的示例分析

這篇文章主要介紹了Hadoop技術(shù)體系的示例分析,具有一定借鑒價(jià)值,感興趣的朋友可以參考下,希望大家閱讀完這篇文章之后大有收獲,下面讓小編帶著大家一起了解一下。

創(chuàng)新互聯(lián)建站專注于吳起網(wǎng)站建設(shè)服務(wù)及定制,我們擁有豐富的企業(yè)做網(wǎng)站經(jīng)驗(yàn)。 熱誠為您提供吳起營銷型網(wǎng)站建設(shè),吳起網(wǎng)站制作、吳起網(wǎng)頁設(shè)計(jì)、吳起網(wǎng)站官網(wǎng)定制、重慶小程序開發(fā)公司服務(wù),打造吳起網(wǎng)絡(luò)公司原創(chuàng)品牌,更為您提供吳起網(wǎng)站排名全網(wǎng)營銷落地服務(wù)。

Hadoop的兩大核心就是HDFS和MapReduce,而整個Hadoop的體系結(jié)構(gòu)主要是通過HDFS的分布式存儲作為底層數(shù)據(jù)支持的。并且會通過MapReduce來進(jìn)行計(jì)算分析。

Hadoop1.x的核心:

1. Hadoop Common

2. Hadoop Distributed File System(HDFS)

3. Hadoop MapReduce

Hadoop2.x的核心:

1. Hadoop Common

2. Hadoop Distributed File System(HDFS)

3. Hadoop MapReduce

4. Hadoop YARN

Hadoop1.x生態(tài)系統(tǒng):

Hadoop技術(shù)體系的示例分析

Hadoop2.x生態(tài)系統(tǒng)圖:

Hadoop技術(shù)體系的示例分析

那么我們從理解的角度來看,自底而上,分別是數(shù)據(jù)存儲,數(shù)據(jù)整合管理,數(shù)據(jù)計(jì)算,數(shù)據(jù)挖掘處理這么幾個過程。而各層之間貫穿著ETL和日志收集工具。這就是Hadoop粗略的一個知識架構(gòu)。下面我們一個個的來看,整個Hadoop的技術(shù)生態(tài)體系板塊是怎樣的。

1. HDFS

分布式文件系統(tǒng),將一個文件分成多個塊,分別存儲(拷貝)到不同的節(jié)點(diǎn)上.它是Hadoop體系中數(shù)據(jù)存儲管理的基礎(chǔ)。它是一個高度容錯的系統(tǒng),能檢測和應(yīng)對硬件故障,用于在低成本的通用硬件上運(yùn)行。HDFS簡化了文件的一致性模型,通過流式數(shù)據(jù)訪問,提供高吞吐量應(yīng)用程序數(shù)據(jù)訪問功能,適合帶有大型數(shù)據(jù)集的應(yīng)用程序。提供了hadoop運(yùn)算過程中的數(shù)據(jù)存儲、數(shù)據(jù)備份、數(shù)據(jù)錯誤校驗(yàn)等功能。

2. MapReduce

分布式計(jì)算框架,它是一種分布式計(jì)算處理模型和執(zhí)行環(huán)境,用于進(jìn)行大數(shù)據(jù)量的計(jì)算。共包括Map和Reduce部分。其中Map接受一個鍵值對(key-value),產(chǎn)生一組中間鍵值對。MapReduce框架會將map函數(shù)產(chǎn)生的中間鍵值對里鍵相同的值傳遞給一個reduce函數(shù)。Reduce函數(shù):接受一個鍵,以及相關(guān)的一組值,將這組值進(jìn)行合并產(chǎn)生一組規(guī)模更小的值(通常只有一個或零個值)。

3. hive

基于Hadoop的數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供類似SQL一樣的查詢語言HiveQL來管理這些數(shù)據(jù)。Hive定義了一種類似SQL的查詢語言(HQL),將SQL轉(zhuǎn)化為MapReduce任務(wù)在Hadoop上執(zhí)行。通常用于離線分析。

4. Pig

Pig是一個基于Hadoop的大數(shù)據(jù)分析平臺,它提供了一個叫PigLatin的高級語言來表達(dá)大數(shù)據(jù)分析程序,將腳本轉(zhuǎn)換為MapReduce任務(wù)在Hadoop上執(zhí)行。通常用于進(jìn)行離線分析。

5. Mahoutt

數(shù)據(jù)挖掘算法庫,Mahout起源于2008年,最初是Apache Lucent的子項(xiàng)目,它在極短的時(shí)間內(nèi)取得了長足的發(fā)展,現(xiàn)在是Apache的頂級項(xiàng)目。Mahout的主要目標(biāo)是創(chuàng)建一些可擴(kuò)展的機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實(shí)現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。Mahout現(xiàn)在已經(jīng)包含了聚類、分類、推薦引擎(協(xié)同過濾)和頻繁集挖掘等廣泛使用的數(shù)據(jù)挖掘方法。除了算法,Mahout還包含數(shù)據(jù)的輸入/輸出工具、與其他存儲系統(tǒng)(如數(shù)據(jù)庫、MongoDB 或Cassandra)集成等數(shù)據(jù)挖掘支持架構(gòu)。

6. ZooKeeper

分布式協(xié)作服務(wù),是一個針對大型分布式系統(tǒng)的可靠協(xié)調(diào)系統(tǒng),提供包括配置維護(hù),名字服務(wù),分布式同步和組服務(wù)等功能。Hadoop的管理就是用的ZooKeeper

7. HBase

HBase是一個分布式列存數(shù)據(jù)庫,它基于Hadoop之上提供了類似BigTable的功能。HBase是一個針對結(jié)構(gòu)化數(shù)據(jù)的可伸縮、高可靠、高性能、分布式和面向列的動態(tài)模式數(shù)據(jù)庫。和傳統(tǒng)關(guān)系數(shù)據(jù)庫不同,HBase采用了BigTable的數(shù)據(jù)模型:增強(qiáng)的稀疏排序映射表(Key/Value),其中,鍵由行關(guān)鍵字、列關(guān)鍵字和時(shí)間戳構(gòu)成。HBase提供了對大規(guī)模數(shù)據(jù)的隨機(jī)、實(shí)時(shí)讀寫訪問,同時(shí),HBase中保存的數(shù)據(jù)可以使用MapReduce來處理,它將數(shù)據(jù)存儲和并行計(jì)算完美地結(jié)合在一起。

8. Sqoop

數(shù)據(jù)同步工具,SQL-to-Hadoop的縮寫。Sqoop是一個Hadoop和關(guān)系型數(shù)據(jù)庫之間的數(shù)據(jù)轉(zhuǎn)移工具。可將關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)導(dǎo)入到Hadoop的HDFS中,也可將HDFS中的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫中主要用于傳統(tǒng)數(shù)據(jù)庫和Hadoop之前傳輸數(shù)據(jù)。數(shù)據(jù)的導(dǎo)入和導(dǎo)出本質(zhì)上是Mapreduce程序,充分利用了MR的并行化和容錯性。

9. Flume

日志收集工具,Cloudera開源的日志收集系統(tǒng),具有分布式、高可靠、高容錯、易于定制和擴(kuò)展的特點(diǎn)。它將數(shù)據(jù)從產(chǎn)生、傳輸、處理并最終寫入目標(biāo)的路徑的過程抽象為數(shù)據(jù)流,在具體的數(shù)據(jù)流中,數(shù)據(jù)源支持在Flume中定制數(shù)據(jù)發(fā)送方,從而支持收集各種不同協(xié)議數(shù)據(jù)。同時(shí),F(xiàn)lume數(shù)據(jù)流提供對日志數(shù)據(jù)進(jìn)行簡單處理的能力,如過濾、格式轉(zhuǎn)換等。此外,F(xiàn)lume還具有能夠?qū)⑷罩緦懲鞣N數(shù)據(jù)目標(biāo)(可定制)的能力。總的來說,F(xiàn)lume是一個可擴(kuò)展、適合復(fù)雜環(huán)境的海量日志收集系統(tǒng)。

10. Ambari

是一個對Hadoop集群進(jìn)行監(jiān)控和管理的基于Web的系統(tǒng)。目前已經(jīng)支持HDFS,MapReduce,Hive,HCatalog,HBase,ZooKeeper,Oozie,Pig和Sqoop等組件。

11.Apache Spark

Apache Spark是提供大數(shù)據(jù)集上快速進(jìn)行數(shù)據(jù)分析的計(jì)算引擎。它建立在HDFS之上,卻繞過了MapReduce使用自己的數(shù)據(jù)處理框架。Spark常用于實(shí)時(shí)查詢、流處理、迭代算法、復(fù)雜操作運(yùn)算和機(jī)器學(xué)習(xí)。

感謝你能夠認(rèn)真閱讀完這篇文章,希望小編分享的“Hadoop技術(shù)體系的示例分析”這篇文章對大家有幫助,同時(shí)也希望大家多多支持創(chuàng)新互聯(lián),關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,更多相關(guān)知識等著你來學(xué)習(xí)!


網(wǎng)頁名稱:Hadoop技術(shù)體系的示例分析
網(wǎng)址分享:http://weahome.cn/article/igsish.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部