HADOOP生態(tài)圈知識(shí)概述-創(chuàng)新互聯(lián)

一. hadoop生態(tài)概況

Hadoop是一個(gè)由Apache基金會(huì)所開(kāi)發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下，開(kāi)發(fā)分布式程序。充分利用集群的威力進(jìn)行高速運(yùn)算和存儲(chǔ)。具有可靠、高效、可伸縮的特點(diǎn)。

創(chuàng)新互聯(lián)建站主要從事網(wǎng)站設(shè)計(jì)制作、成都網(wǎng)站建設(shè)、網(wǎng)頁(yè)設(shè)計(jì)、企業(yè)做網(wǎng)站、公司建網(wǎng)站等業(yè)務(wù)。立足成都服務(wù)房山,10余年網(wǎng)站建設(shè)經(jīng)驗(yàn),價(jià)格優(yōu)惠、服務(wù)專業(yè),歡迎來(lái)電咨詢建站服務(wù):13518219792

Hadoop的核心是YARN,HDFS和Mapreduce

下圖是hadoop生態(tài)系統(tǒng)，集成spark生態(tài)圈。在未來(lái)一段時(shí)間內(nèi)，hadoop將于spark共存，hadoop與spark都能部署在yarn、mesos的資源管理系統(tǒng)之上。

HADOOP生態(tài)圈知識(shí)概述

1、HDFS（Hadoop分布式文件系統(tǒng)）

源自于Google的GFS論文，發(fā)表于2003年10月，HDFS是GFS克隆版。

HDFS是Hadoop體系中數(shù)據(jù)存儲(chǔ)管理的基礎(chǔ)。它是一個(gè)高度容錯(cuò)的系統(tǒng)，能檢測(cè)和應(yīng)對(duì)硬件故障，用于在低成本的通用硬件上運(yùn)行。

HDFS簡(jiǎn)化了文件的一致性模型，通過(guò)流式數(shù)據(jù)訪問(wèn)，提供高吞吐量應(yīng)用程序數(shù)據(jù)訪問(wèn)功能，適合帶有大型數(shù)據(jù)集的應(yīng)用程序。

它提供了一次寫入多次讀取的機(jī)制，數(shù)據(jù)以塊的形式，同時(shí)分布在集群不同物理機(jī)器上。

2、Mapreduce（分布式計(jì)算框架）

源自于google的MapReduce論文，發(fā)表于2004年12月，HadoopMapReduce是google MapReduce 克隆版。

MapReduce是一種分布式計(jì)算模型，用以進(jìn)行大數(shù)據(jù)量的計(jì)算。它屏蔽了分布式計(jì)算框架細(xì)節(jié)，將計(jì)算抽象成map和reduce兩部分，

其中Map對(duì)數(shù)據(jù)集上的獨(dú)立元素進(jìn)行指定的操作，生成鍵-值對(duì)形式中間結(jié)果。Reduce則對(duì)中間結(jié)果中相同“鍵”的所有“值”進(jìn)行規(guī)約，以得到最終結(jié)果。

MapReduce非常適合在大量計(jì)算機(jī)組成的分布式并行環(huán)境里進(jìn)行數(shù)據(jù)處理。

3. HBASE（分布式列存數(shù)據(jù)庫(kù)）

源自Google的Bigtable論文，發(fā)表于2006年11月，HBase是GoogleBigtable克隆版。

HBase是一個(gè)建立在HDFS之上，面向列的針對(duì)結(jié)構(gòu)化數(shù)據(jù)的可伸縮、高可靠、高性能、分布式和面向列的動(dòng)態(tài)模式數(shù)據(jù)庫(kù)。

HBase采用了BigTable的數(shù)據(jù)模型：增強(qiáng)的稀疏排序映射表（Key/Value），其中，鍵由行關(guān)鍵字、列關(guān)鍵字和時(shí)間戳構(gòu)成。

HBase提供了對(duì)大規(guī)模數(shù)據(jù)的隨機(jī)、實(shí)時(shí)讀寫訪問(wèn)，同時(shí)，HBase中保存的數(shù)據(jù)可以使用MapReduce來(lái)處理，它將數(shù)據(jù)存儲(chǔ)和并行計(jì)算完美地結(jié)合在一起。

4. Zookeeper（分布式協(xié)作服務(wù)）

源自Google的Chubby論文，發(fā)表于2006年11月，Zookeeper是Chubby克隆版

解決分布式環(huán)境下的數(shù)據(jù)管理問(wèn)題：統(tǒng)一命名，狀態(tài)同步，集群管理，配置同步等

Hadoop的許多組件依賴于Zookeeper，它運(yùn)行在計(jì)算機(jī)集群上面，用于管理Hadoop操作。

5. HIVE（數(shù)據(jù)倉(cāng)庫(kù)）

由facebook開(kāi)源，最初用于解決海量結(jié)構(gòu)化的日志數(shù)據(jù)統(tǒng)計(jì)問(wèn)題。

Hive定義了一種類似SQL的查詢語(yǔ)言(HQL),將SQL轉(zhuǎn)化為MapReduce任務(wù)在Hadoop上執(zhí)行。通常用于離線分析。

HQL用于運(yùn)行存儲(chǔ)在Hadoop上的查詢語(yǔ)句，Hive讓不熟悉MapReduce開(kāi)發(fā)人員也能編寫數(shù)據(jù)查詢語(yǔ)句，然后這些語(yǔ)句被翻譯為Hadoop上面的MapReduce任務(wù)。

6.Pig(ad-hoc腳本）

由yahoo!開(kāi)源，設(shè)計(jì)動(dòng)機(jī)是提供一種基于MapReduce的ad-hoc(計(jì)算在query時(shí)發(fā)生)數(shù)據(jù)分析工具

Pig定義了一種數(shù)據(jù)流語(yǔ)言—PigLatin，它是MapReduce編程的復(fù)雜性的抽象,Pig平臺(tái)包括運(yùn)行環(huán)境和用于分析Hadoop數(shù)據(jù)集的腳本語(yǔ)言(Pig Latin)。

其編譯器將Pig Latin翻譯成MapReduce程序序列將腳本轉(zhuǎn)換為MapReduce任務(wù)在Hadoop上執(zhí)行。通常用于進(jìn)行離線分析。

7.Sqoop(數(shù)據(jù)ETL/同步工具）

Sqoop是SQL-to-Hadoop的縮寫，主要用于傳統(tǒng)數(shù)據(jù)庫(kù)和Hadoop之前傳輸數(shù)據(jù)。數(shù)據(jù)的導(dǎo)入和導(dǎo)出本質(zhì)上是Mapreduce程序，充分利用了MR的并行化和容錯(cuò)性。

Sqoop利用數(shù)據(jù)庫(kù)技術(shù)描述數(shù)據(jù)架構(gòu)，用于在關(guān)系數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)和Hadoop之間轉(zhuǎn)移數(shù)據(jù)。

8.Flume（日志收集工具）

Cloudera開(kāi)源的日志收集系統(tǒng)，具有分布式、高可靠、高容錯(cuò)、易于定制和擴(kuò)展的特點(diǎn)。

它將數(shù)據(jù)從產(chǎn)生、傳輸、處理并最終寫入目標(biāo)的路徑的過(guò)程抽象為數(shù)據(jù)流，在具體的數(shù)據(jù)流中，數(shù)據(jù)源支持在Flume中定制數(shù)據(jù)發(fā)送方，從而支持收集各種不同協(xié)議數(shù)據(jù)。

同時(shí)，F(xiàn)lume數(shù)據(jù)流提供對(duì)日志數(shù)據(jù)進(jìn)行簡(jiǎn)單處理的能力，如過(guò)濾、格式轉(zhuǎn)換等。此外，F(xiàn)lume還具有能夠?qū)⑷罩緦懲鞣N數(shù)據(jù)目標(biāo)（可定制）的能力。

總的來(lái)說(shuō)，F(xiàn)lume是一個(gè)可擴(kuò)展、適合復(fù)雜環(huán)境的海量日志收集系統(tǒng)。當(dāng)然也可以用于收集其他類型數(shù)據(jù)

9. Oozie(工作流調(diào)度器）

Oozie是一個(gè)可擴(kuò)展的工作體系，集成于Hadoop的堆棧，用于協(xié)調(diào)多個(gè)MapReduce作業(yè)的執(zhí)行。它能夠管理一個(gè)復(fù)雜的系統(tǒng)，基于外部事件來(lái)執(zhí)行，外部事件包括數(shù)據(jù)的定時(shí)和數(shù)據(jù)的出現(xiàn)。

Oozie工作流是放置在控制依賴DAG（有向無(wú)環(huán)圖 DirectAcyclic Graph）中的一組動(dòng)作（例如，Hadoop的Map/Reduce作業(yè)、Pig作業(yè)等），其中指定了動(dòng)作執(zhí)行的順序。

Oozie使用hPDL（一種XML流程定義語(yǔ)言）來(lái)描述這個(gè)圖。

10. Yarn(分布式資源管理器）

YARN是下一代MapReduce，即MRv2，是在第一代MapReduce基礎(chǔ)上演變而來(lái)的，主要是為了解決原始Hadoop擴(kuò)展性較差，不支持多計(jì)算框架而提出的。

yarn是下一代 Hadoop 計(jì)算平臺(tái)，yarn是一個(gè)通用的運(yùn)行時(shí)框架，用戶可以編寫自己的計(jì)算框架，在該運(yùn)行環(huán)境中運(yùn)行。

用于自己編寫的框架作為客戶端的一個(gè)lib，在運(yùn)用提交作業(yè)時(shí)打包即可。該框架為提供了以下幾個(gè)組件：

資源管理：包括應(yīng)用程序管理和機(jī)器資源管理
資源雙層調(diào)度
容錯(cuò)性：各個(gè)組件均有考慮容錯(cuò)性
擴(kuò)展性：可擴(kuò)展到上萬(wàn)個(gè)節(jié)點(diǎn)
內(nèi)存DAG計(jì)算模型)

Spark是一個(gè)Apache項(xiàng)目，它被標(biāo)榜為“快如閃電的集群計(jì)算”。它擁有一個(gè)繁榮的開(kāi)源社區(qū)，并且是目前最活躍的Apache項(xiàng)目。

最早Spark是UC BerkeleyAMP lab所開(kāi)源的類Hadoop MapReduce的通用的并行計(jì)算框架。

Spark提供了一個(gè)更快、更通用的數(shù)據(jù)處理平臺(tái)。和Hadoop相比，Spark可以讓你的程序在內(nèi)存中運(yùn)行時(shí)速度提升100倍，或者在磁盤上運(yùn)行時(shí)速度提升10倍

12. Kafka（分布式消息隊(duì)列）

Kafka是Linkedin于2010年12月份開(kāi)源的消息系統(tǒng)，它主要用于處理活躍的流式數(shù)據(jù)。

活躍的流式數(shù)據(jù)在web網(wǎng)站應(yīng)用中非常常見(jiàn)，這些數(shù)據(jù)包括網(wǎng)站的pv、用戶訪問(wèn)了什么內(nèi)容，搜索了什么內(nèi)容等。

這些數(shù)據(jù)通常以日志的形式記錄下來(lái)，然后每隔一段時(shí)間進(jìn)行一次統(tǒng)計(jì)處理。

13.Ambari（安裝部署配置管理工具）

Apache Ambari 的作用來(lái)說(shuō)，就是創(chuàng)建、管理、監(jiān)視 Hadoop 的集群，是為了讓 Hadoop 以及相關(guān)的大數(shù)據(jù)軟件更容易使用的一個(gè)web工具。

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)cdcxhl.cn，海內(nèi)外云服務(wù)器15元起步，三天無(wú)理由+7*72小時(shí)售后在線，公司持有idc許可證，提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案，具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì)，專為企業(yè)上云打造定制，能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。

分享名稱：HADOOP生態(tài)圈知識(shí)概述-創(chuàng)新互聯(lián)
網(wǎng)頁(yè)URL：http://weahome.cn/article/pccgs.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

HADOOP生態(tài)圈知識(shí)概述-創(chuàng)新互聯(lián)

一. hadoop生態(tài)概況

1、HDFS（Hadoop分布式文件系統(tǒng)）

2、Mapreduce（分布式計(jì)算框架）

3. HBASE（分布式列存數(shù)據(jù)庫(kù)）

4. Zookeeper（分布式協(xié)作服務(wù)）

5. HIVE（數(shù)據(jù)倉(cāng)庫(kù)）

6.Pig(ad-hoc腳本）

7.Sqoop(數(shù)據(jù)ETL/同步工具）

8.Flume（日志收集工具）

9. Oozie(工作流調(diào)度器）

10. Yarn(分布式資源管理器）

內(nèi)存DAG計(jì)算模型)

12. Kafka（分布式消息隊(duì)列）

13.Ambari（安裝部署配置管理工具）

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

HADOOP生態(tài)圈知識(shí)概述-創(chuàng)新互聯(lián)

一. hadoop生態(tài)概況

1、HDFS（Hadoop分布式文件系統(tǒng)）

2、Mapreduce（分布式計(jì)算框架）

3. HBASE（分布式列存數(shù)據(jù)庫(kù)）

4. Zookeeper（分布式協(xié)作服務(wù)）

5. HIVE（數(shù)據(jù)倉(cāng)庫(kù)）

6.Pig(ad-hoc腳本）

7.Sqoop(數(shù)據(jù)ETL/同步工具）

8.Flume（日志收集工具）

9. Oozie(工作流調(diào)度器）

10. Yarn(分布式資源管理器）

內(nèi)存DAG計(jì)算模型)

12. Kafka（分布式消息隊(duì)列）

13.Ambari（安裝部署配置管理工具）

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管

1、HDFS（Hadoop分布式文件系統(tǒng)）

2、Mapreduce（分布式計(jì)算框架）