Hadoop的相關(guān)概念及系統(tǒng)組成

這篇文章主要介紹“Hadoop的相關(guān)概念及系統(tǒng)組成”，在日常操作中，相信很多人在Hadoop的相關(guān)概念及系統(tǒng)組成問題上存在疑惑，小編查閱了各式資料，整理出簡單好用的操作方法，希望對大家解答”Hadoop的相關(guān)概念及系統(tǒng)組成”的疑惑有所幫助！接下來，請跟著小編一起來學習吧！

專注于為中小企業(yè)提供網(wǎng)站設(shè)計制作、成都網(wǎng)站建設(shè)服務,電腦端+手機端+微信端的三站合一,更高效的管理,為中小企業(yè)蕉嶺免費做網(wǎng)站提供優(yōu)質(zhì)的服務。我們立足成都，凝聚了一批互聯(lián)網(wǎng)行業(yè)人才，有力地推動了千余家企業(yè)的穩(wěn)健成長，幫助中小企業(yè)通過網(wǎng)站建設(shè)實現(xiàn)規(guī)模擴充和轉(zhuǎn)變。

一：Hadoop的相關(guān)概念

1、Hadoop是一個基于java語言的MapReduce框架。

2、Hadoop的改進： a、Hadoop Streaming--任何命令行腳本都可以通過Streaming調(diào)用MapReduce框架。 b、Hadoop Hive：Apache Hive可以把海量數(shù)據(jù)集放入數(shù)據(jù)倉庫中，用戶可以編寫類似SQL語句的Hive查詢語句來查找數(shù)據(jù)，Hive引擎把Hive查詢語句透明的轉(zhuǎn)換為底層MapReduce任務來執(zhí)行，高級用戶可以使用Java語言來編寫用戶自定義函數(shù)（UDF）。Hive也支持標準的ODBC、JDBC數(shù)據(jù)庫驅(qū)動。Hive還可以用來開發(fā)商業(yè)智能分析程序去處理分析存放在Hadoop中的數(shù)據(jù)。 c、Pig：過程性語言,是一種探索大規(guī)模數(shù)據(jù)集的腳本語言。用于描述數(shù)據(jù)流的語言，稱為 Pig latin. d、HBse：一個在HDFS上開發(fā)的面向列的分布式數(shù)據(jù)，可以實時的隨機訪問超大規(guī)模數(shù)據(jù)集。

3、剛開始的時候，Hadoop系統(tǒng)只能做到用戶提交任務之后，以先進先出的模式在集群上執(zhí)行任務。為了解決這樣的問題，Hadoop中出現(xiàn)了更加復雜的任務調(diào)度器：公平調(diào)度器，計算能力調(diào)度器。

4、Hadoop 2.x 相較于 1.x解決了擴展性問題。

二：MapReduce編程模型簡介

5、MapReduce模型有兩個彼此獨立的步驟，這兩個步驟都是可以配置并需要用戶在程序中自定義。 Map：數(shù)據(jù)初始讀取和轉(zhuǎn)換步驟，在這個步驟中，每個獨立的輸入數(shù)據(jù)記錄都進行并行處理。 Reduce：一個數(shù)據(jù)整合或者加和的步驟。在這個步驟中，相關(guān)聯(lián)的所有數(shù)據(jù)記錄都要放在一個計算節(jié)點來處理。

6、Hadoop系統(tǒng)中的MapReduce核心思路： a、將輸入的數(shù)據(jù)在邏輯上分割成多個數(shù)據(jù)塊，每個邏輯數(shù)據(jù)塊被Map任務單獨處理。 b、數(shù)據(jù)塊處理后所得結(jié)果會被劃分到不同的數(shù)據(jù)集，且將數(shù)據(jù)集排序完成。 c、每個經(jīng)過排序的數(shù)據(jù)集傳輸?shù)絉educe任務進行處理。

7、一個Map任務可以在集群的任何節(jié)點上運行，多個Map任務可以并行的運行在集群上。Map任務的主要作用是把輸入的數(shù)據(jù)記錄轉(zhuǎn)換為一個個鍵值對。所有Map任務的輸出數(shù)據(jù)都會進行分區(qū)，并且將每個分區(qū)的數(shù)據(jù)排序。每個分區(qū)對應一個Reduce任務。

三：Hadoop系統(tǒng)的組成

8、Hadoop 1.x守護進程 a、名稱節(jié)點（NameNode）：維護存儲在HDFS上的所有文件的元數(shù)據(jù)。 b、數(shù)據(jù)節(jié)點（DateNode）：把真正的數(shù)據(jù)塊存放在本地硬盤上，這些數(shù)據(jù)塊組成了保存在HDFS上的每個文件。 c、作業(yè)跟蹤器（JobTracker）：負責一個任務的整個執(zhí)行過程。調(diào)度各個子任務到各自的計算節(jié)點運行，時刻監(jiān)控任務運行和計算節(jié)點的健康情況，對失敗的子任務進行重新調(diào)度。 d、任務跟蹤器（TaskTracker）：運行在各個數(shù)據(jù)節(jié)點上，用來啟動和管理各個Map/Reduce任務，與作業(yè)跟蹤器進行通信。

9、Hadoop系統(tǒng)任務分工（1.x）：主節(jié)點（Master）：NameNode/Secondary NameNode/JobTracker 從節(jié)點（Save）:DateNode/TaskTracker

10、HDFS系統(tǒng)提供一個統(tǒng)一的文件系統(tǒng)命名空間，用戶就像使用一個文件系統(tǒng)一樣來存取集群節(jié)點上的數(shù)據(jù)。

11、Hadoop文件的本質(zhì)是塊存儲，有3個備份，存儲在數(shù)據(jù)節(jié)點上。

12、Hadoop借助一個單獨配置的網(wǎng)絡(luò)拓撲文件實現(xiàn)機架感知能力，這個網(wǎng)絡(luò)拓撲文件配置了機架到計算節(jié)點的域名（DNS）名稱之間的映射。

13、名稱節(jié)點上的關(guān)鍵文件： a、fsimage:保存了最近的一次檢查點的HDFS系統(tǒng)元數(shù)據(jù)的持久化狀態(tài)信息。 b、edits：保存了最近的一次檢查點之后到現(xiàn)在的HDFS系統(tǒng)元數(shù)據(jù)的狀態(tài)變化信息。 c、fstime：保存了最近一次檢查點的時間戳。

14、任務跟蹤器（TaskTracker）:接收MapReduce和shuffle這些操作任務的請求，任務跟蹤器接受到一個來自作業(yè)跟蹤器的請求之后，就會啟動一個任務，任務跟蹤器會為這個任務初始化一個新的JVM。

15、作業(yè)跟蹤器（JobTracker）:啟動和監(jiān)控MapReduce作業(yè)。

四：Hadoop 2.x （YARN）：

16、組成：全局資源管理器，節(jié)點管理器，針對每種應用程序的應用程序管理器，調(diào)度器，容器

17、一部分CPU內(nèi)核和一部分內(nèi)存構(gòu)成了一個容器。一個應用程序運行在一個容器內(nèi)，應用程序管理器的一個實例會向全局資源管理器請求獲取資源。調(diào)度器會通過每個節(jié)點的節(jié)點管理器來分配資源（容器）。節(jié)點管理器會向全局資源管理器匯報每個容器的使用情況。

18、集群節(jié)點與容器之間的關(guān)系是：一個節(jié)點可以運行多個容器，但一個容器只能運行在一個節(jié)點之內(nèi)。

19、Hadoop 2.x 解決了原先只能使用MapReduce框架的問題，現(xiàn)在可以在2.x系統(tǒng)上運行更多的框架。

到此，關(guān)于“Hadoop的相關(guān)概念及系統(tǒng)組成”的學習就結(jié)束了，希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習，快去試試吧！若想繼續(xù)學習更多相關(guān)知識，請繼續(xù)關(guān)注創(chuàng)新互聯(lián)網(wǎng)站，小編會繼續(xù)努力為大家?guī)砀鄬嵱玫奈恼拢?/p>
分享題目：Hadoop的相關(guān)概念及系統(tǒng)組成
文章網(wǎng)址：http://weahome.cn/article/ighojs.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

Hadoop的相關(guān)概念及系統(tǒng)組成

其他資訊

網(wǎng)站制作

企業(yè)服務

網(wǎng)站建設(shè)

服務器托管