這篇文章主要介紹“Hadoop NameNode是什么”,在日常操作中,相信很多人在Hadoop NameNode是什么問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”Hadoop NameNode是什么”的疑惑有所幫助!接下來,請跟著小編一起來學(xué)習(xí)吧!
成都創(chuàng)新互聯(lián)公司主要企業(yè)基礎(chǔ)官網(wǎng)建設(shè),電商平臺建設(shè),移動手機(jī)平臺,小程序定制開發(fā)等一系列專為中小企業(yè)按需策劃設(shè)計產(chǎn)品體系;應(yīng)對中小企業(yè)在互聯(lián)網(wǎng)運(yùn)營的各種問題,為中小企業(yè)在互聯(lián)網(wǎng)的運(yùn)營中保駕護(hù)航。
"運(yùn)行Hadoop"是什么意思?
這意味著在網(wǎng)絡(luò)分布的不同服務(wù)器上運(yùn)行一組守護(hù)進(jìn)程(daemons)。這些守護(hù)進(jìn)程有特殊的角色,一些僅存在于單個服務(wù)器上,一些則運(yùn)行在多個服務(wù)器上。
這些角色都有誰?
NameNode(名稱節(jié)點)
DataNode(數(shù)據(jù)節(jié)點)
Secondary NameNode(次名稱節(jié)點)
JobTracker(作業(yè)跟蹤節(jié)點)
TaskTracker(任務(wù)跟蹤節(jié)點)
分布式存儲采用了神馬結(jié)構(gòu)?
分布式存儲系統(tǒng)被稱為Hadoop文件系統(tǒng),或簡稱為HDFS。
Hadoop Distribution File System
Hadoop在分布式計算與分布式存儲中都采用了主/從(master/slave)結(jié)構(gòu)。
NameNode是什么,干啥的?
Hadoop守護(hù)進(jìn)程中最重要的一個。
NameNode位于HDFS的主端,它指導(dǎo)從端的DataNode執(zhí)行底層的I/O任務(wù)。
NamNode跟蹤文件如何被分割成文件塊,而這些塊又被哪些節(jié)點存儲,以及分布式文件系統(tǒng)的整體運(yùn)行狀態(tài)是否正常。
運(yùn)行NameNode消耗大量的內(nèi)存和I/O資源。因此,為了減輕機(jī)器的負(fù)債,駐留NameNode的服務(wù)器通常不會存儲用戶數(shù)據(jù)或者執(zhí)行MapReduce程序的計算任務(wù)。這意味著NameNode服務(wù)器不會同時是DataNode或者TaskTracker
不過NameNode的重要性也帶來了一個負(fù)面影響-Hadoop集群的單點失效。對于任何其他的守護(hù)進(jìn)程,如果它們所駐留的節(jié)點發(fā)生軟件或硬件失效,Hadoop集群很可能還會繼續(xù)平穩(wěn)運(yùn)行,不然你還可以快速重啟這個節(jié)點。但這樣的方法并不適用于NameNode。
DataNode是什么,干啥的?
每個從節(jié)點會駐留一個DataNode守護(hù)進(jìn)程,來執(zhí)行分布式文件系統(tǒng)的繁重工作-將HDFS數(shù)據(jù)塊讀取或者寫入到本地文件系統(tǒng)的實際文件中。
當(dāng)對HDFS文件進(jìn)行讀寫時,文件被分割為多個塊,由NameNode告知客戶端每個數(shù)據(jù)塊駐留在哪個DataNode。客戶端直接與DataNode守護(hù)進(jìn)程通信,來處理與數(shù)據(jù)塊相對應(yīng)的本地文件。而后,DataNode會與其他DataNode進(jìn)行通信,復(fù)制這些數(shù)據(jù)塊以實現(xiàn)冗余。
NameNode和DataNode交互?
在HDFS中交互,NameNode跟蹤文件的元數(shù)據(jù)。
NameNode持有的文件的元數(shù)據(jù)是?
描述系統(tǒng)中所包含的文件以及每個文件如何被分割為數(shù)據(jù)塊。DataNode提供數(shù)據(jù)塊的備份存儲,并持續(xù)不斷地向NameNode報告,以保持元數(shù)據(jù)為最新狀態(tài)。
DataNode上的文件存儲是怎么存的?
在HDFS上文件是被分成數(shù)據(jù)塊存儲的,默認(rèn)大小(64MB),由NameNode指定這些文件塊存儲在哪些DataNode中,每個文件塊默認(rèn)有3個副本,確保如果一個DataNode垮掉,數(shù)據(jù)不會丟失。初始化時,每個DataNode將當(dāng)前存儲的數(shù)據(jù)塊告知NameNode,初始化完成之后,DataNode也會不斷的更新本地信息給NameNode,并接收指令。
Secondary NameNode是干什么的?
Secondary NameNode(SNN)是一個用于監(jiān)測HDFS集群狀態(tài)的輔助守護(hù)進(jìn)程。就像NameNode一樣,每個集群有一個SNN,它通常也獨(dú)占一臺服務(wù)器,該服務(wù)器不會運(yùn)行其他的DataNode或TaskTacker守護(hù)進(jìn)程。SNN與NameNode的不同在于它不接收或記錄HDFS的任何實時變化。相反,它與NameNode通信,根據(jù)集群所配置的時間間隔獲取HDFS元數(shù)據(jù)快照。
如前所述,NameNode是Hadoop集群的單一故障點,而SNN的快照可以有助于減少停機(jī)的時間并降低數(shù)據(jù)丟失的風(fēng)險。然而,NameNode的失效處理需要人工干預(yù),即手動地重新配置集群,將SNN用作主要得NameNode。
JobTracker是什么?
JobTracker守護(hù)進(jìn)程是應(yīng)用程序和Hadoop之間的紐帶。
JobTracker做了些什么?
一旦提交代碼到集群上,JobTracker就會確定執(zhí)行計劃,包括決定處理哪些文件、為不同的任務(wù)分配節(jié)點以及監(jiān)控所有任務(wù)的運(yùn)行。如果任務(wù)失敗,JobTacker將自動重啟任務(wù),但所分配的節(jié)點可能會不同,同時受到預(yù)定義的重試次數(shù)限制。
一個Hadoop集群有幾個JobTracker的守護(hù)進(jìn)程?
每個Hadoop集群只有一個JobTracker守護(hù)進(jìn)程,它通常運(yùn)行在服務(wù)器集群的主節(jié)點上。
TaskTracker是什么?
與存儲的守護(hù)進(jìn)程一樣,計算的守護(hù)進(jìn)程也遵循主/從架構(gòu):JobTracker作為主節(jié)點,檢測MapReduce作業(yè)的整個執(zhí)行過程,同時,TaskTracker管理各個任務(wù)在每個從節(jié)點上的執(zhí)行情況。
每個TaskTracker負(fù)責(zé)執(zhí)行由JobTracker分配的單項任務(wù)。雖然每個從節(jié)點上僅有一個TaskTracker,但每個TaskTracker可以生產(chǎn)多個JVM(Java虛擬機(jī))來并行地處理許多map或reduce任務(wù)。
TaskTracker的一個職責(zé)是持續(xù)不斷地與JobTracker通信。如果JobTracker在指定得時間內(nèi)沒有收到來自TaskTracker的"心跳",它會假定TaskTracker已經(jīng)崩潰了,進(jìn)而重新提交相應(yīng)的任務(wù)到集群中的其他節(jié)點。
JobTracker是如何調(diào)用TaskTracker的?
JobTracker和TaskTracker的交互,當(dāng)客戶端調(diào)用JobTracker來啟動一個數(shù)據(jù)處理作業(yè)時,JobTacker會將工作切分,并分配不同的map和reduce任務(wù)到集群中的每個TaskTracker上。
一個典型的Hadoop拓?fù)浣Y(jié)構(gòu)特點是?
在主節(jié)點上運(yùn)行NameNode和JobTracker的守護(hù)進(jìn)程,并使用獨(dú)立的節(jié)點運(yùn)行SNN以防主節(jié)點失效。在小型集群中,SNN也可以駐留在某一個從節(jié)點上,而在大型集群中,連NameNode和JobTracker都會分別駐留在兩臺機(jī)器上。每個從節(jié)點均駐留一個DataNode和TaskTracker,從而在存儲數(shù)據(jù)的同一節(jié)點上執(zhí)行任務(wù)。
到此,關(guān)于“Hadoop NameNode是什么”的學(xué)習(xí)就結(jié)束了,希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學(xué)習(xí),快去試試吧!若想繼續(xù)學(xué)習(xí)更多相關(guān)知識,請繼續(xù)關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編會繼續(xù)努力為大家?guī)砀鄬嵱玫奈恼拢?/p>
分享文章:HadoopNameNode是什么
URL鏈接:http://weahome.cn/article/geedss.html