真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

Hadoop機架感知-創(chuàng)新互聯(lián)

背景

最近在整理以前學過的大數(shù)據(jù)相關(guān)知識,今天從Hadoop的機架感知開始,Hadoop機架感知的實現(xiàn)有2種方式:
1)、通過實現(xiàn)一個Java接口DNSToSwitchMapping,然后在core-site.xml配置文件中配置net.topology.node.switch.mapping.impl,其值是實現(xiàn)DNSToSwitchMapping的類的全路徑,例如:

目前累計服務(wù)客戶近1000家,積累了豐富的產(chǎn)品開發(fā)及服務(wù)經(jīng)驗。以網(wǎng)站設(shè)計水平和技術(shù)實力,樹立企業(yè)形象,為客戶提供成都網(wǎng)站設(shè)計、成都網(wǎng)站制作、網(wǎng)站策劃、網(wǎng)頁設(shè)計、網(wǎng)絡(luò)營銷、VI設(shè)計、網(wǎng)站改版、漏洞修補等服務(wù)。創(chuàng)新互聯(lián)始終以務(wù)實、誠信為根本,不斷創(chuàng)新和提高建站品質(zhì),通過對領(lǐng)先技術(shù)的掌握、對創(chuàng)意設(shè)計的研究、對客戶形象的視覺傳遞、對應用系統(tǒng)的結(jié)合,為客戶提供更好的一站式互聯(lián)網(wǎng)解決方案,攜手廣大客戶,共同發(fā)展進步。

             net.topology.node.switch.mapping.impl
             com.inspur.rackawar.test.MyDNSToSwitchMapping
 

2)、大多數(shù)安裝并不需要額外實現(xiàn)新的接口,只需要使用默認的ScriptBasedMapping實現(xiàn)即可,它運行用戶定義的腳本來描述映射關(guān)系。腳本的存放路徑通過core-site.xml文件中的配置項topology.script.file.name控制。只要不是非常復雜的業(yè)務(wù),我個人推薦使用第二種方式,靈活簡單。
Hadoop的分布式集群通常包含非常多的服務(wù)器,由于受到機架槽位和交換機網(wǎng)口的限制,通常大型的分布式集群都會跨好幾個機架,由多個機架上的服務(wù)器共同組成一個分布式集群。機架內(nèi)的服務(wù)器之間的網(wǎng)絡(luò)速度通常都會高于跨機架服務(wù)器之間的網(wǎng)絡(luò)速度,并且機架之間服務(wù)器的網(wǎng)絡(luò)通信通常受到上層交換機間網(wǎng)絡(luò)帶寬的限制。
具體到Hadoop集群,由于hadoop的HDFS對數(shù)據(jù)文件的分布式存放是按照分塊block存儲,每個block會有多個副本(默認為3),并且為了數(shù)據(jù)的安全和高效,所以hadoop默認對3個副本的存放策略為:
第一個block副本放在和client所在的node里(如果client不在集群范圍內(nèi),則這第一個node是隨機選取的)。
第二個副本放置在與第一個節(jié)點不同的機架中的node中(隨機選擇)。
第三個副本放置在與第一個副本所在節(jié)點同一機架的另一個節(jié)點上。
如果還有更多的副本就隨機放在集群的node里。
這樣的策略可以保證對該block所屬文件的訪問能夠優(yōu)先在本rack下找到,如果整個rack發(fā)生了異常,也可以在另外的rack上找到該block的副本。這樣足夠的高效,并且同時做到了數(shù)據(jù)的容錯。

但是,hadoop對機架的感知并非是自適應的,亦即,hadoop集群分辨某臺slave機器是屬于哪個rack并非是智能感知的,而是需要hadoop的管理者人為的告知hadoop哪臺機器屬于哪個rack,這樣在hadoop的namenode啟動初始化時,會將這些機器與rack的對應信息保存在內(nèi)存中,用來作為對接下來所有的HDFS的寫塊操作分配datanode列表時(比如3個block對應三臺datanode)的選擇datanode策略,做到hadoop allocate block的策略:盡量將三個副本分布到不同的rack。
接下來的問題就是:通過什么方式能夠告知hadoop namenode哪些slaves機器屬于哪個rack?以下是配置步驟。

配置

默認情況下,hadoop的機架感知是沒有被啟用的。所以,在通常情況下,hadoop集群的HDFS在選機器的時候,是隨機選擇的,也就是說,很有可能在寫數(shù)據(jù)時,hadoop將第一塊數(shù)據(jù)block1寫到了rack1上,然后隨機的選擇下將block2寫入到了rack2下,此時兩個rack之間產(chǎn)生了數(shù)據(jù)傳輸?shù)牧髁浚俳酉聛?,在隨機的情況下,又將block3重新又寫回了rack1,此時,兩個rack之間又產(chǎn)生了一次數(shù)據(jù)流量。在job處理的數(shù)據(jù)量非常的大,或者往hadoop推送的數(shù)據(jù)量非常大的時候,這種情況會造成rack之間的網(wǎng)絡(luò)流量成倍的上升,成為性能的瓶頸,進而影響作業(yè)的性能以至于整個集群的服務(wù)。
要將hadoop機架感知的功能啟用,配置非常簡單,在namenode所在機器的core-site.xml配置文件中配置一個選項:


            topology.script.file.name
            /software/hadoop/etc/hadoop/topology.py

這個配置選項的value指定為一個可執(zhí)行程序,通常為一個腳本,該腳本接受一個參數(shù),輸出一個值。接受的參數(shù)通常為某臺datanode機器的ip地址,而輸出的值通常為該ip地址對應的datanode所在的rack,例如”/dc1/rack1”。Namenode啟動時,會判斷該配置選項是否為空,如果非空,則表示已經(jīng)用機架感知的配置,此時namenode會根據(jù)配置尋找該腳本,并在接收到每一個datanode的heartbeat時,將該datanode的ip地址作為參數(shù)傳給該腳本運行,并將得到的輸出作為該datanode所屬的機架,保存到內(nèi)存的一個map中。
至于腳本的編寫,就需要將真實的網(wǎng)絡(luò)拓樸和機架信息了解清楚后,通過該腳本能夠?qū)C器的ip地址正確的映射到相應的機架上去。一個簡單的實現(xiàn)如下:

#!/usr/bin/python
#coding=utf-8
import sys

rack={"192.168.137.201":"/dc1/rack1",
          "192.168.137.202":"/dc1/rack1",
          "192.168.137.203":"/dc1/rack2",
          "192.168.137.204":"/dc1/rack2",
          "s201":"/dc1/rack1",
          "s202":"/dc1/rack1",
         "s203":"/dc1/rack2",
         "s204":"/dc1/rack2"
        }

if __name__=="__main__":
   print rack.get(sys.argv[1],"/default-rack")

由于沒有找到確切的文檔說明 到底是主機名還是ip地址會被傳入到腳本,所以在腳本中最好兼容主機名和ip地址。

并且要賦予該python文件有執(zhí)行的權(quán)限:chmod u+x topology.py
chmod g+x topology.py

重啟namenode,如果配置成功,namenode啟動日志中會輸出:

2017-12-12 20:47:03,923 INFO org.apache.hadoop.net.NetworkTopology: Adding a new node: /dc1/rack1/192.168.137.201:50010
這個時候說明Hadoop的機架感知已被啟用。
查看HADOOP機架信息命令:

[hadoop@s200 hadoop]$ hdfs dfsadmin -printTopology
Rack: /dc1/rack1
   192.168.137.201:50010 (s201)
   192.168.137.202:50010 (s202)

Rack: /dc1/rack2
   192.168.137.203:50010 (s203)
   192.168.137.204:50010 (s204)

需要注意:
python腳本一定要在Linux服務(wù)器上創(chuàng)建,不然在windows創(chuàng)建之后上傳會出現(xiàn)意想不到的一些錯誤;

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機、免備案服務(wù)器”等云主機租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應用場景需求。


分享標題:Hadoop機架感知-創(chuàng)新互聯(lián)
URL分享:http://weahome.cn/article/iiidd.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部