一、背景
創(chuàng)新互聯(lián)公司專注為客戶提供全方位的互聯(lián)網(wǎng)綜合服務(wù),包含不限于成都網(wǎng)站制作、網(wǎng)站設(shè)計、費縣網(wǎng)絡(luò)推廣、小程序設(shè)計、費縣網(wǎng)絡(luò)營銷、費縣企業(yè)策劃、費縣品牌公關(guān)、搜索引擎seo、人物專訪、企業(yè)宣傳片、企業(yè)代運營等,從售前售中售后,我們都將竭誠為您服務(wù),您的肯定,是我們最大的嘉獎;創(chuàng)新互聯(lián)公司為所有大學生創(chuàng)業(yè)者提供費縣建站搭建服務(wù),24小時服務(wù)熱線:18982081108,官方網(wǎng)址:www.cdcxhl.com
目前namenode使用了ha的部署模式,但系統(tǒng)會經(jīng)常出現(xiàn)ha的自動切換(namenode節(jié)點其實正常)。經(jīng)過調(diào)研發(fā)現(xiàn)可能的原因如下:
HealthMonitor check本地namenode的rpc端口時超時,導(dǎo)致HealthMonitor認為namenode掛掉。
zk上的session timeout,導(dǎo)致丟掉當前持有的active鎖(temp節(jié)點),引起自動切換。
二、優(yōu)化
下面的優(yōu)化將針對1)和2)調(diào)整相應(yīng)的超時參數(shù),看是否起效。修改core-site.xml
ha.health-monitor.rpc-timeout.ms 300000 ha.zookeeper.session-timeout.ms 180000
無,不需要重啟hadoop,不會引起namenode切換
下面操作假設(shè)master1(active),master2(standby),只有按照該順序操作,才能實現(xiàn)namenode不切換
1)登陸master2(standby),注釋掉crontab中的restart-zkfc.sh任務(wù),
執(zhí)行
sbin/hadoop-daemon.sh stop zkfc
2)登陸master1(active),注釋掉crotab中的restart-zkfc.sh任務(wù),執(zhí)行
sbin/hadoop-daemon.sh stop zkfc
3)備份master1和master2的core-site.xml文件,將上述配置項加到master1和master2的core-site.xml配置文件中
4)登陸master1(active),執(zhí)行
sbin/hadoop-daemon.sh start zkfc
5)登陸master2(standby),執(zhí)行
sbin/hadoop-daemon.sh start zkfc
6)check
hadoop集群狀態(tài)
7)重要!!!
登錄master1和master2,恢復(fù)crontab中的restart-zkfc.sh任務(wù)
8)完成
1)需要先注釋掉機器上的crontab任務(wù)restart-zkfc.sh,否則該程序會自動拉起zkfc進程。導(dǎo)致namenode
active產(chǎn)生切換
2)任務(wù)完成后要恢復(fù)crontab中注釋掉的restart-zkfc.sh任務(wù)