- HBASE是用Java語言編寫的,所以在安裝HBASE時,必須安裝jdk
- 安裝HBASE是必須有hadoop平臺
- HBASE和jdk的版本存在兼容性,一定注意
jdk:
hadoop:
① 上傳安裝包(hbase-1.2.6-bin.tar.gz)
②解壓:tar zxvf hbase-1.2.6-bin.tar.gz -C /application/
③配置環(huán)境變量:
export HBASE_HOME=/application/hbase-1.2.6
export PATH=$PATH:$ZOOKEEPER_HOME/bin:$SQOOP_HOME/bin:$HBASE_HOME/bin
source /etc/profie #刷新配置文件
hbase version #查看是否配置成功
④修改hbase的配置文件
cd /application/hbase-1.2.6/conf
hbase-env.sh:
export JAVA_HOME=/application/jdk1.8 #配置jdk
export HBASE_MANAGES_ZK=false #配置使用自己的zookeeper
#psHBASE中必須依賴zookeeper,zookeeper作用是存儲HBASE的尋址入口HBASE自帶的是單機版的,所有需要開啟使用自己的
hbase-site.xml:
hbase.rootdir
hdfs://zzy/hbase
hbase.cluster.distributed
true
hbase.zookeeper.quorum
hadoop01:2181,hadoop02:2181,hadoop03:2181
regionservers:
hadoop01
hadoop02
hadoop03
backup-masters(自行創(chuàng)建):
#配置備份主節(jié)點的節(jié)點
hadoop02
⑤要把 hadoop 的 hdfs-site.xml 和 core-site.xml 放到 hbase-1.2.6/conf 下
因為hadoop集群是HA模式,所以需要配置:
cp /application/hadoop-2.7.6/etc/hadoop/core-site.xml .
cp /application/hadoop-2.7.6/etc/hadoop/hdfs-site.xml .
⑥分發(fā)安裝到各節(jié)點
cd /application/
scp -r hbase-1.2.6 hadoop02:$PWD
scp -r hbase-1.2.6 hadoop03:$PWD
⑦時間同步:
HBase 集群對于時間的同步要求的比 HDFS 嚴格,所以,集群啟動之前千萬記住要進行時間同步,要求相差不要超過 30s。在定時任務中配置定時更新時間。
① 先在每一個節(jié)點zookeeper 集群:zkServer.sh start
②啟動hdfs集群:start-dfs.sh
③啟動hbase:start-hbase.sh(啟動) / stop-hbase.sh(關閉) 最好在主節(jié)點啟動,在哪個節(jié)點啟動哪個節(jié)點就是hmaster。
④ 檢測是否正常啟動:jps
Web界面訪問:http://HBASE主節(jié)點:16010
注意:如果有節(jié)點相應的進程沒有啟動,那么可以手動啟動:
hbase-daemon.sh start master
hbase-daemon.sh start regionserver
在HBASE集群中:有多個主(hmaster)、多個從(RegionServer),每一個從節(jié)點中存儲的是多個Region,每一個Region,是HBASE一張表中分出來的(默認的Region大小為10G)。
集群角色介紹:
是HBASE將一個表中的所有數(shù)據(jù)按照RowKey的不同范圍進行切割的邏輯單元,每一個region負責一定范圍數(shù)據(jù)的讀寫訪問。Region由RegionServer負責管理。HBASE中的region的概念就和hdfs中的數(shù)據(jù)塊的概念差不多。Region 是 HBase 表切分出來的一個分片。Region的大小在1.x版本的時候是1G,在2.X版本的時候是10G。
Region的工作機制:
當客戶端發(fā)送命令(delete/put)的時候,region接收到請求的時候,首先會將數(shù)據(jù)更新到內(nèi)存中,同時將操作記錄到日志(追加),不論做的是什么操作,就會記錄到操作日志中,為了進行數(shù)據(jù)恢復,因為region接收請求的時候,只是將數(shù)據(jù)同步到內(nèi)存,如果節(jié)點一宕機則數(shù)據(jù)丟失,所以通過日志的方式進行數(shù)據(jù)恢復(或者說是持久化)。當然這個日志記錄到一定大小的時候會進行切分,切分出來的叫Hfile,最后到有很多Hfile的時候,會進行日志合并,會將這些Hfile合并一個storeFile,在進行合并的時候,會將日志中的delete和put進行抵消刪除(即一個put操作,如果有一個對應有一個delete操作,則這兩條記錄抵消,在合并的時候不會記錄),最終合并出來的storefile中就會只有put操作而沒有delete操作。
HBASE的主節(jié)點,負責整個集群的狀態(tài)感知、負載分配、負責用戶表的元數(shù)據(jù) (schema)管理(可以配置多個用來實現(xiàn) HA),只有hmaster才有權(quán)利去修改元數(shù)據(jù)。
HBase 的 HMaster 其實就算是宕機一段時間也可以正常對外提供服務的,因為在HMaster在宕機的時候,集群仍然可以進行查詢但是不能進行讀寫。
HMaster的負載:當?shù)谝淮谓⒈淼臅r候,只有一個Region,然后當region的值超過1G的時候,此時HBASE的HMaster會將region進行拆分(如果是2G,一份為二,每一個是1G),拆分后的region可能不存在一個節(jié)點上。由于HBASE是搭建在hadoop之上的,所以region的副本會在hdfs操作。
hmaster的節(jié)點的上下線感知:當如果有一臺Reginaservers宕機了,hmaster會自動將這個宕機節(jié)點中存儲的region通過其他的副本在另外的節(jié)點上復制出來(基于hdfs的副本),當宕機的節(jié)點重新恢復的時候,hmaster又會進行負載,保證每一個Reginaservers中的region的個數(shù)大致相同,(只能保證集群的region的個數(shù)進行負載,如果region的大小不同,不能根據(jù)數(shù)據(jù)的大小進行負載)。
HBase 中真正負責管理 Region 的服務器,也就是負責為客戶端進行表數(shù)據(jù)讀 寫的服務器。每一臺 RegionServer 會管理很多的 Region,一個 RegionServer 上面管理的所有 的region不屬于同一張表。負責Region的拆分,負責和底層的HDFS的存儲交互,負責StoreFile 的合并。
整個 HBase 中的主從節(jié)點協(xié)調(diào),元數(shù)據(jù)的入口,主節(jié)點之間的選舉,集群節(jié)點 之間的上下線感知……都是通過 ZooKeeper 來實現(xiàn)
Client 包含了訪問 HBase 的接口,另外 Client 還維護了對應的 Cache 來加速 HBase 的 訪問,比如 Cache 的.META.元數(shù)據(jù)的信息。(緩存上一個查詢的rowkey的具體位置,方便快速一次查詢)。
另外有需要云服務器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應用場景需求。