SYSTEM指標
針對主機系統(tǒng)的監(jiān)控指標具體配置詳情請參考HDP官方文檔
https://docs.cloudera.com/HDPDocuments/Ambari-2.7.3.0/using-ambari-core-services/content/amb_system_servers.html
1.1 指標名稱
CPU的IO/WAIT
指標含義
表示在一個采樣周期內(nèi)有百分之幾的時間屬于以下情況:CPU空閑、并且有仍未完成的I/O請求.
指標圖例
影響因素
1. 此指標的數(shù)值升高的情況,可能會導(dǎo)致HBASE的集群的數(shù)據(jù)查詢RT升高問題,那么此時就需要關(guān)注下面的關(guān)聯(lián)指標是否存在瓶頸。
關(guān)聯(lián)指標
1. 磁盤指標(IO帶寬、IOPS)
2. 網(wǎng)絡(luò)指標(網(wǎng)絡(luò)帶寬、網(wǎng)絡(luò)發(fā)送數(shù)據(jù)包)
常見誤區(qū)
知識參考:http://linuxperf.com/?p=33
1.2 指標名稱
磁盤IO帶寬
指標含義
表示每秒鐘磁盤讀寫的大的字節(jié)數(shù)。
指標圖例
影響因素
1. 磁盤的物理機械特性。(比如磁盤的尋道時間、磁盤的緩存大小)
2. 磁盤的掛在方式。(多塊磁盤做raid)
3. 磁盤的類型。(機械硬盤、SSD盤等)
關(guān)聯(lián)指標
1. CPU的IOWAIT指標(任務(wù)數(shù)多,進程處于等待磁盤數(shù)據(jù)的時候,指標結(jié)果就反應(yīng)異常)。
2. HBASE集群的QPS(高并發(fā)場景下的PQS大?。?。
3. HBASE集群的RT(高并發(fā)場景下的請求響應(yīng)時長【查詢、寫入】)。
4. HBASE集群的Compact任務(wù)隊列長度(影響Compact任務(wù)的執(zhí)行快慢,進而影響到Compact任務(wù)隊列、進而影響Hbase集群QPS、RT)。
1.3 指標名稱
磁盤IOPS指標
指標含義
磁盤每秒課完成的大讀寫次數(shù)
指標圖例
影響因素
1. 磁盤的物理機械特性。(比如磁盤的轉(zhuǎn)速)
2. 磁盤的掛在方式。(多塊磁盤做raid)
3. 磁盤的類型。(機械硬盤、SSD盤等)
關(guān)聯(lián)指標
1. CPU的IOWAIT指標(任務(wù)數(shù)多,進程處于等待磁盤數(shù)據(jù)的時候,指標結(jié)果就反應(yīng)異常)。
2. HBASE集群的QPS(高并發(fā)場景下的PQS大小)。
3. HBASE集群的RT(高并發(fā)場景下的請求響應(yīng)時長【查詢、寫入】)。
4. HBASE集群的Compact任務(wù)隊列長度(影響Compact任務(wù)的執(zhí)行快慢,進而影響到Compact任務(wù)隊列、進而影響Hbase集群QPS、RT)。
1.4 指標名稱
網(wǎng)絡(luò)IO帶寬
指標含義
packets per second每秒發(fā)包數(shù)量。
指標圖例
影響因素
1. 網(wǎng)卡的硬件參數(shù)。
2. 數(shù)據(jù)傳輸通道的介質(zhì)相關(guān)(光纖等)。
3. 受實例負載、鏡像版本、組網(wǎng)模型等.
關(guān)聯(lián)指標
1. CPU的IOWAIT指標(任務(wù)數(shù)多,進程處于等待磁盤數(shù)據(jù)的時候,指標結(jié)果就反應(yīng)異常)。
2. HBASE集群的QPS(高并發(fā)場景下的PQS大?。? 3. HBASE集群的RT(高并發(fā)場景下的請求響應(yīng)時長【查詢、寫入】)【達到瓶頸后會出現(xiàn)獲取大批量數(shù)據(jù)慢】。
4. HBASE集群的Compact任務(wù)隊列長度(影響Compact任務(wù)的執(zhí)行快慢,進而影響到Compact任務(wù)隊列、進而影響Hbase集群QPS、RT)。
1.5 指標名稱
網(wǎng)絡(luò)收發(fā)數(shù)據(jù)包數(shù)
指標含義
單位時間內(nèi)能夠傳輸?shù)臄?shù)據(jù)包數(shù)量
指標圖例
影響因素
1. 受實例負載、鏡像版本、組網(wǎng)模型等。
2. 網(wǎng)卡的硬件參數(shù)。
關(guān)聯(lián)指標
1. CPU的IOWAIT指標(任務(wù)數(shù)多,進程處于等待磁盤數(shù)據(jù)的時候,指標結(jié)果就反應(yīng)異常)。
2. HBASE集群的QPS(高并發(fā)場景下的PQS大小)。
3. HBASE集群的RT(高并發(fā)場景下的請求響應(yīng)時長【查詢、寫入】)【達到瓶頸后會出現(xiàn)獲取大批量數(shù)據(jù)慢】。
4. HBASE集群的Compact任務(wù)隊列長度(影響Compact任務(wù)的執(zhí)行快慢,進而影響到Compact任務(wù)隊列、進而影響Hbase集群QPS、RT)。
Hbase指標針對HBASE的監(jiān)控指標具體配置詳情請參考HDP官方文檔
https://docs.cloudera.com/HDPDocuments/Ambari-2.7.5.0/using-ambari-core-services/content/amb_hbase_regionservers.html
2.1. 指標名稱
BlockCache
指標含義
用途:在JVM堆內(nèi)存上開辟的一個HBASE 數(shù)據(jù)塊,用于存儲從HFILE(磁盤上文件)當(dāng)中加載的數(shù)據(jù)放到內(nèi)存中提高數(shù)據(jù)的查詢效率。
大小:其默認大小為64KB
設(shè)置:數(shù)據(jù)塊的大小直接影響著不同場景下數(shù)據(jù)檢索的效率,以及內(nèi)存的使用率
場景:1.大的數(shù)據(jù)塊適合順序訪問(其內(nèi)存利用率也高、降低了塊索引的大?。?br />2.小的數(shù)據(jù)塊適合隨機訪問(其內(nèi)存利用率不高、塊索引數(shù)據(jù)占了大量的內(nèi)存)
算法:采用LRU的淘汰算法(heapsize * hfile.block.cache.size * 0.85)
分類:BlockSize:Total BlockCache size of the RegionServer
Num Blocks in Cache:Total number of hfile blocks in the BlockCache of the RegionServer
Num BlockCache Hits /s:Total number of hfile blocks in the BlockCache of the RegionServer
Num BlockCache Misses /s:Number of BlockCache misses per second in the RegionServer.
Num BlockCache Evictions /s:Number of BlockCache evictions per second in the RegionServer.
BlockCache Caching Hit Percent:Percentage of BlockCache hits per second for requests that requested cache blocks in the RegionServer.
BlockCache Hit Percent:Percentage of BlockCache hits per second in the RegionServer.
影響因素
1. 【大小】
服務(wù)器硬件內(nèi)存大小。
blockcache 根據(jù)集群使用場景可進行設(shè)置。
2. 【命中率】
根據(jù)場景設(shè)置表的blocksize,提高緩存使用率,命中率。
緩存淘汰算法。
關(guān)聯(lián)指標
1. HBASE集群的QPS(高并發(fā)場景下的PQS大?。?。
2. HBASE集群的RT(高并發(fā)場景下的請求響應(yīng)時長【查詢、寫入】)【達到瓶頸后會出現(xiàn)獲取大批量數(shù)據(jù)慢】。
3. HBASE集群的Compact任務(wù)會導(dǎo)致(BlockCache中的數(shù)據(jù)塊失效),導(dǎo)致數(shù)據(jù)QPS,RT波動。
2.2. 指標名稱
【GET】OPERATION LATENCIES
指標含義
含義:用于采集HBASE的GET操作的延時指標。
場景:其中Get查詢主要使用場景為基于Hbase的RowKey查詢。
分類: Mean、Median、75th、95th、99th、Max
用途:可用于發(fā)現(xiàn)針對HBASE操作中,耗時操作的類型
影響因素
1.【性能】
表的RowKey設(shè)計的好壞。
數(shù)據(jù)是否在緩存中。
磁盤的性能。
網(wǎng)絡(luò)的性能。
關(guān)聯(lián)指標
1. HBASE集群的GT的QPS
2. HBASE集群的RPC - CALL QUEUED TIMES。
3. HBASE集群的Compact任務(wù)會導(dǎo)致(BlockCache中的數(shù)據(jù)塊失效),導(dǎo)致數(shù)據(jù)Get操作QPS,RT波動。
4. SYSTEM相關(guān)【CPU、磁盤、網(wǎng)絡(luò)】
2.3. 指標名稱
【SCAN】OPERATION LATENCIES
指標含義
含義:用于采集HBASE的SCAN操作的延時指標。
場景:其中Get查詢主要使用場景為基于Hbase的RowKey查詢。
分類: Mean、Median、75th、95th、99th、Max
用途:可用于發(fā)現(xiàn)針對HBASE操作中,耗時操作的類型
影響因素
1.【性能】
表的RowKey設(shè)計的好壞。
數(shù)據(jù)是否在緩存中。
磁盤的性能。
網(wǎng)絡(luò)的性能。
關(guān)聯(lián)指標
1. HBASE集群的GT的QPS
2. HBASE集群的RPC - CALL QUEUED TIMES。
3. HBASE集群的Compact任務(wù)會導(dǎo)致(BlockCache中的數(shù)據(jù)塊失效),導(dǎo)致數(shù)據(jù)Get操作QPS,RT波動。
4. SYSTEM相關(guān)【CPU、磁盤、網(wǎng)絡(luò)】
2.4. 指標名稱
RPC - OVERVIEW
指標含義
含義:HBASE的遠程調(diào)用(RPC)監(jiān)控,主要使用的協(xié)議為Google ProtoBuf和JAVA NIO
場景:主要用于Hbase Client 與Hbase master、Hbase RegionServer 之間的通信
HMaster
與Client關(guān)系:到Master的調(diào)用主要為【DDL、Sechma】操作
主要作用:為HRegionServer分配region
管理HRegionServer實現(xiàn)其負載均衡
發(fā)現(xiàn)失效的Region server并重新分配其上的region
HDFS上的垃圾文件回收
RegionServer
與Client關(guān)系:Client到RegionServer主要做一些DML操作。
主要作用:存放和管理本地HRegion,并負責(zé)切分正在運行過程中變的過大的region
維護HRegion,處理HRegion的IO請求,向HDFS文件系統(tǒng)中讀寫數(shù)據(jù)
分類:
Num RPC /s:Number of RPCs per second in the RegionServer.
Num Active Handler Threads:Number of active RPC handler threads (to process requests) in the RegionServer
Num Connections:Number of connections to the RegionServer.
用途:
主要用于發(fā)現(xiàn)HBASE集群的負載(集群整體的RPC操作、單個服務(wù)器負載、是否有數(shù)據(jù)熱點等)。
影響因素
1. 系統(tǒng)維度
1.1 【Region】Hregion在RegionServer上的分配策略,導(dǎo)致HRegion在不同RegionServer的數(shù)量不一致。
1.2 【數(shù)據(jù)】數(shù)據(jù)查詢請求包含數(shù)據(jù)熱點。
1.3 【訪問方式】GET請求/SCAN請求導(dǎo)致查詢的數(shù)據(jù)量差異(影響緩存)。
1.4 【操作系統(tǒng)】操作系統(tǒng)的內(nèi)核參數(shù)設(shè)置。
2. 整體硬件
2.1 RegionServer服務(wù)器的整體硬件配置(CPU、內(nèi)存、磁盤、網(wǎng)絡(luò))。
關(guān)聯(lián)指標
1. HBASE集群的GET的QPS。
2. HBASE集群的SCAN的QPS。
3. RegionServer服務(wù)器磁盤的性能。
4. RegionServer服務(wù)器網(wǎng)絡(luò)的性能。
2.5. 指標名稱
RPC - CALL PROCESS TIMES
指標含義
含義:表示RegionServer處理客戶端RPC調(diào)用的耗時。
場景:比如客戶端通過RPC調(diào)用進行數(shù)據(jù)的操作比如(GET、SCAN、DELETE等)。
分類:RPC - Call Process Time - Mean、RPC - Call Process Time - Median、RPC - Call Process Time - 75th、RPC - Call Process Time - 95th、RPC - Call Process Time - 99th、RPC - Call Process Time - Max
用途:主要用于評估當(dāng)前集群的健康狀況。
影響因素
1. 用戶對數(shù)據(jù)操作的類型占比,比如(GET、SCAN)。
2. 表數(shù)據(jù)的分布情況。比如(數(shù)據(jù)分布不均勻,導(dǎo)致數(shù)據(jù)熱點,進而導(dǎo)致部分服務(wù)器壓力過大,導(dǎo)致服務(wù)器過載)。
3. Region在集群中分配策略,影響
ByRegion:按照region總數(shù)均勻的分配到集群當(dāng)中。
ByTable:按照集群規(guī)模、表的Region數(shù)在集群中均勻分布。
4. 內(nèi)存(大小,頻率),影響熱數(shù)據(jù)的存放時間。
5. 磁盤性能(帶寬、OIPS),影響查詢獲取冷數(shù)據(jù)的提取效率。
6. 網(wǎng)絡(luò)帶寬(帶寬、收發(fā)包),影響數(shù)據(jù)數(shù)據(jù)的傳輸效率。
7. CPU(主頻、核心數(shù)),影響數(shù)據(jù)的壓縮、解壓。
關(guān)聯(lián)指標
1. HBASE集群RPC (OVERVIEW、GET、SCAN)
2. HBASE集群BLOCKCACHE(OVERVIEW、HITS/MISSES)
3. HBASE集群COMPACTION
4. CPU的(IOWAIT、LOAD、USER)
5. DISK的(IO、IOPS)
6. NETWORK(IO、PACKETS)
2.6. 指標名稱
COMPACTION QUEUES
指標含義
含義:Hbase表的Compaction任務(wù)隊列。
場景:主要用于對表做數(shù)據(jù)文件的合并,提升數(shù)據(jù)的讀效率。
分類:MINI COMPACTION、MAJOR COMPACTION。
用途:通過對集群中的數(shù)據(jù)表定期/周期性的做COMPACTION清理表中的無效數(shù)據(jù)、并且將小的HFILE文件合并成大的HFILE提高Hbase的查詢效率。
影響因素
1. HBASE集群參數(shù)
1.1 COMPACTION 線程數(shù)(small、large)。
1.2 COMPACTION 限速(lower、higher)。
1.3 COMPACTION 合并文件數(shù)(min、max)。
1.4 COMPACTION KV數(shù)量(每次從Hfile中讀取kv的個數(shù))。
2. 硬件層面
2.1 CPU(主頻、核心數(shù)),影響數(shù)據(jù)的壓縮、解壓。
2.2 磁盤性能(帶寬、OIPS),影響查詢獲取冷數(shù)據(jù)的提取效率。
2.3 網(wǎng)絡(luò)帶寬(帶寬、收發(fā)包),影響數(shù)據(jù)數(shù)據(jù)的傳輸效率。
2.4 網(wǎng)絡(luò)帶寬(帶寬、收發(fā)包),影響數(shù)據(jù)數(shù)據(jù)的傳輸效率。
關(guān)聯(lián)指標
1. HBASE集群BLOCKCACHE(OVERVIEW、HITS/MISSES)。
2. HBASE集群RPC - CALL PROCESS TIMES。
3. CPU的(IOWAIT、LOAD、USER)。
4. DISK的(IO、IOPS)。
5. NETWORK(IO、PACKETS)。
常見誤區(qū)
1. 合理的安排表的Compaction的時間。
2. 并且不是Compaction執(zhí)行越快越好。
你是否還在尋找穩(wěn)定的海外服務(wù)器提供商?創(chuàng)新互聯(lián)www.cdcxhl.cn海外機房具備T級流量清洗系統(tǒng)配攻擊溯源,準確流量調(diào)度確保服務(wù)器高可用性,企業(yè)級服務(wù)器適合批量采購,新人活動首月15元起,快前往官網(wǎng)查看詳情吧