這篇文章主要介紹了基于HBase Thrift接口的使用問題及相關(guān)注意事項(xiàng)有哪些,具有一定借鑒價值,感興趣的朋友可以參考下,希望大家閱讀完這篇文章之后大有收獲,下面讓小編帶著大家一起了解一下。
讓客戶滿意是我們工作的目標(biāo),不斷超越客戶的期望值來自于我們對這個行業(yè)的熱愛。我們立志把好的技術(shù)通過有效、簡單的方式提供給客戶,將通過不懈努力成為客戶在信息化領(lǐng)域值得信任、有價值的長期合作伙伴,公司提供的服務(wù)項(xiàng)目有:空間域名、虛擬主機(jī)、營銷軟件、網(wǎng)站建設(shè)、平原網(wǎng)站維護(hù)、網(wǎng)站推廣。HBase對于非Java語言提供了Thrift接口支持,這里結(jié)合對HBase Thrift接口(HBase版本為0.92.1)的使用經(jīng)驗(yàn),總結(jié)其中遇到的一些問題及其相關(guān)注意事項(xiàng)。
1. 字節(jié)的存放順序
HBase中,由于row(row key和column family、column qualifier、time stamp)是按照字典序進(jìn)行排序的,因此,對于short、int、long等類型的數(shù)據(jù),通過Bytes.toBytes(…)轉(zhuǎn)換成byte數(shù)組后,必須按照大端模式(高字節(jié)在低地址,低字節(jié)在高地址)存放。對于value,也是同樣的道理。因此,在使用Thrift API(C++、Php、Python等)方式時,好對于row和value都統(tǒng)一按照大端進(jìn)行pack和unpack處理。
舉個例子,C++中,對于int型變量,經(jīng)過以下方式轉(zhuǎn)換為字典序:
復(fù)制代碼 代碼如下:
string key;
int32_t timestamp = 1352563200;
const char* pTs =(const char*) ×tamp;
size_t n = sizeof(int32_t);
key.append(pTs, n);
通過以下方式將字典序轉(zhuǎn)換為int:
復(fù)制代碼 代碼如下:
const char * ts = key.c_str();
int32_t timestamp = *((int32_t*)(ts));
Php中則提供了pack和unpack方法進(jìn)行轉(zhuǎn)換:
復(fù)制代碼 代碼如下:
$key = pack("N", $num);
$num = unpack("N", $key);
2. TScan的使用陷阱
HBase的PHP Thrift接口中,TScan可以直接通過設(shè)置startRow、stopRow、columns、filter等屬性,默認(rèn)這些屬性均為null,設(shè)置后變?yōu)榉莕ull(通過TScan的構(gòu)造函數(shù)或直接對TScan的成員變量進(jìn)行賦值)。通過write()方法和Thrift Server進(jìn)行RPC操作時,直接判斷的依據(jù)是這些屬性不為null,則通過Thrift協(xié)議傳輸?shù)絋hrift Server端。
但是在C++的Thrift接口中,TScan中有一個_TScan__isset __isset類型的變量,其內(nèi)部結(jié)構(gòu)如下:
復(fù)制代碼 代碼如下:
typedef struct _TScan__isset {
_TScan__isset() : startRow(false), stopRow(false), timestamp(false), columns(false), caching(false), filterString(false) {}
bool startRow;
bool stopRow;
bool timestamp;
bool columns;
bool caching;
bool filterString;
} _TScan__isset;
TScan的write()方法則是通過判斷_TScan__isset下的各個bool變量標(biāo)記是否設(shè)置了startRow、stopRow、columns、filter等屬性,決定是否將這些屬性通過Thrift協(xié)議傳輸?shù)絋hrift Server端,而這些屬性必須通過__set_xxx()方法進(jìn)行設(shè)置才能生效!在TScan的默認(rèn)構(gòu)造函數(shù)中,并不會對這些屬性對應(yīng)的__isset標(biāo)記設(shè)置為true!
因此,如果直接通過TScan的構(gòu)造函數(shù)初始化startRow、stopRow、columns、filter等屬性會導(dǎo)致從頭遍歷該表,只有調(diào)用了__set_xxx()方法才會將對應(yīng)的bool標(biāo)識設(shè)置為true,這樣服務(wù)端才會從Thrift Server獲取startRow、stopRow、columns、filter等屬性進(jìn)行掃描。
3. 并發(fā)訪問線程數(shù)
首先,為了盡可能減少由于網(wǎng)絡(luò)傳輸帶來的時間開銷,HBase的Thrift Server好和應(yīng)用客戶端部署在同一臺機(jī)器上。Thrift Server啟動時可以通過參數(shù)配置并發(fā)線程數(shù),否則很容易導(dǎo)致Thrift Server線程滿了不響應(yīng)客戶端的讀寫請求,具體命令:bin/hbase-daemon.sh start thrift --threadpool -m 200 -w 500(更多參數(shù)參考這里:bin/hbase-daemon.sh start thrift -h)。
4. 較大堆內(nèi)存配置
如果客戶端與Thrift Server進(jìn)行scan操作順序讀取數(shù)據(jù),而且設(shè)置了一定的cache記錄條數(shù)(通過TScan的int32_t caching變量設(shè)置),那么這些被caching的記錄數(shù)可能會占用Thrift Server相當(dāng)部分的堆內(nèi)存,尤其在多客戶端并發(fā)訪問時更明顯。
因此,在Thrift Server啟動前,可以調(diào)大較大堆內(nèi)存,否則可能由于java.lang.OutOfMemoryError異常而導(dǎo)致進(jìn)程被殺掉,尤其是當(dāng)Scan時設(shè)置了較大的caching記錄條數(shù)的情況(默認(rèn)為export HBASE_HEAPSIZE=1000MB,可以在conf/hbase-env.sh中設(shè)置)。
感謝你能夠認(rèn)真閱讀完這篇文章,希望小編分享的“基于HBase Thrift接口的使用問題及相關(guān)注意事項(xiàng)有哪些”這篇文章對大家有幫助,同時也希望大家多多支持創(chuàng)新互聯(lián)網(wǎng)站建設(shè)公司,,關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,更多相關(guān)知識等著你來學(xué)習(xí)!