這篇文章主要講解了“HBase數(shù)據(jù)讀取流程解析”,文中的講解內(nèi)容簡(jiǎn)單清晰,易于學(xué)習(xí)與理解,下面請(qǐng)大家跟著小編的思路慢慢深入,一起來(lái)研究和學(xué)習(xí)“HBase數(shù)據(jù)讀取流程解析”吧!
創(chuàng)新互聯(lián)不只是一家網(wǎng)站建設(shè)的網(wǎng)絡(luò)公司;我們對(duì)營(yíng)銷(xiāo)、技術(shù)、服務(wù)都有自己獨(dú)特見(jiàn)解,公司采取“創(chuàng)意+綜合+營(yíng)銷(xiāo)”一體化的方式為您提供更專(zhuān)業(yè)的服務(wù)!我們經(jīng)歷的每一步也許不一定是最完美的,但每一步都有值得深思的意義。我們珍視每一份信任,關(guān)注我們的網(wǎng)站建設(shè)、成都網(wǎng)站制作質(zhì)量和服務(wù)品質(zhì),在得到用戶(hù)滿(mǎn)意的同時(shí),也能得到同行業(yè)的專(zhuān)業(yè)認(rèn)可,能夠?yàn)樾袠I(yè)創(chuàng)新發(fā)展助力。未來(lái)將繼續(xù)專(zhuān)注于技術(shù)創(chuàng)新,服務(wù)升級(jí),滿(mǎn)足企業(yè)一站式營(yíng)銷(xiāo)型網(wǎng)站建設(shè)需求,讓再小的成都品牌網(wǎng)站建設(shè)也能產(chǎn)生價(jià)值!
Client-Server交互邏輯
運(yùn)維開(kāi)發(fā)了很長(zhǎng)一段時(shí)間HBase,經(jīng)常有業(yè)務(wù)同學(xué)咨詢(xún)?yōu)槭裁纯蛻?hù)端配置文件中沒(méi)有配置RegionServer的地址信息,這里針對(duì)這種疑問(wèn)簡(jiǎn)單的做下解釋?zhuān)蛻?hù)端與HBase系統(tǒng)的交互階段主要有如下幾個(gè)步驟:
客戶(hù)端首先會(huì)根據(jù)配置文件中zookeeper地址連接zookeeper,并讀取//meta-region-server節(jié)點(diǎn)信息,該節(jié)點(diǎn)信息存儲(chǔ)HBase元數(shù)據(jù)(hbase:meta)表所在的RegionServer地址以及訪問(wèn)端口等信息。用戶(hù)可以通過(guò)zookeeper命令(get //meta-region-server)查看該節(jié)點(diǎn)信息。
根據(jù)hbase:meta所在RegionServer的訪問(wèn)信息,客戶(hù)端會(huì)將該元數(shù)據(jù)表加載到本地并進(jìn)行緩存。然后在表中確定待檢索rowkey所在的RegionServer信息。
根據(jù)數(shù)據(jù)所在RegionServer的訪問(wèn)信息,客戶(hù)端會(huì)向該RegionServer發(fā)送真正的數(shù)據(jù)讀取請(qǐng)求。服務(wù)器端接收到該請(qǐng)求之后需要進(jìn)行復(fù)雜的處理,具體的處理流程將會(huì)是這個(gè)專(zhuān)題的重點(diǎn)。
通過(guò)上述對(duì)客戶(hù)端以及HBase系統(tǒng)的交互分析,可以基本明確兩點(diǎn):
客戶(hù)端只需要配置zookeeper的訪問(wèn)地址以及根目錄,就可以進(jìn)行正常的讀寫(xiě)請(qǐng)求。不需要配置集群的RegionServer地址列表。
客戶(hù)端會(huì)將hbase:meta元數(shù)據(jù)表緩存在本地,因此上述步驟中前兩步只會(huì)在客戶(hù)端***次請(qǐng)求的時(shí)候發(fā)生,之后所有請(qǐng)求都直接從緩存中加載元數(shù)據(jù)。如果集群發(fā)生某些變化導(dǎo)致hbase:meta元數(shù)據(jù)更改,客戶(hù)端再根據(jù)本地元數(shù)據(jù)表請(qǐng)求的時(shí)候就會(huì)發(fā)生異常,此時(shí)客戶(hù)端需要重新加載一份***的元數(shù)據(jù)表到本地。
RegionServer接收到客戶(hù)端的get/scan請(qǐng)求之后,先后做了兩件事情:構(gòu)建scanner體系(實(shí)際上就是做一些scan前的準(zhǔn)備工作),在此體系基礎(chǔ)上一行一行檢索。舉個(gè)不太合適但易于理解的例子,scan數(shù)據(jù)就和開(kāi)發(fā)商蓋房一樣,也是分成兩步:組建施工隊(duì)體系,明確每個(gè)工人的職責(zé);一層一層蓋樓。
構(gòu)建scanner體系-組建施工隊(duì)
scanner體系的核心在于三層scanner:RegionScanner、StoreScanner以及StoreFileScanner。三者是層級(jí)的關(guān)系,一個(gè)RegionScanner由多個(gè)StoreScanner構(gòu)成,一張表由多個(gè)列族組成,就有多少個(gè)StoreScanner負(fù)責(zé)該列族的數(shù)據(jù)掃描。一個(gè)StoreScanner又是由多個(gè)StoreFileScanner組成。每個(gè)Store的數(shù)據(jù)由內(nèi)存中的MemStore和磁盤(pán)上的StoreFile文件組成,相對(duì)應(yīng)的,StoreScanner對(duì)象會(huì)雇傭一個(gè)MemStoreScanner和N個(gè)StoreFileScanner來(lái)進(jìn)行實(shí)際的數(shù)據(jù)讀取,每個(gè)StoreFile文件對(duì)應(yīng)一個(gè)StoreFileScanner,注意:StoreFileScanner和MemstoreScanner是整個(gè)scan的最終執(zhí)行者。
對(duì)應(yīng)于建樓項(xiàng)目,一棟樓通常由好幾個(gè)單元樓構(gòu)成(每個(gè)單元樓對(duì)應(yīng)于一個(gè)Store),每個(gè)單元樓會(huì)請(qǐng)一個(gè)監(jiān)工(StoreScanner)負(fù)責(zé)該單元樓的建造。而監(jiān)工一般不做具體的事情,他負(fù)責(zé)招募很多工人(StoreFileScanner),這些工人才是建樓的主體。下圖是整個(gè)構(gòu)建流程圖:
RegionScanner會(huì)根據(jù)列族構(gòu)建StoreScanner,有多少列族就構(gòu)建多少StoreScanner,用于負(fù)責(zé)該列族的數(shù)據(jù)檢索
1.1 構(gòu)建StoreFileScanner:每個(gè)StoreScanner會(huì)為當(dāng)前該Store中每個(gè)HFile構(gòu)造一個(gè)StoreFileScanner,用于實(shí)際執(zhí)行對(duì)應(yīng)文件的檢索。同時(shí)會(huì)為對(duì)應(yīng)Memstore構(gòu)造一個(gè)MemstoreScanner,用于執(zhí)行該Store中Memstore的數(shù)據(jù)檢索。該步驟對(duì)應(yīng)于監(jiān)工在人才市場(chǎng)招募建樓所需的各種類(lèi)型工匠。
1.2 過(guò)濾淘汰StoreFileScanner:根據(jù)Time Range以及RowKey Range對(duì)StoreFileScanner以及MemstoreScanner進(jìn)行過(guò)濾,淘汰肯定不存在待檢索結(jié)果的Scanner。上圖中StoreFile3因?yàn)闄z查RowKeyRange不存在待檢索Rowkey所以被淘汰。該步驟針對(duì)具體的建樓方案,裁撤掉部分不需要的工匠,比如這棟樓不需要地暖安裝,對(duì)應(yīng)的工匠就可以撤掉。
1.3 Seek rowkey:所有StoreFileScanner開(kāi)始做準(zhǔn)備工作,在負(fù)責(zé)的HFile中定位到滿(mǎn)足條件的起始Row。工匠也開(kāi)始準(zhǔn)備自己的建造工具,建造材料,找到自己的工作地點(diǎn),等待一聲命下。就像所有重要項(xiàng)目的準(zhǔn)備工作都很核心一樣,Seek過(guò)程(此處略過(guò)Lazy Seek優(yōu)化)也是一個(gè)很核心的步驟,它主要包含下面三步:
定位Block Offset:在Blockcache中讀取該HFile的索引樹(shù)結(jié)構(gòu),根據(jù)索引樹(shù)檢索對(duì)應(yīng)RowKey所在的Block Offset和Block Size
Load Block:根據(jù)BlockOffset首先在BlockCache中查找Data Block,如果不在緩存,再在HFile中加載
Seek Key:在Data Block內(nèi)部通過(guò)二分查找的方式定位具體的RowKey
整體流程細(xì)節(jié)參見(jiàn)《HBase原理-探索HFile索引機(jī)制》,文中詳細(xì)說(shuō)明了HFile索引結(jié)構(gòu)以及如何通過(guò)索引結(jié)構(gòu)定位具體的Block以及RowKey
1.4 StoreFileScanner合并構(gòu)建最小堆:將該Store中所有StoreFileScanner和MemstoreScanner合并形成一個(gè)heap(最小堆),所謂heap是一個(gè)優(yōu)先級(jí)隊(duì)列,隊(duì)列中元素是所有scanner,排序規(guī)則按照scanner seek到的keyvalue大小由小到大進(jìn)行排序。這里需要重點(diǎn)關(guān)注三個(gè)問(wèn)題,首先為什么這些Scanner需要由小到大排序,其次keyvalue是什么樣的結(jié)構(gòu),***,keyvalue誰(shuí)大誰(shuí)小是如何確定的:
為什么這些Scanner需要由小到大排序?
最直接的解釋是scan的結(jié)果需要由小到大輸出給用戶(hù),當(dāng)然,這并不全面,最合理的解釋是只有由小到大排序才能使得scan效率***。舉個(gè)簡(jiǎn)單的例子,HBase支持?jǐn)?shù)據(jù)多版本,假設(shè)用戶(hù)只想獲取***版本,那只需要將這些數(shù)據(jù)由***到最舊進(jìn)行排序,然后取隊(duì)首元素返回就可以。那么,如果不排序,就只能遍歷所有元素,查看符不符合用戶(hù)查詢(xún)條件。這就是排隊(duì)的意義。
工匠們也需要排序,先做地板的排前面,做墻體的次之,***是做門(mén)窗戶(hù)的。做墻體的內(nèi)部還需要再排序,做內(nèi)墻的排前面,做外墻的排后面,這樣,假如設(shè)計(jì)師臨時(shí)決定不做外墻的話,就可以直接跳過(guò)外墻部分工作。很顯然,如果不排序的話,是沒(méi)辦法臨時(shí)做決定的,因?yàn)檫@部分工作已經(jīng)可能做掉了。
HBase中KeyValue是什么樣的結(jié)構(gòu)?
HBase中KeyValue并不是簡(jiǎn)單的KV數(shù)據(jù)對(duì),而是一個(gè)具有復(fù)雜元素的結(jié)構(gòu)體,其中Key由RowKey,ColumnFamily,Qualifier ,TimeStamp,KeyType等多部分組成,Value是一個(gè)簡(jiǎn)單的二進(jìn)制數(shù)據(jù)。Key中元素KeyType表示該KeyValue的類(lèi)型,取值分別為Put/Delete/Delete Column/Delete Family四種。KeyValue可以表示為如下圖所示:
了解了KeyValue的邏輯結(jié)構(gòu)后,我們不妨再進(jìn)一步從原理的角度想想HBase的開(kāi)發(fā)者們?yōu)槭裁慈绱藢?duì)其設(shè)計(jì)。這個(gè)就得從HBase所支持的數(shù)據(jù)操作說(shuō)起了,HBase支持四種主要的數(shù)據(jù)操作,分別是Get/Scan/Put/Delete,其中Get和Scan代表數(shù)據(jù)查詢(xún),Put操作代表數(shù)據(jù)插入或更新(如果Put的RowKey不存在則為插入操作、否則為更新操作),特別需要注意的是HBase中更新操作并不是直接覆蓋修改原數(shù)據(jù),而是生成新的數(shù)據(jù),新數(shù)據(jù)和原數(shù)據(jù)具有不同的版本(時(shí)間戳);Delete操作執(zhí)行數(shù)據(jù)刪除,和數(shù)據(jù)更新操作相同,HBase執(zhí)行數(shù)據(jù)刪除并不會(huì)馬上將數(shù)據(jù)從數(shù)據(jù)庫(kù)中***刪除,而只是生成一條刪除記錄,***在系統(tǒng)執(zhí)行文件合并的時(shí)候再統(tǒng)一刪除。
HBase中更新刪除操作并不直接操作原數(shù)據(jù),而是生成一個(gè)新紀(jì)錄,那問(wèn)題來(lái)了,如何知道一條記錄到底是插入操作還是更新操作亦或是刪除操作呢?這正是KeyType和Timestamp的用武之地。上文中提到KeyType取值為分別為Put/Delete/Delete Column/Delete Family四種,如果KeyType取值為Put,表示該條記錄為插入或者更新操作,而無(wú)論是插入或者更新,都可以使用版本號(hào)(Timestamp)對(duì)記錄進(jìn)行選擇;如果KeyType為Delete,表示該條記錄為整行刪除操作;相應(yīng)的KeyType為Delete Column和Delete Family分別表示刪除某行某列以及某行某列族操作;
不同KeyValue之間如何進(jìn)行大小比較?
上文提到KeyValue中Key由RowKey,ColumnFamily,Qualifier ,TimeStamp,KeyType等5部分組成,HBase設(shè)定Key大小首先比較RowKey,RowKey越小Key就越小;RowKey如果相同就看CF,CF越小Key越小;CF如果相同看Qualifier,Qualifier越小Key越小;Qualifier如果相同再看Timestamp,Timestamp越大表示時(shí)間越新,對(duì)應(yīng)的Key越小。如果Timestamp還相同,就看KeyType,KeyType按照DeleteFamily -> DeleteColumn -> Delete -> Put 順序依次對(duì)應(yīng)的Key越來(lái)越大。
2. StoreScanner合并構(gòu)建最小堆:上文討論的是一個(gè)監(jiān)工如何構(gòu)建自己的工匠師團(tuán)隊(duì)以及工匠師如何做準(zhǔn)備工作、排序工作。實(shí)際上,監(jiān)工也需要進(jìn)行排序,比如一單元的監(jiān)工排前面,二單元的監(jiān)工排之后… StoreScanner一樣,列族小的StoreScanner排前面,列族大的StoreScanner排后面。
scan查詢(xún)-層層建樓
構(gòu)建Scanner體系是為了更好地執(zhí)行scan查詢(xún),就像組建工匠師團(tuán)隊(duì)就是為了蓋房子一樣。scan查詢(xún)總是一行一行查詢(xún)的,先查***行的所有數(shù)據(jù),再查第二行的所有數(shù)據(jù),但每一行的查詢(xún)流程卻沒(méi)有什么本質(zhì)區(qū)別。蓋房子也一樣,無(wú)論是蓋8層還是蓋18層,都需要一層一層往上蓋,而且每一層的蓋法并沒(méi)有什么區(qū)別。所以實(shí)際上我們只需要關(guān)注其中一行數(shù)據(jù)是如何查詢(xún)的就可以。
對(duì)于一行數(shù)據(jù)的查詢(xún),又可以分解為多個(gè)列族的查詢(xún),比如RowKey=row1的一行數(shù)據(jù)查詢(xún),首先查詢(xún)列族1上該行的數(shù)據(jù)集合,再查詢(xún)列族2里該行的數(shù)據(jù)集合。同樣是蓋***層房子,先蓋一單元的一層,再改二單元的一層,蓋完之后才算一層蓋完,接著開(kāi)始蓋第二層。所以我們也只需要關(guān)注某一行某個(gè)列族的數(shù)據(jù)是如何查詢(xún)的就可以。
還記得Scanner體系構(gòu)建的最終結(jié)果是一個(gè)由StoreFileScanner和MemstoreScanner組成的heap(最小堆)么,這里就派上用場(chǎng)了。下圖是一張表的邏輯視圖,該表有兩個(gè)列族cf1和cf2(我們只關(guān)注cf1),cf1只有一個(gè)列name,表中有5行數(shù)據(jù),其中每個(gè)cell基本都有多個(gè)版本。cf1的數(shù)據(jù)假如實(shí)際存儲(chǔ)在三個(gè)區(qū)域,memstore中有r2和r4的***數(shù)據(jù),hfile1中是最早的數(shù)據(jù)?,F(xiàn)在需要查詢(xún)RowKey=r2的數(shù)據(jù),按照上文的理論對(duì)應(yīng)的Scanner指向就如圖所示:
這三個(gè)Scanner組成的heap為,Scanner由小到大排列。查詢(xún)的時(shí)候首先pop出heap的堆頂元素,即MemstoreScanner,得到keyvalue = r2:cf1:name:v3:name23的數(shù)據(jù),拿到這個(gè)keyvalue之后,需要進(jìn)行如下判定:
檢查該KeyValue的KeyType是否是Deleted/DeletedCol等,如果是就直接忽略該列所有其他版本,跳到下列(列族)
檢查該KeyValue的Timestamp是否在用戶(hù)設(shè)定的Timestamp Range范圍,如果不在該范圍,忽略
檢查該KeyValue是否滿(mǎn)足用戶(hù)設(shè)置的各種filter過(guò)濾器,如果不滿(mǎn)足,忽略
檢查該KeyValue是否滿(mǎn)足用戶(hù)查詢(xún)中設(shè)定的版本數(shù),比如用戶(hù)只查詢(xún)***版本,則忽略該cell的其他版本;反正如果用戶(hù)查詢(xún)所有版本,則還需要查詢(xún)?cè)揷ell的其他版本。
現(xiàn)在假設(shè)用戶(hù)查詢(xún)所有版本而且該keyvalue檢查通過(guò),此時(shí)當(dāng)前的堆頂元素需要執(zhí)行next方法去檢索下一個(gè)值,并重新組織最小堆。即圖中MemstoreScanner將會(huì)指向r4,重新組織最小堆之后最小堆將會(huì)變?yōu)椋秧斣刈優(yōu)镾toreFileScanner2,得到keyvalue=r2:cf1:name:v2:name22,進(jìn)行一系列判定,再next,再重新組織最小堆…
感謝各位的閱讀,以上就是“HBase數(shù)據(jù)讀取流程解析”的內(nèi)容了,經(jīng)過(guò)本文的學(xué)習(xí)后,相信大家對(duì)HBase數(shù)據(jù)讀取流程解析這一問(wèn)題有了更深刻的體會(huì),具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是創(chuàng)新互聯(lián),小編將為大家推送更多相關(guān)知識(shí)點(diǎn)的文章,歡迎關(guān)注!