LSM Tree 的存儲模型,包括 Tidb,HBase等
創(chuàng)新互聯(lián)2013年至今,是專業(yè)互聯(lián)網(wǎng)技術(shù)服務(wù)公司,擁有項目做網(wǎng)站、網(wǎng)站建設(shè)網(wǎng)站策劃,項目實施與項目整合能力。我們以讓每一個夢想脫穎而出為使命,1280元和順做網(wǎng)站,已為上家服務(wù),為和順各地企業(yè)和個人服務(wù),聯(lián)系電話:028-86922220特點通過將大量的隨機(jī)寫轉(zhuǎn)換為順序?qū)?,從而極大地提升了數(shù)據(jù)寫入的性能,雖然與此同時犧牲了部分讀的性能。
只適合存儲 key 值有序且寫入大于讀取的數(shù)據(jù),或者讀取操作通常是 key 值連續(xù)的數(shù)據(jù)。
存儲模型WAL在設(shè)計數(shù)據(jù)庫的時候經(jīng)常被使用,當(dāng)插入數(shù)據(jù)時,先順序?qū)懭?WAL 文件中,之后插入到內(nèi)存中的 MemTable 中。
1.保證了數(shù)據(jù)的持久化,不會丟失數(shù)據(jù),并且都是順序?qū)?,速度很快?br />2.當(dāng)程序掛掉重啟時,可以從 WAL 文件中重新恢復(fù)內(nèi)存中的 MemTable。
MemTable 對應(yīng)的就是 WAL 文件在內(nèi)存中的存儲結(jié)構(gòu),通常用 跳躍表SkipList 來實現(xiàn)。MemTable 提供了 k-v 數(shù)據(jù)的寫入、刪除以及讀取的操作接口。其內(nèi)部將 k-v 對按照 key 值有序存儲,這樣方便之后快速序列化到 SSTable 文件中,仍然保持?jǐn)?shù)據(jù)的有序性。
為了維持有序性在內(nèi)存里面可以采用紅黑樹或者跳躍表相關(guān)的數(shù)據(jù)結(jié)構(gòu)。
Immutable Memtable在內(nèi)存中只讀的 MemTable,由于內(nèi)存是有限的,通常我們會設(shè)置一個閥值,當(dāng) MemTable 占用的內(nèi)存達(dá)到閥值后就自動轉(zhuǎn)換為 Immutable Memtable,Immutable Memtable 是只讀不寫的,系統(tǒng)此時會生成新的 MemTable 供寫操作繼續(xù)寫入。
之所以要使用 Immutable Memtable,就是為了避免將Immutable MemTable 中的內(nèi)容序列化到磁盤中時會阻塞寫操作。
為什么LSM不直接順序?qū)懭氪疟P,而是需要在內(nèi)存中緩沖一下?
單條寫的性能肯定沒有批量寫來的塊。例如kafka給我們的感覺是寫入后就落地,但其實并不是,可以根據(jù)條數(shù)或者時間比如200ms刷入磁盤一次,這樣能大大提升寫入效率。此外在LSM中,在磁盤緩沖的另一個好處是,針對新增的數(shù)據(jù),可以直接查詢返回,能夠避免一定的IO操作。
SSTable 就是Immutable MemTable 中的數(shù)據(jù)在磁盤上的有序存儲,其內(nèi)部數(shù)據(jù)是根據(jù) key 從小到大排列的。通常為了加快查找的速度,需要在 SSTable 中加入數(shù)據(jù)索引,可以快讀定位到指定的 k-v 數(shù)據(jù)。
SSTable 通常采用的分級的結(jié)構(gòu)(默認(rèn)至多 6 層)。Immutable MemTable 中的數(shù)據(jù)達(dá)到指定閥值后會在 Level 0 層創(chuàng)建一個新的 SSTable。每一層的數(shù)據(jù)達(dá)到一定閾值后會挑選一部分 SST 合并到下一層(舊的文件刪除),每一層的數(shù)據(jù)是上一層的 10 倍(因此 90% 的數(shù)據(jù)存儲在最后一層)。
SSTable 中的 k-v 數(shù)據(jù)都是有序的,相當(dāng)于是多路歸并排序(Merge sort),合并操作相當(dāng)快速。
L0層的SSTable是沒有進(jìn)行合并的,所以這里的key range在多個SSTable中可能會出現(xiàn)重疊,在層數(shù)大于0層之后的SSTable,不存在重疊key。
(Minor/Major Compaction:
Minor Compaction:Memtable到SSTable層;
Major Compaction:當(dāng)每層的磁盤上的SSTable的體積超過一定的大小或者個數(shù),也會周期的進(jìn)行合并。清除掉被標(biāo)記刪除掉的數(shù)據(jù)以及多版本數(shù)據(jù)的合并,避免浪費空間)
更新操作其實并不真正存在,和寫入一個 k-v 數(shù)據(jù)沒有什么不同,只是在讀取的時候,會從 Level0 層的 SSTable 文件開始查找數(shù)據(jù),數(shù)據(jù)在上層的 SSTable 文件中必然比下層的文件中要新,所以總能讀取到最新的那條數(shù)據(jù)。也就是說此時在整個 LSM Tree 中可能會同時存在多個 key 值相同的數(shù)據(jù),只有在之后合并 SSTable 文件的時候,才會將舊的值刪除。
刪除刪除一條記錄的操作比較特殊,并不立即將數(shù)據(jù)從文件中刪除,而是記錄下對這個 key 的刪除操作標(biāo)記,同插入操作相同,插入操作插入的是 k-v 值,而刪除操作插入的是 k-del 標(biāo)記,只有當(dāng)合并 SSTable 文件時才會真正的刪除。
合并Compaction(size-tiered和leveled)當(dāng)數(shù)據(jù)不斷從 Immutable Memtable 序列化到磁盤上的 SSTable 文件中時,SSTable 文件的數(shù)量就不斷增加,而且其中可能有很多更新和刪除操作并不立即對文件進(jìn)行操作,而只是存儲一個操作記錄,這就造成了整個 LSM Tree 中可能有大量相同 key 值的數(shù)據(jù),占據(jù)了磁盤空間。為了節(jié)省磁盤空間占用,控制 SSTable 文件數(shù)量,需要將多個 SSTable 文件進(jìn)行合并,生成一個新的 SSTable 文件。
1) size-tiered 策略1)讀放大:讀取數(shù)據(jù)時實際讀取的數(shù)據(jù)量大于真正的數(shù)據(jù)量。例如在LSM樹中需要先在MemTable查看當(dāng)前key是否存在,不存在繼續(xù)從SSTable中尋找。
2)寫放大:寫入數(shù)據(jù)時實際寫入的數(shù)據(jù)量大于真正的數(shù)據(jù)量。例如在LSM樹中寫入時可能觸發(fā)Compact操作,導(dǎo)致實際寫入的數(shù)據(jù)量遠(yuǎn)大于該key的數(shù)據(jù)量。
3)空間放大:數(shù)據(jù)實際占用的磁盤空間比數(shù)據(jù)的真正大小 大更多。冗余存儲,對于一個key來說,只有最新的那條記錄是有效的,而之前的記錄都是可以被清理回收的。
保證每層SSTable的大小相近,同時限制每一層SSTable的數(shù)量。如上圖,每層限制SSTable為N,當(dāng)每層SSTable達(dá)到N后,則觸發(fā)Compact操作合并這些SSTable,并將合并后的結(jié)果寫入到下一層成為一個更大的sstable。
由此可以看出,當(dāng)層數(shù)達(dá)到一定數(shù)量時,最底層的單個SSTable的大小會變得非常大。并且size-tiered策略會導(dǎo)致空間放大比較嚴(yán)重。即使對于同一層的SSTable,每個key的記錄是可能存在多份的,只有當(dāng)該層的SSTable執(zhí)行compact操作才會消除這些key的冗余記錄。
2) leveled策略每一層的總大小固定,從上到下逐漸變大
采用分層思想,每一層限制總文件的大小。
將每一層切分成多個大小相近的SSTable。這些SSTable是這一層是全局有序的。
知乎-LSM樹詳解
LSM Tree 的讀取效率并不高,當(dāng)需要讀取指定 key 的數(shù)據(jù)時,
在每一層的 SSTable 文件的 key 值范圍是不重復(fù)的,所以只需要查找其中一個 SSTable 文件即可確定指定 key 的數(shù)據(jù)是否存在于這一層中。Level 0 層比較特殊,因為數(shù)據(jù)是 Immutable MemTable 直接寫入此層的,所以 Level 0 層的 SSTable 文件的 key 值范圍可能存在重復(fù),查找數(shù)據(jù)時有可能需要查找多個文件。
優(yōu)化讀取因為這樣的讀取效率非常差,通常會進(jìn)行一些優(yōu)化,例如 LevelDB 中的 Mainfest 文件,這個文件記錄了 SSTable 文件的一些關(guān)鍵信息,例如 Level 層數(shù),文件名,最小 key 值,大 key 值等,這個文件通常不會太大,可以放入內(nèi)存中,可以幫助快速定位到要查詢的 SSTable 文件,避免頻繁讀取。
另外一個經(jīng)常使用的方法是布隆解析器(Bloom filter),布隆解析器是一個使用內(nèi)存判斷文件是否包含一個關(guān)鍵字的有效方法。對每一個 SSTable 添加 Bloom Filter。
壓縮
SSTable 是可以啟用壓縮功能的,并且這種壓縮不是將整個 SSTable 一起壓縮,而是根據(jù) locality 將數(shù)據(jù)分組,每個組分別壓縮,這樣的好處當(dāng)讀取數(shù)據(jù)的時候,我們不需要解壓縮整個文件而是解壓縮部分 Group 就可以讀取。
緩存
因為SSTable在寫入磁盤后,除了Compaction之外,是不會變化的,所以我可以將Scan的Block進(jìn)行緩存,從而提高檢索的效率
合并
LSM-Tree的設(shè)計思路是,將數(shù)據(jù)拆分為幾百M大小的Segments(SSTable),并是順序?qū)懭搿?br />B+Tree則是將數(shù)據(jù)拆分為固定大小的Block或Page, 一般是4KB大小,和磁盤一個扇區(qū)的大小對應(yīng),Page是讀寫的最小單位。
更新在數(shù)據(jù)的更新和刪除方面,B+Tree可以做到原地更新和刪除,這種方式對數(shù)據(jù)庫事務(wù)支持更加友好,因為一個key只會出現(xiàn)一個Page頁里面。
LSM-Tree只能追加寫,并且在L0層key的rang會重疊,所以對事務(wù)支持較弱,只能在Segment Compaction的時候進(jìn)行真正地更新和刪除。
LSM-Tree的優(yōu)點是支持高吞吐的寫(可認(rèn)為是O(1)),這個特點在分布式系統(tǒng)上更為看重,當(dāng)然針對讀取普通的LSM-Tree結(jié)構(gòu),讀取是O(N)的復(fù)雜度,在使用索引或者緩存優(yōu)化后的也可以達(dá)到O(logN)的復(fù)雜度。
而B+tree的優(yōu)點是支持高效的讀(穩(wěn)定的O(logN)),但是在大規(guī)模的寫請求下(復(fù)雜度O(LogN)),效率會變得比較低,因為隨著insert的操作,為了維護(hù)B+樹結(jié)構(gòu),節(jié)點會不斷的分裂和合并。操作磁盤的隨機(jī)讀寫概率會變大,故導(dǎo)致性能降低。
基于LSM-Tree分層存儲能夠做到寫的高吞吐,帶來的副作用是整個系統(tǒng)必須頻繁的進(jìn)行compaction,寫入量越大,Compaction的過程越頻繁。而compaction是一個compare & merge的過程,非常消耗CPU和存儲IO,在高吞吐的寫入情形下,大量的compaction操作占用大量系統(tǒng)資源,必然帶來整個系統(tǒng)性能斷崖式下跌,對應(yīng)用系統(tǒng)產(chǎn)生巨大影響,當(dāng)然我們可以禁用自動Major Compaction,在每天系統(tǒng)低峰期定期觸發(fā)合并,來避免這個問題。
總結(jié)LSM Tree 的思想非常實用,將隨機(jī)寫轉(zhuǎn)換為順序?qū)憗泶蠓岣邔懭氩僮鞯男阅埽菭奚瞬糠肿x的性能。
你是否還在尋找穩(wěn)定的海外服務(wù)器提供商?創(chuàng)新互聯(lián)www.cdcxhl.cn海外機(jī)房具備T級流量清洗系統(tǒng)配攻擊溯源,準(zhǔn)確流量調(diào)度確保服務(wù)器高可用性,企業(yè)級服務(wù)器適合批量采購,新人活動首月15元起,快前往官網(wǎng)查看詳情吧