最近看到一篇很好資料,里面三言兩語配上幾個圖就把列式存儲(Column-based Storage)講明白了,牛啊!最喜歡的就是這種淺顯易懂就把背景知識講得明明白白,而不是長篇大論的講概念。
創(chuàng)新互聯(lián)是專業(yè)的臥龍網(wǎng)站建設(shè)公司,臥龍接單;提供網(wǎng)站設(shè)計制作、網(wǎng)站設(shè)計,網(wǎng)頁設(shè)計,網(wǎng)站設(shè)計,建網(wǎng)站,PHP網(wǎng)站建設(shè)等專業(yè)做網(wǎng)站服務(wù);采用PHP框架,可快速的進(jìn)行臥龍網(wǎng)站開發(fā)網(wǎng)頁制作和功能擴(kuò)展;專業(yè)做搜索引擎喜愛的網(wǎng)站,專業(yè)的做網(wǎng)站團(tuán)隊,希望更多企業(yè)前來合作!列式存儲(Columnar or column-based)是相對于傳統(tǒng)關(guān)系型數(shù)據(jù)庫的行式存儲(Row-basedstorage)來說的。簡單來說兩者的區(qū)別就是如何組織表(翻譯不好,直接抄原文了):
Row-based storage stores atable in a sequence of rows.
Column-based storage storesa table in a sequence of columns.
下面來看一個例子:
從上圖可以很清楚地看到,行式存儲下一張表的數(shù)據(jù)都是放在一起的,但列式存儲下都被分開保存了。所以它們就有了如下這些優(yōu)缺點:
行式存儲 | 列式存儲 | |
優(yōu)點 | 數(shù)據(jù)被保存在一起 INSERT/UPDATE容易 | 查詢時只有涉及到的列會被讀取 投影(projection)很高效 任何列都能作為索引 |
缺點 | 選擇(Selection)時即使只涉及某幾列,所有數(shù)據(jù)也都會被讀取 | 選擇完成時,被選擇的列要重新組裝 INSERT/UPDATE比較麻煩 |
注:關(guān)系型數(shù)據(jù)庫理論回顧 - 選擇(Selection)和投影(Projection)
剛才其實跳過了資料里提到的另一種技術(shù):通過字典表壓縮數(shù)據(jù)。為了方面后面的講解,這部分也順帶提一下了。
下面中才是那張表本來的樣子。經(jīng)過字典表進(jìn)行數(shù)據(jù)壓縮后,表中的字符串才都變成數(shù)字了。正因為每個字符串在字典表里只出現(xiàn)一次了,所以達(dá)到了壓縮的目的(有點像規(guī)范化和非規(guī)范化Normalize和Denomalize)
下面就是最牛的圖了,通過一條查詢的執(zhí)行過程說明列式存儲(以及數(shù)據(jù)壓縮)的優(yōu)點:
關(guān)鍵步驟如下:
1. 去字典表里找到字符串對應(yīng)數(shù)字(只進(jìn)行一次字符串比較)。
2. 用數(shù)字去列表里匹配,匹配上的位置設(shè)為1。
3. 把不同列的匹配結(jié)果進(jìn)行位運(yùn)算得到符合所有條件的記錄下標(biāo)。
4. 使用這個下標(biāo)組裝出最終的結(jié)果集。
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)cdcxhl.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。