ApacheKylin中Cube的高級設(shè)置方法是什么

這篇文章主要講解了“Apache Kylin中Cube的高級設(shè)置方法是什么”，文中的講解內(nèi)容簡單清晰，易于學(xué)習(xí)與理解，下面請大家跟著小編的思路慢慢深入，一起來研究和學(xué)習(xí)“Apache Kylin中Cube的高級設(shè)置方法是什么”吧！

老城網(wǎng)站制作公司哪家好，找創(chuàng)新互聯(lián)！從網(wǎng)頁設(shè)計、網(wǎng)站建設(shè)、微信開發(fā)、APP開發(fā)、響應(yīng)式網(wǎng)站建設(shè)等網(wǎng)站項目制作，到程序開發(fā)，運營維護。創(chuàng)新互聯(lián)2013年開創(chuàng)至今到現(xiàn)在10年的時間，我們擁有了豐富的建站經(jīng)驗和運維經(jīng)驗，來保證我們的工作的順利進行。專注于網(wǎng)站建設(shè)就選創(chuàng)新互聯(lián)。

隨著維度數(shù)目的增加，Cuboid 的數(shù)量會爆炸式地增長。為了緩解 Cube 的構(gòu)建壓力，Apache Kylin 引入了一系列的高級設(shè)置，幫助用戶篩選出真正需要的 Cuboid。這些高級設(shè)置包括聚合組(Aggregation Group)、聯(lián)合維度(Joint Dimension)、層級維度(Hierachy Dimension)和必要維度(Mandatory Dimension)等。”

眾所周知，Apache Kylin 的主要工作就是為源數(shù)據(jù)構(gòu)建 N 個維度的 Cube，實現(xiàn)聚合的預(yù)計算。理論上而言，構(gòu)建 N 個維度的 Cube 會生成 2N 個 Cuboid，如圖 1 所示，構(gòu)建一個 4 個維度(A，B，C, D)的 Cube，需要生成 16 個Cuboid。

Apache Kylin中Cube的高級設(shè)置方法是什么

(圖1)

隨著維度數(shù)目的增加 Cuboid 的數(shù)量會爆炸式地增長，不僅占用大量的存儲空間還會延長 Cube 的構(gòu)建時間。為了緩解 Cube 的構(gòu)建壓力，減少生成的 Cuboid 數(shù)目，Apache Kylin 引入了一系列的高級設(shè)置，幫助用戶篩選出真正需要的 Cuboid。這些高級設(shè)置包括聚合組(Aggregation Group)、聯(lián)合維度(Joint Dimension)、層級維度(Hierachy Dimension)和必要維度(Mandatory Dimension)等，本系列將深入講解這些高級設(shè)置的含義及其適用的場景。

聚合組(Aggregation Group)

用戶根據(jù)自己關(guān)注的維度組合，可以劃分出自己關(guān)注的組合大類，這些大類在 Apache Kylin 里面被稱為聚合組。例如圖 1 中展示的 Cube，如果用戶僅僅關(guān)注維度 AB 組合和維度 CD 組合，那么該 Cube 則可以被分化成兩個聚合組，分別是聚合組 AB 和聚合組 CD。如圖 2 所示，生成的 Cuboid 數(shù)目從 16 個縮減成了 8 個。

Apache Kylin中Cube的高級設(shè)置方法是什么

(圖2)

用戶關(guān)心的聚合組之間可能包含相同的維度，例如聚合組 ABC 和聚合組 BCD 都包含維度 B 和維度 C。這些聚合組之間會衍生出相同的 Cuboid，例如聚合組 ABC 會產(chǎn)生 Cuboid BC，聚合組 BCD 也會產(chǎn)生 Cuboid BC。這些 Cuboid不會被重復(fù)生成，一份 Cuboid 為這些聚合組所共有，如圖 3 所示。

Apache Kylin中Cube的高級設(shè)置方法是什么

(圖3)

有了聚合組用戶就可以粗粒度地對 Cuboid 進行篩選，獲取自己想要的維度組合。

聚合組應(yīng)用實例

假設(shè)創(chuàng)建一個交易數(shù)據(jù)的 Cube，它包含了以下一些維度：顧客 ID buyer_id 交易日期 cal_dt、付款的方式 pay_type 和買家所在的城市 city。有時候，分析師需要通過分組聚合 city、cal_dt 和 pay_type 來獲知不同消費方式在不同城市的應(yīng)用情況;有時候，分析師需要通過聚合 city 、cal_dt 和 buyer_id，來查看顧客在不同城市的消費行為。在上述的實例中，推薦建立兩個聚合組，包含的維度和方式如圖 4 ：

Apache Kylin中Cube的高級設(shè)置方法是什么

(圖4)

聚合組 1： [cal_dt, city, pay_type]

聚合組 2： [cal_dt, city, buyer_id]

在不考慮其他干擾因素的情況下，這樣的聚合組將節(jié)省不必要的 3 個 Cuboid: [pay_type, buyer_id]、[city, pay_type, buyer_id] 和 [cal_dt, pay_type, buyer_id] 等，節(jié)省了存儲資源和構(gòu)建的執(zhí)行時間。

Case 1:

SELECT cal_dt, city, pay_type, count(*) FROM table GROUP BY cal_dt, city, pay_type 則將從 Cuboid [cal_dt, city, pay_type] 中獲取數(shù)據(jù)。

Case2:

SELECT cal_dt, city, buy_id, count(*) FROM table GROUP BY cal_dt, city, buyer_id 則將從 Cuboid [cal_dt, city, pay_type] 中獲取數(shù)據(jù)。

Case3 如果有一條不常用的查詢:

SELECT pay_type, buyer_id, count(*) FROM table GROUP BY pay_type, buyer_id 則沒有現(xiàn)成的完全匹配的 Cuboid。

此時，Apache Kylin 會通過在線計算的方式，從現(xiàn)有的 Cuboid 中計算出最終結(jié)果。

聯(lián)合維度(Joint Dimension)

用戶有時并不關(guān)心維度之間各種細節(jié)的組合方式，例如用戶的查詢語句中僅僅會出現(xiàn) group by A, B, C，而不會出現(xiàn) group by A, B 或者 group by C 等等這些細化的維度組合。這一類問題就是聯(lián)合維度所解決的問題。例如將維度 A、B 和 C 定義為聯(lián)合維度，Apache Kylin 就僅僅會構(gòu)建 Cuboid ABC，而 Cuboid AB、BC、A 等等Cuboid 都不會被生成。最終的 Cube 結(jié)果如圖5所示，Cuboid 數(shù)目從 16 減少到 4。

Apache Kylin中Cube的高級設(shè)置方法是什么

(圖5)

聯(lián)合維度應(yīng)用實例

假設(shè)創(chuàng)建一個交易數(shù)據(jù)的Cube，它具有很多普通的維度，像是交易日期 cal_dt，交易的城市 city，顧客性別 sex_id 和支付類型 pay_type 等。分析師常用的分析方法為通過按照交易時間、交易地點和顧客性別來聚合，獲取不同城市男女顧客間不同的消費偏好，例如同時聚合交易日期 cal_dt、交易的城市 city 和顧客性別 sex_id來分組。在上述的實例中，推薦在已有的聚合組中建立一組聯(lián)合維度，包含的維度和組合方式如圖6：

Apache Kylin中Cube的高級設(shè)置方法是什么

(圖6)

聚合組：[cal_dt, city, sex_id，pay_type]

聯(lián)合維度： [cal_dt, city, sex_id]

Case 1：

SELECT cal_dt, city, sex_id, count(*) FROM table GROUP BY cal_dt, city, sex_id 則它將從Cuboid [cal_dt, city, sex_id]中獲取數(shù)據(jù)

Case2如果有一條不常用的查詢：

SELECT cal_dt, city, count(*) FROM table GROUP BY cal_dt, city 則沒有現(xiàn)成的完全匹配的 Cuboid，Apache Kylin 會通過在線計算的方式，從現(xiàn)有的 Cuboid 中計算出最終結(jié)果。

層級維度(Hierarchy Dimension)

用戶選擇的維度中常常會出現(xiàn)具有層級關(guān)系的維度。例如對于國家(country)、省份(province)和城市(city)這三個維度，從上而下來說國家/省份/城市之間分別是一對多的關(guān)系。也就是說，用戶對于這三個維度的查詢可以歸類為以下三類:

group by country

group by country, province(等同于group by province)

group by country, province, city(等同于 group by country, city 或者group by city)

以圖7所示的 Cube 為例，假設(shè)維度 A 代表國家，維度 B 代表省份，維度 C 代表城市，那么ABC 三個維度可以被設(shè)置為層級維度，生成的Cube 如圖7所示。

Apache Kylin中Cube的高級設(shè)置方法是什么

(圖7)

例如，Cuboid [A,C,D]=Cuboid[A, B, C, D]，Cuboid[B, D]=Cuboid[A, B, D]，因而 Cuboid[A, C, D] 和 Cuboid[B, D] 就不必重復(fù)存儲。

圖8展示了 Kylin 按照前文的方法將冗余的Cuboid 剪枝從而形成圖 2 的 Cube 結(jié)構(gòu)，Cuboid 數(shù)目從 16 減小到 8。

Apache Kylin中Cube的高級設(shè)置方法是什么

(圖8)

層級維度應(yīng)用實例

假設(shè)一個交易數(shù)據(jù)的 Cube，它具有很多普通的維度，像是交易的城市 city，交易的省 province，交易的國家 country，和支付類型 pay_type等。分析師可以通過按照交易城市、交易省份、交易國家和支付類型來聚合，獲取不同層級的地理位置消費者的支付偏好。在上述的實例中，建議在已有的聚合組中建立一組層級維度(國家country/省province/城市city)，包含的維度和組合方式：

聚合組：[country, province, city，pay_type]

層級維度： [country, province, city]

Case 1 當(dāng)分析師想從城市維度獲取消費偏好時：

SELECT city, pay_type, count(*) FROM table GROUP BY city, pay_type 則它將從 Cuboid [country, province, city, pay_type] 中獲取數(shù)據(jù)。

Case 2 當(dāng)分析師想從省級維度獲取消費偏好時：

SELECT province, pay_type, count(*) FROM table GROUP BY province, pay_type 則它將從Cuboid [country, province, pay_type] 中獲取數(shù)據(jù)。

Case 3 當(dāng)分析師想從國家維度獲取消費偏好時：

SELECT country, pay_type, count(*) FROM table GROUP BY country, pay_type 則它將從Cuboid [country, pay_type] 中獲取數(shù)據(jù)。

Case 4 如果分析師想獲取不同粒度地理維度的聚合結(jié)果時：

無一例外都可以由圖 3 中的 cuboid 提供數(shù)據(jù) 。

例如，SELECT country, city, count(*) FROM table GROUP BY country, city 則它將從 Cuboid [country, province, city] 中獲取數(shù)據(jù)。

必要維度 (Mandatory Dimension)

用戶有時會對某一個或幾個維度特別感興趣，所有的查詢請求中都存在group by這個維度，那么這個維度就被稱為必要維度，只有包含此維度的Cuboid會被生成(如圖10)。

Apache Kylin中Cube的高級設(shè)置方法是什么

(圖10)

以圖 1中的Cube為例，假設(shè)維度A是必要維度，那么生成的Cube則如圖11所示，維度數(shù)目從16變?yōu)?。

Apache Kylin中Cube的高級設(shè)置方法是什么

(圖11)

必要維度應(yīng)用實例

假設(shè)一個交易數(shù)據(jù)的Cube，它具有很多普通的維度，像是交易時間order_dt，交易的地點location，交易的商品product和支付類型pay_type等。其中，交易時間就是一個被高頻作為分組條件(group by)的維度。如果將交易時間order_dt設(shè)置為必要維度，包含的維度和組合方式如圖12：

Apache Kylin中Cube的高級設(shè)置方法是什么

(圖12)

感謝各位的閱讀，以上就是“Apache Kylin中Cube的高級設(shè)置方法是什么”的內(nèi)容了，經(jīng)過本文的學(xué)習(xí)后，相信大家對Apache Kylin中Cube的高級設(shè)置方法是什么這一問題有了更深刻的體會，具體使用情況還需要大家實踐驗證。這里是創(chuàng)新互聯(lián)，小編將為大家推送更多相關(guān)知識點的文章，歡迎關(guān)注！

分享文章：ApacheKylin中Cube的高級設(shè)置方法是什么
轉(zhuǎn)載源于：http://weahome.cn/article/igghsd.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

ApacheKylin中Cube的高級設(shè)置方法是什么

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管