本篇文章給大家分享的是有關(guān)基于openLooKeng的交互式分析是怎樣的,小編覺(jué)得挺實(shí)用的,因此分享給大家學(xué)習(xí),希望大家閱讀完這篇文章后可以有所收獲,話不多說(shuō),跟著小編一起來(lái)看看吧。
創(chuàng)新互聯(lián)公司歡迎聯(lián)系:18982081108,為您提供成都網(wǎng)站建設(shè)網(wǎng)頁(yè)設(shè)計(jì)及定制高端網(wǎng)站建設(shè)服務(wù),創(chuàng)新互聯(lián)公司網(wǎng)頁(yè)制作領(lǐng)域十多年,包括會(huì)所設(shè)計(jì)等多個(gè)行業(yè)擁有多年的網(wǎng)站推廣經(jīng)驗(yàn),選擇創(chuàng)新互聯(lián)公司,為網(wǎng)站保駕護(hù)航!
在這個(gè)“信息爆炸”的時(shí)代,大數(shù)據(jù)已經(jīng)成為這個(gè)時(shí)代的關(guān)鍵詞之一!隨著云計(jì)算、物聯(lián)網(wǎng)、移動(dòng)計(jì)算、智慧城市、人工智能等領(lǐng)域日新月異的發(fā)展,人類社會(huì)已經(jīng)步入了“信息高速路”的行駛軌道,數(shù)據(jù)量增長(zhǎng)迅速,各類應(yīng)用對(duì)大數(shù)據(jù)處理的需求也發(fā)生著變化。
與此同時(shí),“久經(jīng)沙場(chǎng)”的數(shù)據(jù)倉(cāng)庫(kù)不再一統(tǒng)江湖,而以實(shí)時(shí)分析、離線分析、交互式分析等為代表的計(jì)算引擎勢(shì)頭迅猛。
華為云3年前發(fā)布的Serverless大數(shù)據(jù)分析服務(wù) - 數(shù)據(jù)湖探索DLI,經(jīng)過(guò)這幾年的迭代升級(jí),已經(jīng)包含用于實(shí)時(shí)分析的Flink引擎,用于離線分析的Spark引擎。今年基于華為開(kāi)源openLooKeng引擎的交互式分析功能,也將于Q4重磅發(fā)布,便于用戶構(gòu)建輕量級(jí)流、批、交互式全場(chǎng)景數(shù)據(jù)湖。
openLooKeng使用了業(yè)界著名的開(kāi)源SQL引擎Presto來(lái)提供交互式查詢分析基礎(chǔ)能力,并繼續(xù)在融合場(chǎng)景查詢、跨數(shù)據(jù)中心/云、數(shù)據(jù)源擴(kuò)展、性能、可靠性、安全性等方面發(fā)展,讓數(shù)據(jù)治理、使用更簡(jiǎn)單。
DLI使用的openLooKeng引擎在內(nèi)存計(jì)算框架的基礎(chǔ)上,還利用許多查詢優(yōu)化技術(shù)來(lái)滿足高性能毫秒級(jí)的交互式分析的需要。
1.1 索引
openLooKeng提供基于Bitmap Index、Bloom Filter以及Min-max Index等索引。通過(guò)在現(xiàn)有數(shù)據(jù)上創(chuàng)建索引,并且把索引結(jié)果存儲(chǔ)在數(shù)據(jù)源外部,在查詢計(jì)劃編排時(shí)便利用索引信息過(guò)濾掉不匹配的文件,減少需要讀取的數(shù)據(jù)規(guī)模,從而加速查詢過(guò)程。
1.2 Cache
openLooKeng提供豐富多樣的Cache,包括元數(shù)據(jù)cache、執(zhí)行計(jì)劃cache、ORC行數(shù)據(jù)cache等。通過(guò)這些多樣的cache,可加速用戶多次對(duì)同一SQL或者同一類型SQL的查詢時(shí)延響應(yīng)。
1.3 動(dòng)態(tài)過(guò)濾
所謂的動(dòng)態(tài)過(guò)濾是指是在運(yùn)行時(shí)(run time)將join一側(cè)表的過(guò)濾信息的結(jié)果應(yīng)用到另一側(cè)表的過(guò)濾器的優(yōu)化方法,openLooKeng不僅提供了多種數(shù)據(jù)源的動(dòng)態(tài)過(guò)濾優(yōu)化特性,還將這一優(yōu)化特性應(yīng)用到了DataCenter Connector,從而加速不同場(chǎng)景關(guān)聯(lián)查詢的性能。
1.4 算子下推
openLooKeng通過(guò)Connector框架連接到RDBMS等數(shù)據(jù)源時(shí),由于RDBMS具有較強(qiáng)的計(jì)算能力,一般情況下將算子下推到數(shù)據(jù)源進(jìn)行計(jì)算可以獲取到更好的性能。openLooKeng目前支持多種數(shù)據(jù)源的算子下推,包括Oracle、HANA等,特別地,針對(duì)DC Connector也實(shí)現(xiàn)了算子下推,從而實(shí)現(xiàn)了更快的查詢時(shí)延響應(yīng)。
2.1 HA AA雙活
openLooKeng引入了高可用的AA特性,支持coordinator AA雙活機(jī)制,能夠保持多個(gè)coordinator之間的負(fù)載均衡,同時(shí)也保證了openLooKeng在高并發(fā)下的可用性。
2.2 Auto-scaling
openLooKeng的彈性伸縮特性支持將正在執(zhí)行任務(wù)的服務(wù)節(jié)點(diǎn)平穩(wěn)退服,同時(shí)也能將處于不活躍狀態(tài)的節(jié)點(diǎn)拉起并接受新的任務(wù)。openLooKeng通過(guò)提供“已隔離”與“隔離中”等狀態(tài)接口供外部資源管理者(如Yarn、Kubernetes等)調(diào)用,從而實(shí)現(xiàn)對(duì)coordinator和worker節(jié)點(diǎn)的彈性擴(kuò)縮容。
實(shí)時(shí)分析、離線分析、交互式分析這三種場(chǎng)景中在很多實(shí)際業(yè)務(wù)中都是同時(shí)存在的,DLI引入openLooKeng引擎之初就考慮了如何跟已有的Spark引擎進(jìn)行元數(shù)據(jù)層面的互通,從而實(shí)現(xiàn)離線分析結(jié)果,免數(shù)據(jù)搬遷直接就可以用openLooKeng引擎進(jìn)行交互式分析。Spark和openLooKeng都支持Hive的建表方式,通過(guò)這種方式,實(shí)現(xiàn)了元數(shù)據(jù)層面的互通。
DLI老用戶使用比較多的功能是跨多種數(shù)據(jù)源的聯(lián)合查詢,用于更全面地對(duì)數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,釋放數(shù)據(jù)價(jià)值。這次引入openLooKeng引擎將跨源查詢的能力進(jìn)一步延伸,開(kāi)發(fā)了跨域跨DC查詢的DataCenter Connector。通過(guò)這個(gè)新Connector可以連接到遠(yuǎn)端另外的openLooKeng集群,從而提供在不同數(shù)據(jù)中心間協(xié)同計(jì)算的能力。 其中的關(guān)鍵技術(shù)如下:
4.1 并行數(shù)據(jù)訪問(wèn)
worker可以并發(fā)訪問(wèn)數(shù)據(jù)源以提高訪問(wèn)效率, 客戶端也可以并發(fā)從服務(wù)端獲取數(shù)據(jù)以加快數(shù)據(jù)獲取速度。
4.2 數(shù)據(jù)壓縮
在數(shù)據(jù)傳輸期間進(jìn)行序列化之前,先使用GZIP壓縮算法對(duì)數(shù)據(jù)進(jìn)行壓縮,以減少通過(guò)網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)量。
4.3 跨DC動(dòng)態(tài)過(guò)濾
過(guò)濾數(shù)據(jù)以減少?gòu)倪h(yuǎn)端提取的數(shù)據(jù)量,從而確保網(wǎng)絡(luò)穩(wěn)定性并提高查詢效率。
以上就是基于openLooKeng的交互式分析是怎樣的,小編相信有部分知識(shí)點(diǎn)可能是我們?nèi)粘9ぷ鲿?huì)見(jiàn)到或用到的。希望你能通過(guò)這篇文章學(xué)到更多知識(shí)。更多詳情敬請(qǐng)關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。