真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

JindoSQL性能優(yōu)化實(shí)例分析

本文小編為大家詳細(xì)介紹“Jindo SQL性能優(yōu)化實(shí)例分析”,內(nèi)容詳細(xì),步驟清晰,細(xì)節(jié)處理妥當(dāng),希望這篇“Jindo SQL性能優(yōu)化實(shí)例分析”文章能幫助大家解決疑惑,下面跟著小編的思路慢慢深入,一起來(lái)學(xué)習(xí)新知識(shí)吧。

創(chuàng)新互聯(lián)建站是一家集網(wǎng)站建設(shè),柯城企業(yè)網(wǎng)站建設(shè),柯城品牌網(wǎng)站建設(shè),網(wǎng)站定制,柯城網(wǎng)站建設(shè)報(bào)價(jià),網(wǎng)絡(luò)營(yíng)銷,網(wǎng)絡(luò)優(yōu)化,柯城網(wǎng)站推廣為一體的創(chuàng)新建站企業(yè),幫助傳統(tǒng)企業(yè)提升企業(yè)形象加強(qiáng)企業(yè)競(jìng)爭(zhēng)力??沙浞譂M足這一群體相比中小企業(yè)更為豐富、高端、多元的互聯(lián)網(wǎng)需求。同時(shí)我們時(shí)刻保持專業(yè)、時(shí)尚、前沿,時(shí)刻以成就客戶成長(zhǎng)自我,堅(jiān)持不斷學(xué)習(xí)、思考、沉淀、凈化自己,讓我們?yōu)楦嗟钠髽I(yè)打造出實(shí)用型網(wǎng)站。

背景介紹

TPC-DS 測(cè)試集采用星型和雪花型等多維數(shù)據(jù)模型,包含 7 張事實(shí)表和 17 張維度表,以 store channel 為例,事實(shí)表和維度表的關(guān)聯(lián)關(guān)系如下所示:
Jindo SQL性能優(yōu)化實(shí)例分析

分析 TPC-DS 全部 99 個(gè)查詢語(yǔ)句不難發(fā)現(xiàn),絕大部分語(yǔ)句的過(guò)濾條件都不是直接作用于事實(shí)表,而是通過(guò)過(guò)濾維度表并將結(jié)果集與事實(shí)表 join 來(lái)間接完成。因此,優(yōu)化器很難直接利用事實(shí)表索引來(lái)減少數(shù)據(jù)掃描量。如何利用好查詢執(zhí)行時(shí)的維度表過(guò)濾信息,并將這些信息下推至存儲(chǔ)層來(lái)完成事實(shí)表的過(guò)濾,對(duì)于性能提升至關(guān)重要。

在 2019 年的打榜測(cè)試中,我們基于 Spark SQL Catalyst Optimizer 開(kāi)發(fā)的 RuntimeFilter 優(yōu)化 對(duì)于 10TB 數(shù)據(jù) 99 query 的整體性能達(dá)到 35% 左右的提升。簡(jiǎn)單來(lái)說(shuō),RuntimeFilter 包括兩點(diǎn)核心優(yōu)化:

  1. 動(dòng)態(tài)分區(qū)裁剪:事實(shí)表以日期列(date_sk)為分區(qū)列建表,當(dāng)事實(shí)表與 date_dim 表 join 時(shí),optimizer 在運(yùn)行時(shí)收集 date_dim 過(guò)濾結(jié)果集的所有 date_sk 取值,并在掃描事實(shí)表前過(guò)濾掉所有未命中的分區(qū)文件。

  2. 非分區(qū)列動(dòng)態(tài)過(guò)濾:當(dāng)事實(shí)表與維度表的 join 列為非分區(qū)列時(shí),optimizer 動(dòng)態(tài)構(gòu)建和收集維度表結(jié)果集中 join 列的 Min-Max Range 或 BloomFilter,并在掃描事實(shí)表時(shí)下推至存儲(chǔ)層,利用存儲(chǔ)層索引(如 Parquet、ORCFile 的 zone map 索引)來(lái)減少掃描數(shù)據(jù)量。

問(wèn)題分析

為了進(jìn)一步挖掘 RuntimeFilter 優(yōu)化的潛力,我們選取了部分執(zhí)行時(shí)間較長(zhǎng)的 query 進(jìn)行了細(xì)致的性能剖析。這些 query 均包含大于一個(gè)事實(shí)表和多個(gè)維度表的復(fù)雜 join。在分析了 RuntimeFilter 對(duì)各個(gè) query 的性能提升效果后,我們發(fā)現(xiàn):

  1. 動(dòng)態(tài)分區(qū)裁剪的性能提升效果明顯,但很難有進(jìn)一步的優(yōu)化空間

  2. 非分區(qū)列動(dòng)態(tài)過(guò)濾對(duì)整體提升貢獻(xiàn)相比分區(qū)裁剪小很多,主要是因?yàn)楹芏嘞峦浦链鎯?chǔ)層的過(guò)濾條件并沒(méi)有達(dá)到索引掃描的效果

聰明的同學(xué)應(yīng)該已經(jīng)發(fā)現(xiàn),只有 date_dim 這一張維度表和分區(qū)列相關(guān),那么所有與其它維度表的 join 查詢從 RuntimeFilter 優(yōu)化中受益都較為有限。對(duì)于這種情況,我們做了進(jìn)一步的拆解分析:

  1. 絕大部分 join 列均為維度表的自增主鍵,且與過(guò)濾條件沒(méi)有相關(guān)性,因此結(jié)果集取值常常均勻稀疏地散布在該列的整個(gè)取值空間中

  2. 對(duì)于事實(shí)表,考慮最常見(jiàn)的 Zone Map 索引方式,由于 load 階段沒(méi)有針對(duì)非分區(qū)列做任何聚集操作(Clustering),每個(gè) zone 的取值一般也稀疏分散在各個(gè)列的值域中。

  3. 相比 BloomFilter,Min-Max Range 的構(gòu)建開(kāi)銷和索引查詢開(kāi)銷要低得多,但由于信息粒度太粗,索引過(guò)濾命中的效果也會(huì)差很多

綜合以上幾點(diǎn)考慮,一種可能的優(yōu)化方向是在 load 階段按照 join 列對(duì)事實(shí)表進(jìn)行 Z-Order 排序。但是這種方式會(huì)顯著增加 load 階段執(zhí)行時(shí)間,有可能導(dǎo)致 TPC-DS 評(píng)測(cè)總分反而下降。同時(shí),由于建表階段優(yōu)化的復(fù)雜性,實(shí)際生產(chǎn)環(huán)境的推廣使用也會(huì)比較受限。

RuntimeFilter Plus

基于上述分析,我們認(rèn)為依賴過(guò)濾條件下推至存儲(chǔ)層這一方式很難再提升查詢性能,嘗試往其它方向進(jìn)行探索:

  1. 不依賴存儲(chǔ)層索引

  2. 不僅優(yōu)化事實(shí)表與維度表 join

最終我們提煉兩個(gè)新的運(yùn)行時(shí)過(guò)濾優(yōu)化點(diǎn):維度表過(guò)濾廣播和事實(shí)表 join 動(dòng)態(tài)過(guò)濾,并在原版 RuntimeFilter 優(yōu)化的基礎(chǔ)上進(jìn)行了擴(kuò)展實(shí)現(xiàn)。

維度表過(guò)濾廣播

其針對(duì)的場(chǎng)景如下圖所示:Jindo SQL性能優(yōu)化實(shí)例分析

當(dāng)事實(shí)表(lineorder)連續(xù)與多個(gè)維度表過(guò)濾結(jié)果做 multi-join 時(shí),可將所有維度表的過(guò)濾信息下推至 join 之前。該方法與我們的 RuntimeFilter 的主要不同在于下推時(shí)考慮了完整的 multi-join tree 而不是局部 binary-join tree。其優(yōu)化效果是即使 join ordering 為 bad case,無(wú)用的事實(shí)表數(shù)據(jù)也能夠被盡早過(guò)濾掉,即讓查詢執(zhí)行更加 robust。

我們參考論文算法實(shí)現(xiàn)了第一版過(guò)濾下推規(guī)則,但并沒(méi)有達(dá)到預(yù)期的性能提升,主要原因在于:

  1. Spark CBO Join-Reorder 結(jié)合我們的遺傳算法優(yōu)化,已經(jīng)達(dá)到了接近最優(yōu)的 join ordering 效果

  2. 前置的 LIP filters 執(zhí)行性能并沒(méi)有明顯優(yōu)于 Spark BroadcastHashJoin 算子

基于過(guò)濾條件可以傳遞至復(fù)雜 multi-join tree 的任意節(jié)點(diǎn)這一思想去發(fā)散思考,我們發(fā)現(xiàn),當(dāng) multi-join tree 中存在多個(gè)事實(shí)表時(shí),可將維度表過(guò)濾條件廣播至所有的事實(shí)表 scan,從而減少后續(xù)事實(shí)表 SortMergeJoin 等耗時(shí)算子執(zhí)行時(shí)所需處理的數(shù)據(jù)量。以一個(gè)簡(jiǎn)化版的 query 64 為例:

with cs_ui as(select cs_item_sk,sum(cs_ext_list_price) as salefrom catalog_sales,catalog_returnswhere cs_item_sk = cr_item_skand cs_order_number = cr_order_numbergroup by cs_item_sk)select i_product_name product_name,i_item_sk item_sk,sum(ss_wholesale_cost) s1from store_sales,store_returns,cs_ui,itemwhere ss_item_sk = i_item_sk andss_item_sk = sr_item_sk andss_ticket_number = sr_ticket_number andss_item_sk = cs_ui.cs_item_sk andi_color in ('almond','indian','sienna','blue','floral','rosy') andi_current_price between 19 and 19 + 10 andi_current_price between 19 + 1 and 19 + 15group by i_product_name,i_item_sk

該查詢的 plan tree 如下圖所示:
Jindo SQL性能優(yōu)化實(shí)例分析

考慮未實(shí)現(xiàn)維度表過(guò)濾廣播的執(zhí)行流程,store_sales 數(shù)據(jù)經(jīng)過(guò) RuntimeFilter 和 BroadcastHashJoin 算子進(jìn)行過(guò)濾,但由于過(guò)濾后數(shù)據(jù)仍然較大,后續(xù)的所有 join 都需要走昂貴的 SortMergeJoin 算子。但如果將 LIP filter 下推至 4 張事實(shí)表的 scan 算子(無(wú)需下推至存儲(chǔ)層),不僅減少了 join 數(shù)據(jù)量,也減少了 catalog_sales 和 catalog_returns 表 join 后的 group-by aggregation 數(shù)據(jù)量 。

LIP 實(shí)現(xiàn)

在 optimizer 層,我們?cè)谠?RuntimeFilter 的 SyntheticJoinPredicate 規(guī)則后插入 PropagateDynamicValueFilter 規(guī)則,將合成的動(dòng)態(tài)謂詞廣播至所有合法的 join 子樹(shù)中;同時(shí)結(jié)合原有的謂詞下推邏輯,保證動(dòng)態(tài)謂詞最終傳播到所有相關(guān)的 scan 算子上。在算子層,LIP filters 的底層實(shí)現(xiàn)可以是 HashMap 或 BloomFilter,針對(duì) TPC-DS 的數(shù)據(jù)特性,我們選擇 BitMap 作為廣播過(guò)濾條件的底層實(shí)現(xiàn)。由于 BitMap 本身是精確的(Exact Filter),可以結(jié)合主外鍵約束信息進(jìn)一步做 semi-join 消除優(yōu)化?;谥魍怄I約束的優(yōu)化規(guī)則將在系列后續(xù)文章做詳細(xì)介紹。

應(yīng)用該優(yōu)化后,query 64 執(zhí)行時(shí)間由 177 秒降低至 63 秒,加速比達(dá)到 2.8 倍。

事實(shí)表 Join 動(dòng)態(tài)過(guò)濾

使用 BloomFilter 來(lái)優(yōu)化大表 join 是一種常見(jiàn)的查詢優(yōu)化技術(shù),比如在論文《Building a Hybrid Warehouse: Efficient Joins between Data Storedin HDFS and Enterprise Warehouse》https://researcher.watson.ibm.com/researcher/files/us-ytian/published_tods.pdf 中提出對(duì) join 兩表交替應(yīng)用 BloomFilter 的 zig-zag join 方法,降低分布式 join 中的數(shù)據(jù)傳輸總量。對(duì)于 TPC-DS 測(cè)試集,以 query 93 為例,store_sales 與 store_returns join 后的結(jié)果集大小遠(yuǎn)小于 store_sales 原始數(shù)據(jù)量,非常適合應(yīng)用這一優(yōu)化。

BloomFilter 的構(gòu)建和應(yīng)用都存在較高的計(jì)算開(kāi)銷,對(duì)于 selectivity 較大的join,盲目使用這一優(yōu)化可能反而導(dǎo)致性能回退?;陟o態(tài) stats 的 join selectivity 估算往往誤差,Spark 現(xiàn)有的 CBO 優(yōu)化規(guī)則難以勝任魯棒的 BloomFilter join 優(yōu)化決策。因此,我們基于 Spark Adaptive Execution(AE) 運(yùn)行時(shí)重優(yōu)化機(jī)制來(lái)實(shí)現(xiàn)動(dòng)態(tài)的 BloomFilter join 優(yōu)化規(guī)則。AE 的基本原理是在查詢作業(yè)的每個(gè) stage 執(zhí)行完成后,允許優(yōu)化器根據(jù)運(yùn)行時(shí)采集的 stage stats 信息重新調(diào)整后續(xù)的物理執(zhí)行計(jì)劃。目前主要支持三種優(yōu)化:
(1)reduce stage 并發(fā)度調(diào)整;
(2)針對(duì) skew 情況的 shuffle 數(shù)據(jù)均衡分布;
(3)SortMergeJoin 轉(zhuǎn)換為 BroadcastHashJoin

基于 AE 的優(yōu)化規(guī)則流程如下:

  1. 根據(jù)靜態(tài) stats 判斷 join 的一端的 size 是否可能適合構(gòu)建 BloomFilter( build side),如果是,則 build side 和 stream side 的 scan stage 會(huì)依次串行提交執(zhí)行;否則這兩個(gè) stage 將并行執(zhí)行。

  2. 在 build side 的 scan stage 執(zhí)行完成后,AE 根據(jù)運(yùn)行時(shí)收集的 size 和 join 列 histogram 進(jìn)行代價(jià)估算,并決定最終走 BroadcastHashJoin、BloomFilter-SortMergeJoinJoin 還是原本的 SortMergeJoin。

  3. 當(dāng)物理執(zhí)行計(jì)劃為 BloomFilter-SortMergeJoinJoin,優(yōu)化器會(huì)插入一個(gè)新的作業(yè)并行掃描 build side 的 shuffle 數(shù)據(jù)來(lái)構(gòu)建 BloomFilter,并下推至 stream side 的 scan stage 中。

BloomFilter 算子實(shí)現(xiàn)

為了減少 BloomFilter 帶來(lái)的額外開(kāi)銷,我們重新實(shí)現(xiàn)了高效的 BuildBloomFiler 和 Native-InBloomFilter 的算子。在構(gòu)建階段,使用 RDD aggregate 來(lái)合并各個(gè)數(shù)據(jù)分片的 BloomFiler 會(huì)導(dǎo)致 driver 成為數(shù)據(jù)傳輸和 bitmap 合并計(jì)算的性能瓶頸;使用 RDD treeAggregate 實(shí)現(xiàn)并行分層合并顯著降低了整體的構(gòu)建延遲。在過(guò)濾階段,Native-InBloomFilter 的算子會(huì)被推入 scan 算子中合并執(zhí)行。該算子直接訪問(wèn) Spark 列式讀取內(nèi)存格式,按批量數(shù)據(jù)來(lái)調(diào)用 SIMD 優(yōu)化的 native 函數(shù),降低 CPU 執(zhí)行開(kāi)銷;同時(shí),我們將原版算法替換為 Blocked BloomFilter 算法實(shí)現(xiàn),該算法通過(guò)犧牲少量的 bitmap 存儲(chǔ)空間來(lái)?yè)Q取訪存時(shí)更低的 CPU cache miss 率。

應(yīng)用該優(yōu)化后,query 93 執(zhí)行時(shí)間由 225 秒降低至 50 秒,加速比達(dá)到 4.5 倍。

讀到這里,這篇“Jindo SQL性能優(yōu)化實(shí)例分析”文章已經(jīng)介紹完畢,想要掌握這篇文章的知識(shí)點(diǎn)還需要大家自己動(dòng)手實(shí)踐使用過(guò)才能領(lǐng)會(huì),如果想了解更多相關(guān)內(nèi)容的文章,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。


網(wǎng)站標(biāo)題:JindoSQL性能優(yōu)化實(shí)例分析
文章源于:http://weahome.cn/article/jjjhhi.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部