真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

<li id="smwuk"><em id="smwuk"></em></li>

重慶分公司

重慶分公司

028-86922220

如何理解Spark3.0的動態(tài)分區(qū)裁剪優(yōu)化

這篇文章將為大家詳細(xì)講解有關(guān)如何理解Spark 3.0 的動態(tài)分區(qū)裁剪優(yōu)化，文章內(nèi)容質(zhì)量較高，因此小編分享給大家做個參考，希望大家閱讀完這篇文章后對相關(guān)知識有一定的了解。

為西充等地區(qū)用戶提供了全套網(wǎng)頁設(shè)計制作服務(wù)，及西充網(wǎng)站建設(shè)行業(yè)解決方案。主營業(yè)務(wù)為網(wǎng)站建設(shè)、成都網(wǎng)站設(shè)計、西充網(wǎng)站設(shè)計，以傳統(tǒng)方式定制建設(shè)網(wǎng)站，并提供域名空間備案等一條龍服務(wù)，秉承以專業(yè)、用心的態(tài)度為用戶提供真誠的服務(wù)。我們深信只要達(dá)到每一位用戶的要求，就會得到認(rèn)可，從而選擇與我們長期合作。這樣，我們也可以走得更遠(yuǎn)！

Spark 3.0 為我們帶來了許多令人期待的特性。動態(tài)分區(qū)裁剪(dynamic partition pruning)就是其中之一。本文將通過圖文的形式來帶大家理解什么是動態(tài)分區(qū)裁剪。

Spark 中的靜態(tài)分區(qū)裁剪

在介紹動態(tài)分區(qū)裁剪之前，有必要對 Spark 中的靜態(tài)分區(qū)裁剪進行介紹。在標(biāo)準(zhǔn)數(shù)據(jù)庫術(shù)語中，裁剪意味著優(yōu)化器將避免讀取不包含我們正在查找的數(shù)據(jù)的文件。例如我們有以下的查詢 SQL：

Select * from iteblog.Students where subject = 'English';

在這個簡單的查詢中，我們試圖匹配和識別 Students 表中 subject = English 的記錄。比較愚蠢的做法是先把數(shù)據(jù)全部 scan 出來，然后再使用 subject = 'English' 去過濾。如下圖所示：

如何理解Spark 3.0 的動態(tài)分區(qū)裁剪優(yōu)化

比較好的實現(xiàn)是查詢優(yōu)化器將過濾器下推到數(shù)據(jù)源，以便能夠避免掃描整個數(shù)據(jù)集，Spark 就是這么來做的，如下圖所示：

如何理解Spark 3.0 的動態(tài)分區(qū)裁剪優(yōu)化

在靜態(tài)分區(qū)裁剪技術(shù)中，我們的表首先是分區(qū)的，分區(qū)過濾下推的思想和上面的 filter push down 一致。因為在這種情況下，如果我們的查詢有一個針對分區(qū)列的過濾，那么在實際的查詢中可以跳過很多不必要的分區(qū)，從而大大減少數(shù)據(jù)的掃描，減少磁盤I/O，從而提升計算的性能。

然而，在現(xiàn)實中，我們的查詢語句不會是這么簡單的。通常情況下，我們會有多張維表，小表需要與大的事實表進行 join。因此，在這種情況下，我們不能再應(yīng)用靜態(tài)分區(qū)裁剪，因為 filter 條件在 join 表的一側(cè)，而對裁剪有用的表在 Join 的另一側(cè)。比如我們有以下的查詢語句：

Select * from iteblog.Students join iteblog.DailyRoutine  where iteblog.DailyRoutine.subject = 'English';

對于上面的查詢，比較垃圾的查詢引擎最后的執(zhí)行計劃如下：

如何理解Spark 3.0 的動態(tài)分區(qū)裁剪優(yōu)化

它把兩張表的數(shù)據(jù)進行關(guān)聯(lián)，然后再過濾。在數(shù)據(jù)量比較大的情況下效率可想而知。一些比較好的計算引擎可以進行一些優(yōu)化，比如：

如何理解Spark 3.0 的動態(tài)分區(qū)裁剪優(yōu)化

其能夠在一張表里面先過濾一些無用的數(shù)據(jù)，再進行 Join，效率自然比前面一種好。但是如果是我們?nèi)藖砼鋵嵨覀兛梢园?subject = 'English' 過濾條件下推到 iteblog.Students 表里面，這個正是 Spark 3.0 給我們帶來的動態(tài)分區(qū)裁剪優(yōu)化。

動態(tài)分區(qū)裁剪

在 Spark SQL 中，用戶通常用他們喜歡的編程語言并選擇他們喜歡的 API 來提交查詢，這也就是為什么有 DataFrames 和 DataSet。Spark 將這個查詢轉(zhuǎn)化為一種易于理解的形式，我們稱它為查詢的邏輯計劃(logical plan)。在此階段，Spark 通過應(yīng)用一組基于規(guī)則(rule based)的轉(zhuǎn)換(如列修剪、常量折疊、算子下推)來優(yōu)化邏輯計劃。然后，它才會進入查詢的實際物理計劃(physical planning)。在物理規(guī)劃階段 Spark 生成一個可執(zhí)行的計劃(executable plan)，該計劃將計算分布在集群中。本文我將解釋如何在邏輯計劃階段實現(xiàn)動態(tài)分區(qū)修剪。然后，我們將研究如何在物理計劃階段中進一步優(yōu)化它。

如何理解Spark 3.0 的動態(tài)分區(qū)裁剪優(yōu)化

邏輯計劃階段優(yōu)化

假設(shè)我們有一個具有多個分區(qū)的事實表(fact table)，為了方便說明，我們用不同顏色代表不同的分區(qū)。另外，我們還有一個比較小的維度表(dimension table)，我們的維度表不是分區(qū)表。然后我們在這些數(shù)據(jù)集上進行典型的掃描操作。在我們的例子里面，假設(shè)我們只讀取維度表里面的兩行數(shù)據(jù)，而這兩行數(shù)據(jù)其實對于另外一張表的兩個分區(qū)。所以最后執(zhí)行 Join 操作時，帶有分區(qū)的事實表只需要讀取兩個分區(qū)的數(shù)據(jù)就可以。

因此，我們不需要實際掃描整個事實表。為了做到這種優(yōu)化，一種簡單的方法是通過維度表構(gòu)造出一個過濾子查詢(比如上面例子為 select subject from iteblog.DailyRoutine where subject = 'English')，然后在掃描事實表之前加上這個過濾子查詢。

通過這種方式，我們在邏輯計劃階段就知道事實表需要掃描哪些分區(qū)。

如何理解Spark 3.0 的動態(tài)分區(qū)裁剪優(yōu)化

但是，上面的物理計劃執(zhí)行起來還是比較低效。因為里面有重復(fù)的子查詢，我們需要找出一種方法來消除這個重復(fù)的子查詢。為了做到這一點，Spark 在物理計劃階段做了一些優(yōu)化。

物理計劃階段優(yōu)化

如果維度表很小，那么 Spark 很可能會以 broadcast hash join 的形式執(zhí)行這個 Join。Broadcast Hash Join 的實現(xiàn)是將小表的數(shù)據(jù)廣播(broadcast)到 Spark 所有的 Executor 端，這個廣播過程和我們自己去廣播數(shù)據(jù)沒什么區(qū)別，先利用 collect 算子將小表的數(shù)據(jù)從 Executor 端拉到 Driver 端，然后在 Driver 端調(diào)用 sparkContext.broadcast 廣播到所有 Executor 端;另一方面，大表也會構(gòu)建 hash table(稱為 build relation)，之后在 Executor 端這個廣播出去的數(shù)據(jù)會和大表的對應(yīng)的分區(qū)進行 Join 操作，這種 Join 策略避免了 Shuffle 操作。具體如下：

如何理解Spark 3.0 的動態(tài)分區(qū)裁剪優(yōu)化

我們已經(jīng)知道了 broadcast hash join 實現(xiàn)原理。其實動態(tài)分區(qū)裁剪優(yōu)化就是在 broadcast hash join 中大表進行 build relation 的時候拿到維度表的廣播結(jié)果(broadcast results)，然后在 build relation 的時候(Scan 前)進行動態(tài)過濾，從而達(dá)到避免掃描無用的數(shù)據(jù)效果。具體如下：

如何理解Spark 3.0 的動態(tài)分區(qū)裁剪優(yōu)化

好了，以上就是動態(tài)分區(qū)裁剪在邏輯計劃和物理計劃的優(yōu)化。

動態(tài)分區(qū)裁剪適用條件

并不是什么查詢都會啟用動態(tài)裁剪優(yōu)化的，必須滿足以下幾個條件：

spark.sql.optimizer.dynamicPartitionPruning.enabled 參數(shù)必須設(shè)置為 true，不過這個值默認(rèn)就是啟用的;
需要裁減的表必須是分區(qū)表，而且分區(qū)字段必須在 join 的 on 條件里面;
Join 類型必須是 INNER, LEFT SEMI (左表是分區(qū)表), LEFT OUTER (右表是分區(qū)表), or RIGHT OUTER (左表是分區(qū)表)。
滿足上面的條件也不一定會觸發(fā)動態(tài)分區(qū)裁減，還必須滿足 spark.sql.optimizer.dynamicPartitionPruning.useStats 和 spark.sql.optimizer.dynamicPartitionPruning.fallbackFilterRatio 兩個參數(shù)綜合評估出一個進行動態(tài)分區(qū)裁減是否有益的值，滿足了才會進行動態(tài)分區(qū)裁減。

關(guān)于如何理解Spark 3.0 的動態(tài)分區(qū)裁剪優(yōu)化就分享到這里了，希望以上內(nèi)容可以對大家有一定的幫助，可以學(xué)到更多知識。如果覺得文章不錯，可以把它分享出去讓更多的人看到。

當(dāng)前文章：如何理解Spark3.0的動態(tài)分區(qū)裁剪優(yōu)化
URL分享：http://weahome.cn/article/pcgdii.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220（工作日）

18980820575（7×24）

提交需求

返回頂部

<small id="wea0q"><s id="wea0q"></s></small><ul id="wea0q"><pre id="wea0q"></pre></ul>

<tr id="wea0q"><rt id="wea0q"></rt></tr>

<menu id="wea0q"></menu>