這篇文章將為大家詳細(xì)講解有關(guān)如何理解Spark 3.0 的動態(tài)分區(qū)裁剪優(yōu)化,文章內(nèi)容質(zhì)量較高,因此小編分享給大家做個參考,希望大家閱讀完這篇文章后對相關(guān)知識有一定的了解。
為西充等地區(qū)用戶提供了全套網(wǎng)頁設(shè)計制作服務(wù),及西充網(wǎng)站建設(shè)行業(yè)解決方案。主營業(yè)務(wù)為網(wǎng)站建設(shè)、成都網(wǎng)站設(shè)計、西充網(wǎng)站設(shè)計,以傳統(tǒng)方式定制建設(shè)網(wǎng)站,并提供域名空間備案等一條龍服務(wù),秉承以專業(yè)、用心的態(tài)度為用戶提供真誠的服務(wù)。我們深信只要達(dá)到每一位用戶的要求,就會得到認(rèn)可,從而選擇與我們長期合作。這樣,我們也可以走得更遠(yuǎn)!
Spark 3.0 為我們帶來了許多令人期待的特性。動態(tài)分區(qū)裁剪(dynamic partition pruning)就是其中之一。本文將通過圖文的形式來帶大家理解什么是動態(tài)分區(qū)裁剪。
Spark 中的靜態(tài)分區(qū)裁剪
在介紹動態(tài)分區(qū)裁剪之前,有必要對 Spark 中的靜態(tài)分區(qū)裁剪進行介紹。在標(biāo)準(zhǔn)數(shù)據(jù)庫術(shù)語中,裁剪意味著優(yōu)化器將避免讀取不包含我們正在查找的數(shù)據(jù)的文件。例如我們有以下的查詢 SQL:
Select * from iteblog.Students where subject = 'English';
在這個簡單的查詢中,我們試圖匹配和識別 Students 表中 subject = English 的記錄。比較愚蠢的做法是先把數(shù)據(jù)全部 scan 出來,然后再使用 subject = 'English' 去過濾。如下圖所示:
比較好的實現(xiàn)是查詢優(yōu)化器將過濾器下推到數(shù)據(jù)源,以便能夠避免掃描整個數(shù)據(jù)集,Spark 就是這么來做的,如下圖所示:
在靜態(tài)分區(qū)裁剪技術(shù)中,我們的表首先是分區(qū)的,分區(qū)過濾下推的思想和上面的 filter push down 一致。因為在這種情況下,如果我們的查詢有一個針對分區(qū)列的過濾,那么在實際的查詢中可以跳過很多不必要的分區(qū),從而大大減少數(shù)據(jù)的掃描,減少磁盤I/O,從而提升計算的性能。
然而,在現(xiàn)實中,我們的查詢語句不會是這么簡單的。通常情況下,我們會有多張維表,小表需要與大的事實表進行 join。因此,在這種情況下,我們不能再應(yīng)用靜態(tài)分區(qū)裁剪,因為 filter 條件在 join 表的一側(cè),而對裁剪有用的表在 Join 的另一側(cè)。比如我們有以下的查詢語句:
Select * from iteblog.Students join iteblog.DailyRoutine where iteblog.DailyRoutine.subject = 'English';
對于上面的查詢,比較垃圾的查詢引擎最后的執(zhí)行計劃如下:
它把兩張表的數(shù)據(jù)進行關(guān)聯(lián),然后再過濾。在數(shù)據(jù)量比較大的情況下效率可想而知。一些比較好的計算引擎可以進行一些優(yōu)化,比如:
其能夠在一張表里面先過濾一些無用的數(shù)據(jù),再進行 Join,效率自然比前面一種好。但是如果是我們?nèi)藖砼鋵嵨覀兛梢园?subject = 'English' 過濾條件下推到 iteblog.Students 表里面,這個正是 Spark 3.0 給我們帶來的動態(tài)分區(qū)裁剪優(yōu)化。
動態(tài)分區(qū)裁剪
在 Spark SQL 中,用戶通常用他們喜歡的編程語言并選擇他們喜歡的 API 來提交查詢,這也就是為什么有 DataFrames 和 DataSet。Spark 將這個查詢轉(zhuǎn)化為一種易于理解的形式,我們稱它為查詢的邏輯計劃(logical plan)。在此階段,Spark 通過應(yīng)用一組基于規(guī)則(rule based)的轉(zhuǎn)換(如列修剪、常量折疊、算子下推)來優(yōu)化邏輯計劃。然后,它才會進入查詢的實際物理計劃(physical planning)。在物理規(guī)劃階段 Spark 生成一個可執(zhí)行的計劃(executable plan),該計劃將計算分布在集群中。本文我將解釋如何在邏輯計劃階段實現(xiàn)動態(tài)分區(qū)修剪。然后,我們將研究如何在物理計劃階段中進一步優(yōu)化它。
邏輯計劃階段優(yōu)化
假設(shè)我們有一個具有多個分區(qū)的事實表(fact table),為了方便說明,我們用不同顏色代表不同的分區(qū)。另外,我們還有一個比較小的維度表(dimension table),我們的維度表不是分區(qū)表。然后我們在這些數(shù)據(jù)集上進行典型的掃描操作。在我們的例子里面,假設(shè)我們只讀取維度表里面的兩行數(shù)據(jù),而這兩行數(shù)據(jù)其實對于另外一張表的兩個分區(qū)。所以最后執(zhí)行 Join 操作時,帶有分區(qū)的事實表只需要讀取兩個分區(qū)的數(shù)據(jù)就可以。
因此,我們不需要實際掃描整個事實表。為了做到這種優(yōu)化,一種簡單的方法是通過維度表構(gòu)造出一個過濾子查詢(比如上面例子為 select subject from iteblog.DailyRoutine where subject = 'English'),然后在掃描事實表之前加上這個過濾子查詢。
通過這種方式,我們在邏輯計劃階段就知道事實表需要掃描哪些分區(qū)。
但是,上面的物理計劃執(zhí)行起來還是比較低效。因為里面有重復(fù)的子查詢,我們需要找出一種方法來消除這個重復(fù)的子查詢。為了做到這一點,Spark 在物理計劃階段做了一些優(yōu)化。
物理計劃階段優(yōu)化
如果維度表很小,那么 Spark 很可能會以 broadcast hash join 的形式執(zhí)行這個 Join。Broadcast Hash Join 的實現(xiàn)是將小表的數(shù)據(jù)廣播(broadcast)到 Spark 所有的 Executor 端,這個廣播過程和我們自己去廣播數(shù)據(jù)沒什么區(qū)別,先利用 collect 算子將小表的數(shù)據(jù)從 Executor 端拉到 Driver 端,然后在 Driver 端調(diào)用 sparkContext.broadcast 廣播到所有 Executor 端;另一方面,大表也會構(gòu)建 hash table(稱為 build relation),之后在 Executor 端這個廣播出去的數(shù)據(jù)會和大表的對應(yīng)的分區(qū)進行 Join 操作,這種 Join 策略避免了 Shuffle 操作。具體如下:
我們已經(jīng)知道了 broadcast hash join 實現(xiàn)原理。其實動態(tài)分區(qū)裁剪優(yōu)化就是在 broadcast hash join 中大表進行 build relation 的時候拿到維度表的廣播結(jié)果(broadcast results),然后在 build relation 的時候(Scan 前)進行動態(tài)過濾,從而達(dá)到避免掃描無用的數(shù)據(jù)效果。具體如下:
好了,以上就是動態(tài)分區(qū)裁剪在邏輯計劃和物理計劃的優(yōu)化。
動態(tài)分區(qū)裁剪適用條件
并不是什么查詢都會啟用動態(tài)裁剪優(yōu)化的,必須滿足以下幾個條件:
spark.sql.optimizer.dynamicPartitionPruning.enabled 參數(shù)必須設(shè)置為 true,不過這個值默認(rèn)就是啟用的;
需要裁減的表必須是分區(qū)表,而且分區(qū)字段必須在 join 的 on 條件里面;
Join 類型必須是 INNER, LEFT SEMI (左表是分區(qū)表), LEFT OUTER (右表是分區(qū)表), or RIGHT OUTER (左表是分區(qū)表)。
滿足上面的條件也不一定會觸發(fā)動態(tài)分區(qū)裁減,還必須滿足 spark.sql.optimizer.dynamicPartitionPruning.useStats 和 spark.sql.optimizer.dynamicPartitionPruning.fallbackFilterRatio 兩個參數(shù)綜合評估出一個進行動態(tài)分區(qū)裁減是否有益的值,滿足了才會進行動態(tài)分區(qū)裁減。
關(guān)于如何理解Spark 3.0 的動態(tài)分區(qū)裁剪優(yōu)化就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,可以學(xué)到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。