本篇文章給大家分享的是有關(guān)基于CDP7.1.1的Spark3.0技術(shù)預(yù)覽版本分析是怎樣的,小編覺得挺實(shí)用的,因此分享給大家學(xué)習(xí),希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。
我們提供的服務(wù)有:網(wǎng)站制作、成都網(wǎng)站建設(shè)、微信公眾號開發(fā)、網(wǎng)站優(yōu)化、網(wǎng)站認(rèn)證、衡東ssl等。為成百上千企事業(yè)單位解決了網(wǎng)站和推廣的問題。提供周到的售前咨詢和貼心的售后服務(wù),是有科學(xué)管理、有技術(shù)的衡東網(wǎng)站制作公司
以下是Spark3的關(guān)鍵新特性:
1.Spark3的TPC-DS性能進(jìn)一步提升;
2.語言支持
a)Scala version is upgraded to 2.12
b)JDK11 is fully supported.
c)Python3.6+ is supported. Python 2 and Python 3 prior to version 3.6 are deprecated
3.Adaptive execution of Spark SQL
a)對于AQE而言,最重要的問題就是什么時(shí)候去重新計(jì)算優(yōu)化執(zhí)行計(jì)劃。Spark任務(wù)的算子如果管道排列,依次并行執(zhí)行。然而,shuffle或者broadcast exchange會(huì)打斷算子的排列執(zhí)行,我們稱其為物化點(diǎn)(Materialization Points),并且用"Query Stages"來代表那些被物化點(diǎn)所分割的小片段。每個(gè)Query Stage會(huì)產(chǎn)出中間結(jié)果,當(dāng)且僅當(dāng)該stage及其并行的所有stage都執(zhí)行完成后,下游的Query Stage才能被執(zhí)行。所以當(dāng)上游部分stage執(zhí)行完成,partitions的統(tǒng)計(jì)數(shù)據(jù)也獲取到了,并且下游還未開始執(zhí)行,這就給AQE提供了reoptimization的機(jī)會(huì)。在查詢開始時(shí),生成完了執(zhí)行計(jì)劃,AQE框架首先會(huì)找到并執(zhí)行那些不存在上游的stages。一旦這些stage有一個(gè)或多個(gè)完成,AQE框架就會(huì)將其在physical plan中標(biāo)記為完成,并根據(jù)已完成的stages提供的執(zhí)行數(shù)據(jù)來更新整個(gè)logical plan?;谶@些新產(chǎn)出的統(tǒng)計(jì)數(shù)據(jù),AQE框架會(huì)執(zhí)行optimizer,根據(jù)一系列的優(yōu)化規(guī)則來進(jìn)行優(yōu)化;AQE框架還會(huì)執(zhí)行生成普通physical plan的optimizer以及自適應(yīng)執(zhí)行專屬的優(yōu)化規(guī)則,例如分區(qū)合并、數(shù)據(jù)傾斜處理等。于是,我們就獲得了最新優(yōu)化過的執(zhí)行計(jì)劃和一些已經(jīng)執(zhí)行完成的stages,至此為一次循環(huán)。接著我們只需要繼續(xù)重復(fù)上面的步驟,直到整個(gè)query都跑完。
4.Dynamic Partition Pruning (DPP)
a)Spark 3.0引入了動(dòng)態(tài)分區(qū)裁剪功能,這是SQL分析工作負(fù)載的一項(xiàng)重大性能改進(jìn)。DPP背后的想法是將維度表上的篩選器集直接應(yīng)用到事實(shí)表上,以便跳過掃描不需要的分區(qū)。DPP的優(yōu)化是在邏輯計(jì)劃優(yōu)化和物理計(jì)劃上實(shí)現(xiàn)的。它大大增強(qiáng)了許多TPC-DS查詢的速度,并且可以很好的適應(yīng)星型模型,而無需對表進(jìn)行反范式化(Denormalization)。
5.Binary files data source
a)Spark 3.0支持二進(jìn)制文件數(shù)據(jù)源。它可以讀取二進(jìn)制文件,并將每個(gè)文件轉(zhuǎn)換為包含文件原始內(nèi)容和元數(shù)據(jù)的一行。
6.DataSource V2 Improvements
a)Pluggable catalog integration
b)改進(jìn)謂詞下推功能,可通過減少數(shù)據(jù)加載來加快查詢速度
7.YARN Features
a)Spark 3.0可以自動(dòng)在YARN集群上發(fā)現(xiàn)GPU,并將任務(wù)調(diào)度到指定的GPU節(jié)點(diǎn)。
8.Kafka connector delegation token (0.10+)
a)對應(yīng)用只需要配置Spark的參數(shù)就可以完成認(rèn)證登錄,而不是非需要使用JAAS配置登錄。
該試驗(yàn)版本不支持以下組件:
Hive Warehouse Connector
Kudu
HBase Connector
Oozie
Livy
Zeppelin
以上就是基于CDP7.1.1的Spark3.0技術(shù)預(yù)覽版本分析是怎樣的,小編相信有部分知識點(diǎn)可能是我們?nèi)粘9ぷ鲿?huì)見到或用到的。希望你能通過這篇文章學(xué)到更多知識。更多詳情敬請關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。