Spark程序優(yōu)化所需要關(guān)注的幾個(gè)關(guān)鍵點(diǎn)——最主要的是數(shù)據(jù)序列化和內(nèi)存優(yōu)化
讓客戶滿意是我們工作的目標(biāo),不斷超越客戶的期望值來(lái)自于我們對(duì)這個(gè)行業(yè)的熱愛(ài)。我們立志把好的技術(shù)通過(guò)有效、簡(jiǎn)單的方式提供給客戶,將通過(guò)不懈努力成為客戶在信息化領(lǐng)域值得信任、有價(jià)值的長(zhǎng)期合作伙伴,公司提供的服務(wù)項(xiàng)目有:域名與空間、網(wǎng)頁(yè)空間、營(yíng)銷(xiāo)軟件、網(wǎng)站建設(shè)、沿河網(wǎng)站維護(hù)、網(wǎng)站推廣。
spark 設(shè)置相關(guān)參數(shù)
問(wèn)題1:reduce task數(shù)目不合適
解決方法:需根據(jù)實(shí)際情況調(diào)節(jié)默認(rèn)配置,調(diào)整方式是修改參數(shù)spark.default.parallelism。通常,reduce數(shù)目設(shè)置為core數(shù)目的2到3倍。數(shù)量太大,造成很多小任務(wù),增加啟動(dòng)任務(wù)的開(kāi)銷(xiāo);數(shù)目太少,任務(wù)運(yùn)行緩慢。
如果你想了解大數(shù)據(jù)的學(xué)習(xí)路線,想學(xué)習(xí)大數(shù)據(jù)知識(shí)以及需要免費(fèi)的學(xué)習(xí)資料可以加群:784789432.歡迎你的加入。每天下午三點(diǎn)開(kāi)直播分享基礎(chǔ)知識(shí),晚上20:00都會(huì)開(kāi)直播給大家分享大數(shù)據(jù)項(xiàng)目實(shí)戰(zhàn)。
問(wèn)題2:shuffle磁盤(pán)IO時(shí)間長(zhǎng)
解決方法:設(shè)置spark.local.dir為多個(gè)磁盤(pán),并設(shè)置磁盤(pán)為IO速度快的磁盤(pán),通過(guò)增加IO來(lái)優(yōu)化shuffle性能;
問(wèn)題3:map|reduce數(shù)量大,造成shuffle小文件數(shù)目多
解決方法:默認(rèn)情況下shuffle文件數(shù)目為map tasks * reduce tasks. 通過(guò)設(shè)置spark.shuffle.consolidateFiles為true,來(lái)合并shuffle中間文件,此時(shí)文件數(shù)為reduce tasks數(shù)目;
問(wèn)題4:序列化時(shí)間長(zhǎng)、結(jié)果大
解決方法:Spark默認(rèn)使.用JDK.自帶的ObjectOutputStream,這種方式產(chǎn)生的結(jié)果大、CPU處理時(shí)間長(zhǎng),可以通過(guò)設(shè)置spark.serializer為org.apache.spark.serializer.KryoSerializer。另外如果結(jié)果已經(jīng)很大,可以使用廣播變量;
問(wèn)題5:?jiǎn)螚l記錄消耗大
解決方法:使用mapPartition替換map,mapPartition是對(duì)每個(gè)Partition進(jìn)行計(jì)算,而map是對(duì)partition中的每條記錄進(jìn)行計(jì)算;
問(wèn)題6:collect輸出大量結(jié)果時(shí)速度慢
解決方式:collect源碼中是把所有的結(jié)果以一個(gè)Array的方式放在內(nèi)存中,可以直接輸出到分布式?文件系統(tǒng),然后查看文件系統(tǒng)中的內(nèi)容;
問(wèn)題7:任務(wù)執(zhí)行速度傾斜
解決方式:如果是數(shù)據(jù)傾斜,一般是partition key取的不好,可以考慮其它的并行處理方式 ,并在中間加上aggregation操作;如果是Worker傾斜,例如在某些worker上的executor執(zhí)行緩慢,可以通過(guò)設(shè)置spark.speculation=true 把那些持續(xù)慢的節(jié)點(diǎn)去掉;
問(wèn)題8:通過(guò)多步驟的RDD操作后有很多空任務(wù)或者小任務(wù)產(chǎn)生
解決方式:使用coalesce或repartition去減少RDD中partition數(shù)量;
問(wèn)題9:Spark Streaming吞吐量不高
解決方式:可以設(shè)置spark.streaming.concurrentJobs
schedule調(diào)度相關(guān)參數(shù)
spark.cores.max
CPU計(jì)算資源的數(shù)量,spark.cores.max 這個(gè)參數(shù)決定了在Standalone和Mesos模式下,一個(gè)Spark應(yīng)用程序所能申請(qǐng)的CPU Core的數(shù)量
這個(gè)參數(shù)需要注意的是,這個(gè)參數(shù)對(duì)Yarn模式不起作用,YARN模式下,資源由Yarn統(tǒng)一調(diào)度管理
CPU資源的數(shù)量由另外兩個(gè)直接配置Executor的數(shù)量和每個(gè)Executor中core數(shù)量的參數(shù)決定。
spark.scheduler.mode
單個(gè)Spark應(yīng)用內(nèi)部調(diào)度的時(shí)候使用FIFO模式還是Fair模式
spark.speculation
spark.speculation(推測(cè)機(jī)制開(kāi)關(guān))以及spark.speculation.interval(),spark.speculation.quantile, spark.speculation.multiplier等參數(shù)調(diào)整Speculation行為的具體細(xì)節(jié)
spark.executor.memory xxG 設(shè)置內(nèi)存
spark.executor.cores x 設(shè)置每個(gè)excutor核數(shù)
spark.cores.max xx 設(shè)置最大核使用數(shù)量
若如出現(xiàn)各種timeout,executor lost ,task lost
spark.network.timeout 根據(jù)情況改成300(5min)或更高。,默認(rèn)為 120(120s),配置所有網(wǎng)絡(luò)傳輸?shù)难訒r(shí),如果沒(méi)有主動(dòng)設(shè)置以下參數(shù),默認(rèn)覆蓋其屬性