Spark的核心調(diào)優(yōu)參數(shù)是什么,很多新手對此不是很清楚,為了幫助大家解決這個難題,下面小編將為大家詳細(xì)講解,有這方面需求的人可以來學(xué)習(xí)下,希望你能有所收獲。
10多年的興寧網(wǎng)站建設(shè)經(jīng)驗(yàn),針對設(shè)計(jì)、前端、開發(fā)、售后、文案、推廣等六對一服務(wù),響應(yīng)快,48小時(shí)及時(shí)工作處理。全網(wǎng)整合營銷推廣的優(yōu)勢是能夠根據(jù)用戶設(shè)備顯示端的尺寸不同,自動調(diào)整興寧建站的顯示方式,使網(wǎng)站能夠適用不同顯示終端,在瀏覽器中調(diào)整網(wǎng)站的寬度,無論在任何一種瀏覽器上瀏覽網(wǎng)站,都能展現(xiàn)優(yōu)雅布局與設(shè)計(jì),從而大程度地提升瀏覽體驗(yàn)。創(chuàng)新互聯(lián)公司從事“興寧網(wǎng)站設(shè)計(jì)”,“興寧網(wǎng)站推廣”以來,每個客戶項(xiàng)目都認(rèn)真落實(shí)執(zhí)行。num-executors:
該參數(shù)用于設(shè)置Spark作業(yè)總共要用多少個Executor進(jìn)程來執(zhí)行。Driver在向YARN集群管理器申請資源時(shí),YARN集群管理器會盡可能按照你的設(shè)置來在集群的各個工作節(jié)點(diǎn)上,啟動相應(yīng)數(shù)量的Executor進(jìn)程。這個參數(shù)非常之重要,如果不設(shè)置的話,默認(rèn)只會給你啟動少量的Executor進(jìn)程,此時(shí)你的Spark作業(yè)的運(yùn)行速度是非常慢的。(建議50~100個左右的Executor進(jìn)程)
executor-memory:
該參數(shù)用于設(shè)置每個Executor進(jìn)程的內(nèi)存。Executor內(nèi)存的大小,很多時(shí)候直接決定了Spark作業(yè)的性能,而且跟常見的JVMOOM異常,也有直接的關(guān)聯(lián)。(根據(jù)作業(yè)大小不同,建議設(shè)置4G~8G,num-executors乘以executor-memory,是不能超過隊(duì)列的較大內(nèi)存量的)
executor-cores:
該參數(shù)用于設(shè)置每個Executor進(jìn)程的CPUcore數(shù)量。這個參數(shù)決定了每個Executor進(jìn)程并行執(zhí)行task線程的能力。因?yàn)槊總€CPUcore同一時(shí)間只能執(zhí)行一個task線程,因此每個Executor進(jìn)程的CPUcore數(shù)量越多,越能夠快速地執(zhí)行完分配給自己的所有task線程。(建議設(shè)置為2~4個,且num-executors*executor-cores不要超過隊(duì)列總CPUcore的1/3~1/2)
driver-memory:
該參數(shù)用于設(shè)置Driver進(jìn)程的內(nèi)存(建議設(shè)置512M到1G)。
spark.default.parallelism:
該參數(shù)用于設(shè)置每個stage的默認(rèn)task數(shù)量。這個參數(shù)極為重要,如果不設(shè)置可能會直接影響你的Spark作業(yè)性能。(建議為50~500左右,缺省情況下Spark自己根據(jù)底層HDFS的block數(shù)量來設(shè)置task的數(shù)量,默認(rèn)是一個HDFSblock對應(yīng)一個task。Spark官網(wǎng)建議設(shè)置該參數(shù)為num-executors*executor-cores的2~3倍較為合適)
spark.storage.memoryFraction:
該參數(shù)用于設(shè)置RDD持久化數(shù)據(jù)在Executor內(nèi)存中能占的比例,默認(rèn)是0.6(原則上是盡可能保證數(shù)據(jù)能夠全部在內(nèi)存中,但如果發(fā)現(xiàn)作業(yè)發(fā)生頻繁的GC,就該考慮是否調(diào)?。?/p>
spark.shuffle.memoryFraction:
該參數(shù)用于設(shè)置shuffle過程中一個task拉取到上個stage的task的輸出后,進(jìn)行聚合操作時(shí)能夠使用的Executor內(nèi)存的比例,默認(rèn)是0.2。也就是說,Executor默認(rèn)只有20%的內(nèi)存用來進(jìn)行該操作。shuffle操作在進(jìn)行聚合時(shí),如果發(fā)現(xiàn)使用的內(nèi)存超出了這個20%的限制,那么多余的數(shù)據(jù)就會溢寫到磁盤文件中去,此時(shí)就會極大地降低性能。(shuffle操作較多時(shí),建議降低持久化操作的內(nèi)存占比,提高shuffle操作的內(nèi)存占比比例,避免shuffle過程中數(shù)據(jù)過多時(shí)內(nèi)存不夠用,必須溢寫到磁盤上,降低了性能)
看完上述內(nèi)容是否對您有幫助呢?如果還想對相關(guān)知識有進(jìn)一步的了解或閱讀更多相關(guān)文章,請關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝您對創(chuàng)新互聯(lián)網(wǎng)站建設(shè)公司,的支持。