引言:在多臺機器上分布數(shù)據(jù)以及處理數(shù)據(jù)是Spark的核心能力,即我們所說的大規(guī)模的數(shù)據(jù)集處理。為了充分利用Spark特性,應(yīng)該考慮一些調(diào)優(yōu)技術(shù)。本文每一小節(jié)都是關(guān)于調(diào)優(yōu)技術(shù)的,并給出了如何實現(xiàn)調(diào)優(yōu)的必要步驟。
本文選自《Spark GraphX實戰(zhàn)》。創(chuàng)新互聯(lián)網(wǎng)絡(luò)公司擁有10年的成都網(wǎng)站開發(fā)建設(shè)經(jīng)驗,近1000家客戶的共同信賴。提供成都網(wǎng)站制作、網(wǎng)站建設(shè)、網(wǎng)站開發(fā)、網(wǎng)站定制、賣鏈接、建網(wǎng)站、網(wǎng)站搭建、響應(yīng)式網(wǎng)站建設(shè)、網(wǎng)頁設(shè)計師打造企業(yè)風格,提供周到的售前咨詢和貼心的售后服務(wù)
我們知道Spark 可以通過 RDD 實現(xiàn)計算鏈的原理 :轉(zhuǎn)換函數(shù)包含在 RDD 鏈中,但僅在調(diào)用 action 函數(shù)后才會觸發(fā)實際的求值過程,執(zhí)行分布式運算,返回運算結(jié)果。要是在 同一 RDD 上重復(fù)調(diào)用 action 會發(fā)生什么?
一般 RDD 不會保留運算結(jié)果,如果再次調(diào)用 action 函數(shù),整個 RDD 鏈會重新 運算。有些情況下這不會有問題,但是對于許多機器學習任務(wù)和圖處理任務(wù),這就 是很大的問題了。通常需要多次迭代的算法,在同一個 RDD 上執(zhí)行很多次,反復(fù) 地重新加載數(shù)據(jù)和重新計算會導(dǎo)致時間浪費。更糟糕的是,這些算法通常需要很長 的 RDD 鏈。
看來我們需要另一種方式來充分利用集群可用內(nèi)存來保存 RDD 的運算結(jié)果。 這就是 Spark 緩存(緩存也是 Spark 支持的一種持久化類型)。
要在內(nèi)存中緩存一個 RDD,可以調(diào)用 RDD 對象的 cache 函數(shù)。以下在 spark- shell 中執(zhí)行的代碼,會計算文件的總行數(shù),輸出文件內(nèi)容 :
val filename = "..."val rdd1 = sc.textFile(filename).cacherdd1.countrdd1.collect
如果不調(diào)用 cache 函數(shù),當 count 和 collect 這兩個 action 函數(shù)被調(diào)用時, 會導(dǎo)致執(zhí)行從存儲系統(tǒng)中讀文件兩次。調(diào)用了 cache 函數(shù),第一個 action 函數(shù)(count 函數(shù))會把它的運算結(jié)果保留在內(nèi)存中,在執(zhí)行第二個 action 函數(shù)(collection 函數(shù))時,會直接在使用緩存的數(shù)據(jù)上繼續(xù)運算,而不需要重新計算整個 RDD 鏈。 即使通過轉(zhuǎn)換緩存的 RDD,生成新的 RDD,緩存的數(shù)據(jù)仍然可用。下面的代碼會找出所有的注釋行(以 # 開始的行數(shù)據(jù))。
val rdd2 =rdd1.filter(_.startsWith("#")) rdd2.collect
因為 rdd2 源于已緩存的 rdd1,rdd1 已經(jīng)把它的運算結(jié)果緩存在內(nèi)存中了, 所以 rdd2 也就不需要重新從存儲系統(tǒng)中讀取數(shù)據(jù)。
注意:cache 方法作為一個標志表示 RDD 應(yīng)當緩存,但并不是立即緩存。 緩存發(fā)生在當前 RDD 在下一次要被計算的時候。
如上所述,緩存是其中一種持久化類型。下表列出了 Spark 支持的所有持久 化等級。
想及時獲得更多精彩文章,可在微信中搜索“博文視點”或者掃描下方二維碼并關(guān)注。