真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

如何通過map操作看RDD的Map過程

本篇內(nèi)容介紹了“如何通過map操作看RDD的Map過程”的有關(guān)知識,在實(shí)際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!

成都創(chuàng)新互聯(lián)服務(wù)項(xiàng)目包括永濟(jì)網(wǎng)站建設(shè)、永濟(jì)網(wǎng)站制作、永濟(jì)網(wǎng)頁制作以及永濟(jì)網(wǎng)絡(luò)營銷策劃等。多年來,我們專注于互聯(lián)網(wǎng)行業(yè),利用自身積累的技術(shù)優(yōu)勢、行業(yè)經(jīng)驗(yàn)、深度合作伙伴關(guān)系等,向廣大中小型企業(yè)、政府機(jī)構(gòu)等提供互聯(lián)網(wǎng)行業(yè)的解決方案,永濟(jì)網(wǎng)站推廣取得了明顯的社會效益與經(jīng)濟(jì)效益。目前,我們服務(wù)的客戶以成都為中心已經(jīng)輻射到永濟(jì)省份的部分城市,未來相信會繼續(xù)擴(kuò)大服務(wù)區(qū)域并繼續(xù)獲得客戶的支持與信任!

RDD中的map,flatMap等操作是怎么串在一起形成DAG圖的呢?這是個很重要的問題,理解了這一點(diǎn)才能更好的理解Spark的內(nèi)核實(shí)現(xiàn)。本文通過map過程來試圖解釋這一點(diǎn)。

先看看RDD的一個子類:MapPartitionsRDD,它會用在map函數(shù)場景下。

它的定義:

private[spark] class MapPartitionsRDD[U: ClassTag, T: ClassTag](
    var prev: RDD[T],
    f: (TaskContext, Int, Iterator[T]) => Iterator[U],  // (TaskContext, partition index, iterator)
    preservesPartitioning: Boolean = false,
    isFromBarrier: Boolean = false,
    isOrderSensitive: Boolean = false)
  extends RDD[U](prev)

prev是父RDD,就是父類RDD的入?yún)?,在后面的代碼里就是firstParent。

F代表了map函數(shù)的定義,其中第二個Int參數(shù)是分區(qū)索引號。我們先不管這個f入?yún)⒃趺磦鬟M(jìn)來的,先看看MapPartitionsRDD需要做哪些事。

前面說過,對于RDD來說,最重要的函數(shù)就是compute,MapPartitionsRDD的compute方法定義:

override def compute(split: Partition, context: TaskContext): Iterator[U] =
    f(context, split.index, firstParent[T].iterator(split, context))

很明確,就是用當(dāng)前的solit分區(qū)來執(zhí)行入?yún)⒌膄函數(shù)!

那么,這個MapPartitionsRDD是怎么產(chǎn)生的呢?原來是在RDD類中的map函數(shù)產(chǎn)生的:

def map[U: ClassTag](f: T => U): RDD[U] = withScope {
    val cleanF = sc.clean(f)
    new MapPartitionsRDD[U, T](this, (_, _, iter) => iter.map(cleanF))
  }

這幾行代碼什么意思?這里還是需要好好分析一下的。

對照MapPartitionsRDD的定義,我們知道:

(_, _, iter) => iter.map(cleanF)

里面的_,_代表TaskContext和分區(qū)索引,因?yàn)樵贛apPartitionsRDD的compute方法中已經(jīng)有了split入?yún)⒑蚦ontext入?yún)ⅲ栽赗DD中就不需要傳這兩個參數(shù)了。

iter代表要處理的數(shù)據(jù)集,在MapPartitionsRDD中的compute方法中定義為:

firstParent[T].iterator(split, context)

函數(shù)就是第一個父類RDD的split分區(qū)的數(shù)據(jù)集。這里就很清楚了,對這個數(shù)據(jù)集做cleanF操作(也就是sc.clean之后的map函數(shù),sc.clean是去掉不能序列號的字節(jié)碼的意思,保證可以序列化后分發(fā)到其他節(jié)點(diǎn)執(zhí)行)。

“如何通過map操作看RDD的Map過程”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識可以關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!


本文標(biāo)題:如何通過map操作看RDD的Map過程
本文鏈接:http://weahome.cn/article/jcihip.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部