這篇文章主要介紹“Spark提供了哪些RDD”,在日常操作中,相信很多人在Spark提供了哪些RDD問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”Spark提供了哪些RDD”的疑惑有所幫助!接下來,請跟著小編一起來學(xué)習(xí)吧!
土默特右旗網(wǎng)站制作公司哪家好,找創(chuàng)新互聯(lián)建站!從網(wǎng)頁設(shè)計(jì)、網(wǎng)站建設(shè)、微信開發(fā)、APP開發(fā)、成都響應(yīng)式網(wǎng)站建設(shè)公司等網(wǎng)站項(xiàng)目制作,到程序開發(fā),運(yùn)營維護(hù)。創(chuàng)新互聯(lián)建站于2013年成立到現(xiàn)在10年的時間,我們擁有了豐富的建站經(jīng)驗(yàn)和運(yùn)維經(jīng)驗(yàn),來保證我們的工作的順利進(jìn)行。專注于網(wǎng)站建設(shè)就選創(chuàng)新互聯(lián)建站。
深入RDD
RDD本身是一個抽象類,具有很多具體的實(shí)現(xiàn)子類:
RDD都會基于Partition進(jìn)行計(jì)算:
默認(rèn)的Partitioner如下所示:
其中HashPartitioner的文檔說明如下:
另外一種常用的Partitioner是RangePartitioner:
RDD在持久化的需要考慮內(nèi)存策略:
Spark提供很多StorageLevel可供選擇:
于此同時Spark提供了unpersistRDD:
對RDD本身還有一個非常重要的CheckPoint操作:
其中doCheckpoint的細(xì)節(jié)如下:
以NewHadoopRDD為例,其內(nèi)部的信息如下所示:
以WholeTextFileRDD為例,其內(nèi)部的信息如下所示:
RDD在產(chǎn)生作業(yè)調(diào)用的時候,經(jīng)典的過程如下所示:
到此,關(guān)于“Spark提供了哪些RDD”的學(xué)習(xí)就結(jié)束了,希望能夠解決大家的疑惑。理論與實(shí)踐的搭配能更好的幫助大家學(xué)習(xí),快去試試吧!若想繼續(xù)學(xué)習(xí)更多相關(guān)知識,請繼續(xù)關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編會繼續(xù)努力為大家?guī)砀鄬?shí)用的文章!