真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

RDD的持久化怎么理解

這篇文章主要講解了“RDD的持久化怎么理解”,文中的講解內(nèi)容簡(jiǎn)單清晰,易于學(xué)習(xí)與理解,下面請(qǐng)大家跟著小編的思路慢慢深入,一起來研究和學(xué)習(xí)“RDD的持久化怎么理解”吧!

成都創(chuàng)新互聯(lián)是一家集網(wǎng)站建設(shè),岳普湖企業(yè)網(wǎng)站建設(shè),岳普湖品牌網(wǎng)站建設(shè),網(wǎng)站定制,岳普湖網(wǎng)站建設(shè)報(bào)價(jià),網(wǎng)絡(luò)營銷,網(wǎng)絡(luò)優(yōu)化,岳普湖網(wǎng)站推廣為一體的創(chuàng)新建站企業(yè),幫助傳統(tǒng)企業(yè)提升企業(yè)形象加強(qiáng)企業(yè)競(jìng)爭(zhēng)力。可充分滿足這一群體相比中小企業(yè)更為豐富、高端、多元的互聯(lián)網(wǎng)需求。同時(shí)我們時(shí)刻保持專業(yè)、時(shí)尚、前沿,時(shí)刻以成就客戶成長自我,堅(jiān)持不斷學(xué)習(xí)、思考、沉淀、凈化自己,讓我們?yōu)楦嗟钠髽I(yè)打造出實(shí)用型網(wǎng)站。

Spark最重要的一個(gè)功能,就是在不同操作間,持久化(或緩存)一個(gè)數(shù)據(jù)集在內(nèi)存中。當(dāng)你持久化一個(gè)RDD,每一個(gè)結(jié)點(diǎn)都將把它的計(jì)算分塊結(jié)果保存在內(nèi)存中,并在對(duì)此數(shù)據(jù)集(或者衍生出的數(shù)據(jù)集)進(jìn)行的其它動(dòng)作中重用。這將使得后續(xù)的動(dòng)作(Actions)變得更加迅速(通???0倍)。緩存是用Spark構(gòu)建迭代算法的關(guān)鍵。
你可以用persist()或cache()方法來標(biāo)記一個(gè)要被持久化的RDD,然后一旦首次被一個(gè)動(dòng)作(Action)觸發(fā)計(jì)算,它將會(huì)被保留在計(jì)算結(jié)點(diǎn)的內(nèi)存中并重用。Cache有容錯(cuò)機(jī)制,如果RDD的任一分區(qū)丟失了,通過使用原先創(chuàng)建它的轉(zhuǎn)換操作,它將會(huì)被自動(dòng)重算(不需要全部重算,只計(jì)算丟失的部分)。當(dāng)需要?jiǎng)h除被持久化的RDD,可以用unpersistRDD()來完成該工作。
此外,每一個(gè)RDD都可以用不同的保存級(jí)別進(jìn)行保存,從而允許你持久化數(shù)據(jù)集在硬盤,或者在內(nèi)存作為序列化的Java對(duì)象(節(jié)省空間),甚至于跨結(jié)點(diǎn)復(fù)制。這些等級(jí)選擇,是通過將一個(gè)org.apache.spark.storage.StorageLevel對(duì)象傳遞給persist()方法進(jìn)行確定。cache()方法是使用默認(rèn)存儲(chǔ)級(jí)別的快捷方法,也就是StorageLevel.MEMORY_ONLY(將反序列化的對(duì)象存入內(nèi)存)。
StorageLevel有五個(gè)屬性,分別是:useDisk_是否使用磁盤,useMemory_是否使用內(nèi)存,useOffHeap_是否使用堆外內(nèi)存如:Tachyon,deserialized_是否進(jìn)行反序列化,replication_備份數(shù)目。
完整的可選存儲(chǔ)級(jí)別如下:

RDD的持久化怎么理解 
存儲(chǔ)級(jí)別的選擇
Spark的不同存儲(chǔ)級(jí)別,旨在滿足內(nèi)存使用和CPU效率權(quán)衡上的不同需求。我們建議通過以下的步驟來進(jìn)行選擇:
?如果你的RDDs可以很好的與默認(rèn)的存儲(chǔ)級(jí)別(MEMORY_ONLY)契合,就不需要做任何修改了。這已經(jīng)是CPU使用效率最高的選項(xiàng),它使得RDDs的操作盡可能的快。?如果不行,試著使用MEMORY_ONLY_SER并且選擇一個(gè)快速序列化的庫使得對(duì)象在有比較高的空間使用率的情況下,依然可以較快被訪問。
?
盡可能不要存儲(chǔ)到硬盤上,除非計(jì)算數(shù)據(jù)集的函數(shù),計(jì)算量特別大,或者它們過濾
了大量的數(shù)據(jù)。否則,重新計(jì)算一個(gè)分區(qū)的速度,和與從硬盤中讀取基本差不多快。

感謝各位的閱讀,以上就是“RDD的持久化怎么理解”的內(nèi)容了,經(jīng)過本文的學(xué)習(xí)后,相信大家對(duì)RDD的持久化怎么理解這一問題有了更深刻的體會(huì),具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是創(chuàng)新互聯(lián),小編將為大家推送更多相關(guān)知識(shí)點(diǎn)的文章,歡迎關(guān)注!


網(wǎng)站題目:RDD的持久化怎么理解
本文鏈接:http://weahome.cn/article/ggcdgh.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部