spark建立在抽象的RDD上,把不同處理的數(shù)據(jù)的需求轉化為RDD,然后對RDD進行一系列的算子運算,從而得到結果。
RDD是一個容錯的,并行的數(shù)據(jù)結構,可以將數(shù)據(jù)存儲到磁盤和內存中,并能控制數(shù)據(jù)分區(qū),并提供了豐富的API來操作數(shù)據(jù)。
1:RDD的定義及五大特性剖析
RDD是分布式內存的一個抽象概念,是一種高度受限的共享內存模型,即RDD時只讀的記錄分區(qū)的集合,能跨集群所有節(jié)點并行計算,是一種基于工作集的抽象模型。
(1)分區(qū)列表
(2)每一個分區(qū)都有一個計算函數(shù)
(3)依賴于其它RDD的列表
(4)key-value數(shù)據(jù)類型的RDD分區(qū)器
(5)每一個分區(qū)都有一個優(yōu)先位置列表
2:DataSet的定義及內部機制剖析
另外有需要云服務器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內外云服務器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應用場景需求。