使用parallelize創(chuàng)建RDD 也 可以使用makeRDD來創(chuàng)建RDD。
網(wǎng)站制作、成都做網(wǎng)站的開發(fā),更需要了解用戶,從用戶角度來建設(shè)網(wǎng)站,獲得較好的用戶體驗(yàn)。創(chuàng)新互聯(lián)多年互聯(lián)網(wǎng)經(jīng)驗(yàn),見的多,溝通容易、能幫助客戶提出的運(yùn)營建議。作為成都一家網(wǎng)絡(luò)公司,打造的就是網(wǎng)站建設(shè)產(chǎn)品直銷的概念。選擇創(chuàng)新互聯(lián),不只是建站,我們把建站作為產(chǎn)品,不斷的更新、完善,讓每位來訪用戶感受到浩方產(chǎn)品的價(jià)值服務(wù)。通過查看源碼可以發(fā)現(xiàn),makeRDD執(zhí)行的時(shí)候,也是在調(diào)用parallelize函數(shù),二者無區(qū)別。
通過 .textFile 可以通過文件讀取項(xiàng)目路徑 和 hdfs 文件路徑
*
makeRDD 和 parallelize 第二個(gè)參數(shù)為處理的并行度數(shù)量
不給定時(shí),默認(rèn)值為 通過
conf.getInt("spark.default.parallelism", math.max(totalCoreCount.get(), 2)) 獲取
即 獲取 spark.default.parallelism 參數(shù)值
當(dāng)參數(shù)值存在時(shí),使用 spark.default.parallelism 配置的參數(shù)
當(dāng)參數(shù)不存在時(shí),比較系統(tǒng)總共可用核數(shù) 和 2 ,哪個(gè)大使用哪個(gè)
*
通過.textFile 第二個(gè)參數(shù)為處理的并行度數(shù)量(textFile對數(shù)據(jù)切分規(guī)則和hadoop對文件切分規(guī)則一致)
不給定時(shí),默認(rèn)值為取 conf.getInt("spark.default.parallelism", math.min(totalCoreCount.get(), 2))
即參數(shù)不存在時(shí),比較系統(tǒng)總共可用核數(shù) 和 2 ,哪個(gè)小使用哪個(gè),但是不一定是分區(qū)數(shù),取決于hadoop讀取文件時(shí)的分片規(guī)則
查看源碼可發(fā)現(xiàn),底層調(diào)用的是 hadoopFile,因此 假設(shè)參數(shù)默認(rèn)值為 2
經(jīng)過hadoop切片處理,會(huì)經(jīng)過hadoop對文件進(jìn)行切分,假如數(shù)據(jù)為5條,經(jīng)過hadoop切片會(huì)分成 2 2 1 條數(shù)據(jù)
*
saveRDD 函數(shù)存儲(chǔ)的分區(qū)數(shù),即數(shù)據(jù)文本數(shù)量,取決于 運(yùn)行的并行度
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。