Spark是分布式內(nèi)存計(jì)算框架,而不是分布式內(nèi)容存儲(chǔ)框架,搭配tachyon分布式內(nèi)存文件系統(tǒng),會(huì)更加有效果。
創(chuàng)新互聯(lián)是一家業(yè)務(wù)范圍包括IDC托管業(yè)務(wù),網(wǎng)頁空間、主機(jī)租用、主機(jī)托管,四川、重慶、廣東電信服務(wù)器租用,四川聯(lián)通機(jī)房服務(wù)器托管,成都網(wǎng)通服務(wù)器托管,成都服務(wù)器租用,業(yè)務(wù)范圍遍及中國大陸、港澳臺(tái)以及歐美等多個(gè)國家及地區(qū)的互聯(lián)網(wǎng)數(shù)據(jù)服務(wù)公司。在文件模式下,spark比hadoop快10倍,在內(nèi)存計(jì)算模式下,快100倍!
下面是一些
1 spark是分布式 基于內(nèi)存 特別適合于迭代計(jì)算的計(jì)算框架
2 mapReduce就兩個(gè)階段map和reduce,而spark是不斷地迭代計(jì)算,更加靈活更加強(qiáng)大,容易構(gòu)造復(fù)雜算法。
3 spark不能取代hive,hive做數(shù)據(jù)倉庫存儲(chǔ),spark sql只是取代hive的計(jì)算引擎,成為分析平臺(tái),hadoop作為存儲(chǔ)平臺(tái)
4 spark中間數(shù)據(jù)可以在內(nèi)存也可以在磁盤
5 partition是一個(gè)數(shù)據(jù)集合
6 注意:初學(xué)者執(zhí)行多個(gè)步驟要注意分步檢驗(yàn),不然不知哪里錯(cuò)了
7 var data = sc.textFile("/user") 不必寫hdfs:// ,根據(jù)上下文判斷
8 讀文件得到HadoopRDD,去掉文件中索引,得到MapPartitionsRDD,這樣一系列分片的數(shù)據(jù)分布在 不同的機(jī)器。
9 移動(dòng)計(jì)算而不是移動(dòng)數(shù)據(jù)
移動(dòng)計(jì)算表示分布到各個(gè)機(jī)器上,分別計(jì)算自身負(fù)責(zé)的那部分?jǐn)?shù)據(jù),而不是把數(shù)據(jù)從各個(gè)機(jī)器上移動(dòng)來進(jìn)行計(jì)算。
計(jì)算完后進(jìn)行數(shù)據(jù)匯總。
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。