[TOC]
創(chuàng)新互聯(lián)專注于大祥企業(yè)網(wǎng)站建設(shè),成都響應(yīng)式網(wǎng)站建設(shè)公司,商城開發(fā)。大祥網(wǎng)站建設(shè)公司,為大祥等地區(qū)提供建站服務(wù)。全流程定制網(wǎng)站建設(shè),專業(yè)設(shè)計(jì),全程項(xiàng)目跟蹤,創(chuàng)新互聯(lián)專業(yè)和態(tài)度為您提供的服務(wù)非?;镜恼f明,下面一張圖就能夠有基本的理解:
1、Spark的核心概念是RDD (resilient distributed dataset,彈性分布式數(shù)據(jù)集),指的是一個(gè)只讀的,可分區(qū)的分布式數(shù)據(jù)集,這個(gè)數(shù)據(jù)集的全部或部分可以緩存在內(nèi)存中,在多次計(jì)算間重用。
2、RDD在抽象上來(lái)說是一種元素集合,包含了數(shù)據(jù)。它是被分區(qū)的,分為多個(gè)分區(qū),每個(gè)分區(qū)分布在集群中的不同Worker節(jié)點(diǎn)上,從而讓RDD中的數(shù)據(jù)可以被并行操作。(分布式數(shù)據(jù)集)
3、RDD通常通過Hadoop上的文件,即HDFS文件或者Hive表,來(lái)進(jìn)行創(chuàng)建;有時(shí)也可以通過RDD的本地創(chuàng)建轉(zhuǎn)換而來(lái)。
4、傳統(tǒng)的MapReduce雖然具有自動(dòng)容錯(cuò)、平衡負(fù)載和可拓展性的優(yōu)點(diǎn),但是其大缺點(diǎn)是采用非循環(huán)式的數(shù)據(jù)流模型,使得在迭代計(jì)算式要進(jìn)行大量的磁盤IO操作(每跑完一個(gè)Job,拿到其中間結(jié)果后,再跑下一個(gè)Job,聯(lián)想使用MR做數(shù)據(jù)清洗的案例)。RDD正是解決這一缺點(diǎn)的抽象方法。RDD最重要的特性就是,提供了容錯(cuò)性,可以自動(dòng)從節(jié)點(diǎn)失敗中恢復(fù)過來(lái)。即如果某個(gè)節(jié)點(diǎn)上的RDD partition,因?yàn)楣?jié)點(diǎn)故障,導(dǎo)致數(shù)據(jù)丟了,那么RDD會(huì)自動(dòng)通過自己的數(shù)據(jù)來(lái)源重新計(jì)算該partition。這一切對(duì)使用者是透明的。RDD的lineage特性(類似于族譜,像上面的圖,假如某個(gè)partition的數(shù)據(jù)丟失了,找到其父partition重新計(jì)算即可,我稱之為溯源)。
5、RDD的數(shù)據(jù)默認(rèn)情況下存放在內(nèi)存中的,但是在內(nèi)存資源不足時(shí),Spark會(huì)自動(dòng)將RDD數(shù)據(jù)寫入磁盤。(彈性)
(1)為什么會(huì)有Spark?因?yàn)閭鹘y(tǒng)的并行計(jì)算模型無(wú)法有效的解決迭代計(jì)算(iterative)和交互式計(jì)算(interactive);而Spark的使命便是解決這兩個(gè)問題,這也是他存在的價(jià)值和理由。
(2)Spark如何解決迭代計(jì)算?其主要實(shí)現(xiàn)思想就是RDD,把所有計(jì)算的數(shù)據(jù)保存在分布式的內(nèi)存中。迭代計(jì)算通常情況下都是對(duì)同一個(gè)數(shù)據(jù)集做反復(fù)的迭代計(jì)算,數(shù)據(jù)在內(nèi)存中將大大提升IO操作。這也是Spark涉及的核心:內(nèi)存計(jì)算。(一行搞定wc:sc.textFile("./hello").flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).collect.foreach(println)
,這就是典型的迭代計(jì)算了)
(3)Spark如何實(shí)現(xiàn)交互式計(jì)算?因?yàn)镾park是用scala語(yǔ)言實(shí)現(xiàn)的,Spark和scala能夠緊密的集成,所以Spark可以完美的運(yùn)用scala的解釋器,使得其中的scala可以向操作本地集合對(duì)象一樣輕松操作分布式數(shù)據(jù)集。
(4)Spark和RDD的關(guān)系?可以理解為:RDD是一種具有容錯(cuò)性基于內(nèi)存的集群計(jì)算抽象方法,Spark則是這個(gè)抽象方法的實(shí)現(xiàn)。
1、核心模塊開發(fā):離線批處理 Spark Core
2、實(shí)時(shí)計(jì)算:底層也是基于RDD Spark Streaming
3、Spark SQL/Hive:交互式分析
4、Spark Graphx:圖計(jì)算
5、Spark Mlib: 數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)
大多數(shù)應(yīng)該都要實(shí)地寫過spark程序和提交任務(wù)到spark集群后才有更好的理解。
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無(wú)理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。