Spark筆記整理（二）：RDD與spark核心概念名詞-創(chuàng)新互聯(lián)

[TOC]

創(chuàng)新互聯(lián)專注于大祥企業(yè)網(wǎng)站建設(shè),成都響應(yīng)式網(wǎng)站建設(shè)公司,商城開發(fā)。大祥網(wǎng)站建設(shè)公司,為大祥等地區(qū)提供建站服務(wù)。全流程定制網(wǎng)站建設(shè)，專業(yè)設(shè)計(jì)，全程項(xiàng)目跟蹤，創(chuàng)新互聯(lián)專業(yè)和態(tài)度為您提供的服務(wù)

Spark RDD

非?；镜恼f明，下面一張圖就能夠有基本的理解：

Spark筆記整理（二）：RDD與spark核心概念名詞

Spark RDD基本說明

1、Spark的核心概念是RDD (resilient distributed dataset，彈性分布式數(shù)據(jù)集)，指的是一個(gè)只讀的，可分區(qū)的分布式數(shù)據(jù)集，這個(gè)數(shù)據(jù)集的全部或部分可以緩存在內(nèi)存中，在多次計(jì)算間重用。

2、RDD在抽象上來(lái)說是一種元素集合，包含了數(shù)據(jù)。它是被分區(qū)的，分為多個(gè)分區(qū)，每個(gè)分區(qū)分布在集群中的不同Worker節(jié)點(diǎn)上，從而讓RDD中的數(shù)據(jù)可以被并行操作。（分布式數(shù)據(jù)集）

3、RDD通常通過Hadoop上的文件，即HDFS文件或者Hive表，來(lái)進(jìn)行創(chuàng)建；有時(shí)也可以通過RDD的本地創(chuàng)建轉(zhuǎn)換而來(lái)。

4、傳統(tǒng)的MapReduce雖然具有自動(dòng)容錯(cuò)、平衡負(fù)載和可拓展性的優(yōu)點(diǎn)，但是其大缺點(diǎn)是采用非循環(huán)式的數(shù)據(jù)流模型，使得在迭代計(jì)算式要進(jìn)行大量的磁盤IO操作（每跑完一個(gè)Job，拿到其中間結(jié)果后，再跑下一個(gè)Job，聯(lián)想使用MR做數(shù)據(jù)清洗的案例）。RDD正是解決這一缺點(diǎn)的抽象方法。RDD最重要的特性就是，提供了容錯(cuò)性，可以自動(dòng)從節(jié)點(diǎn)失敗中恢復(fù)過來(lái)。即如果某個(gè)節(jié)點(diǎn)上的RDD partition，因?yàn)楣?jié)點(diǎn)故障，導(dǎo)致數(shù)據(jù)丟了，那么RDD會(huì)自動(dòng)通過自己的數(shù)據(jù)來(lái)源重新計(jì)算該partition。這一切對(duì)使用者是透明的。RDD的lineage特性（類似于族譜，像上面的圖，假如某個(gè)partition的數(shù)據(jù)丟失了，找到其父partition重新計(jì)算即可，我稱之為溯源）。

5、RDD的數(shù)據(jù)默認(rèn)情況下存放在內(nèi)存中的，但是在內(nèi)存資源不足時(shí)，Spark會(huì)自動(dòng)將RDD數(shù)據(jù)寫入磁盤。（彈性）

RDD在Spark中的地位和作用

（1）為什么會(huì)有Spark？因?yàn)閭鹘y(tǒng)的并行計(jì)算模型無(wú)法有效的解決迭代計(jì)算（iterative）和交互式計(jì)算（interactive）；而Spark的使命便是解決這兩個(gè)問題，這也是他存在的價(jià)值和理由。

（2）Spark如何解決迭代計(jì)算？其主要實(shí)現(xiàn)思想就是RDD，把所有計(jì)算的數(shù)據(jù)保存在分布式的內(nèi)存中。迭代計(jì)算通常情況下都是對(duì)同一個(gè)數(shù)據(jù)集做反復(fù)的迭代計(jì)算，數(shù)據(jù)在內(nèi)存中將大大提升IO操作。這也是Spark涉及的核心：內(nèi)存計(jì)算。（一行搞定wc：sc.textFile("./hello").flatMap(_.split(" ")).map((_, 1)).reduceByKey(_+_).collect.foreach(println)，這就是典型的迭代計(jì)算了）

（3）Spark如何實(shí)現(xiàn)交互式計(jì)算？因?yàn)镾park是用scala語(yǔ)言實(shí)現(xiàn)的，Spark和scala能夠緊密的集成，所以Spark可以完美的運(yùn)用scala的解釋器，使得其中的scala可以向操作本地集合對(duì)象一樣輕松操作分布式數(shù)據(jù)集。

（4）Spark和RDD的關(guān)系？可以理解為：RDD是一種具有容錯(cuò)性基于內(nèi)存的集群計(jì)算抽象方法，Spark則是這個(gè)抽象方法的實(shí)現(xiàn)。

Spark常用核心模塊

1、核心模塊開發(fā)：離線批處理 Spark Core
2、實(shí)時(shí)計(jì)算：底層也是基于RDD Spark Streaming
3、Spark SQL/Hive：交互式分析
4、Spark Graphx：圖計(jì)算
5、Spark Mlib： 數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)

核心概念名詞

大多數(shù)應(yīng)該都要實(shí)地寫過spark程序和提交任務(wù)到spark集群后才有更好的理解。

ClusterManager：在Standalone模式中即為Master（主節(jié)點(diǎn)），控制整個(gè)集群，監(jiān)控Worker。在YARN模式中為資源管理器。
Worker：從節(jié)點(diǎn)，負(fù)責(zé)控制計(jì)算節(jié)點(diǎn)，啟動(dòng)Executor。在YARN模式中為NodeManager，負(fù)責(zé)計(jì)算節(jié)點(diǎn)的控制。
Driver：運(yùn)行Application的main()函數(shù)并創(chuàng)建SparkContext。
Executor：執(zhí)行器，在worker node上執(zhí)行任務(wù)的組件、用于啟動(dòng)線程池運(yùn)行任務(wù)。每個(gè)Application擁有獨(dú)立的一組Executors。
SparkContext：整個(gè)應(yīng)用的上下文，控制應(yīng)用的生命周期。
RDD：Spark的基本計(jì)算單元，一組RDD可形成執(zhí)行的有向無(wú)環(huán)圖RDD Graph。
DAG Scheduler：實(shí)現(xiàn)將Spark作業(yè)分解成一到多個(gè)Stage，每個(gè)Stage根據(jù)RDD的Partition個(gè)數(shù)決定Task的個(gè)數(shù)，然后生成相應(yīng)的Task set放到TaskScheduler中。
TaskScheduler：將任務(wù)（Task）分發(fā)給Executor執(zhí)行。（所以Executor執(zhí)行的就是我們的代碼）
Stage：一個(gè)Spark作業(yè)一般包含一到多個(gè)Stage。
Task：一個(gè)Stage包含一到多個(gè)Task，通過多個(gè)Task實(shí)現(xiàn)并行運(yùn)行的功能。
Transformations：轉(zhuǎn)換(Transformations) (如：map, filter, groupBy, join等)，Transformations操作是Lazy的，也就是說從一個(gè)RDD轉(zhuǎn)換生成另一個(gè)RDD的操作不是馬上執(zhí)行，Spark在遇到Transformations操作時(shí)只會(huì)記錄需要這樣的操作，并不會(huì)去執(zhí)行，需要等到有Actions操作的時(shí)候才會(huì)真正啟動(dòng)計(jì)算過程進(jìn)行計(jì)算。（后面的wc例子就會(huì)有很好的說明）
Actions：操作(Actions) (如：count, collect, save等)，Actions操作會(huì)返回結(jié)果或把RDD數(shù)據(jù)寫到存儲(chǔ)系統(tǒng)中。Actions是觸發(fā)Spark啟動(dòng)計(jì)算的動(dòng)因。
SparkEnv：線程級(jí)別的上下文，存儲(chǔ)運(yùn)行時(shí)的重要組件的引用。SparkEnv內(nèi)創(chuàng)建并包含如下一些重要組件的引用。
- MapOutPutTracker：負(fù)責(zé)Shuffle元信息的存儲(chǔ)。
- BroadcastManager：負(fù)責(zé)廣播變量的控制與元信息的存儲(chǔ)。
- BlockManager：負(fù)責(zé)存儲(chǔ)管理、創(chuàng)建和查找塊。
- MetricsSystem：監(jiān)控運(yùn)行時(shí)性能指標(biāo)信息。
- SparkConf：負(fù)責(zé)存儲(chǔ)配置信息。

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn，海內(nèi)外云服務(wù)器15元起步，三天無(wú)理由+7*72小時(shí)售后在線，公司持有idc許可證，提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案，具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì)，專為企業(yè)上云打造定制，能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。

標(biāo)題名稱：Spark筆記整理（二）：RDD與spark核心概念名詞-創(chuàng)新互聯(lián)
瀏覽路徑：http://weahome.cn/article/jshjg.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

Spark筆記整理（二）：RDD與spark核心概念名詞-創(chuàng)新互聯(lián)

Spark RDD

Spark RDD基本說明

RDD在Spark中的地位和作用

Spark常用核心模塊

核心概念名詞

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管