本篇文章給大家分享的是有關(guān)Spark工作流程是怎樣的呢,小編覺得挺實(shí)用的,因此分享給大家學(xué)習(xí),希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。
成都創(chuàng)新互聯(lián)專注于會(huì)寧企業(yè)網(wǎng)站建設(shè),成都響應(yīng)式網(wǎng)站建設(shè)公司,商城開發(fā)。會(huì)寧網(wǎng)站建設(shè)公司,為會(huì)寧等地區(qū)提供建站服務(wù)。全流程按需設(shè)計(jì)網(wǎng)站,專業(yè)設(shè)計(jì),全程項(xiàng)目跟蹤,成都創(chuàng)新互聯(lián)專業(yè)和態(tài)度為您提供的服務(wù)一、Spark架構(gòu)組成圖:
The following table summarizes terms you’ll see used to refer to cluster concepts:
Term | Meaning |
---|---|
Application | 基于Spark的用戶程序(創(chuàng)建了一個(gè)SparkContext).由一個(gè)driver 進(jìn)程和N個(gè)executor 進(jìn)程on the cluster模式下. |
Application jar | Spark包含的jar包 |
Driver program | 一個(gè)Driver進(jìn)程運(yùn)行 main()方法,創(chuàng)建一個(gè)SparkContext |
Cluster manager | 提交集群(--master local/standalone/on yarn)模式下的資源管理(提交設(shè)置code memory....) |
Deploy mode | 區(qū)分Driver進(jìn)程在什么地方cluster or client,主要區(qū)別是Driver在本地還是集群的Container里 |
Worker node | 運(yùn)行Spark代碼的應(yīng)用程序的節(jié)點(diǎn)(standalone模式概念),在(on yarn)模式下是NodeManager |
Executor | 一個(gè)Executor進(jìn)程,運(yùn)行在Container里,能夠運(yùn)行我們Task,保存數(shù)據(jù)到內(nèi)存里或者磁盤上,每一個(gè)應(yīng)用程序有自己獨(dú)立的Executor |
Task | 最小的工作單元,Driver發(fā)送代碼到Executor然后Task執(zhí)行 |
Job | 每一個(gè)Action就會(huì)產(chǎn)生job(map,conllect) |
Stage | 每個(gè)Job被拆成Task集合,遇到shuffle會(huì)stage+1 |
以上就是Spark工作流程是怎樣的呢,小編相信有部分知識(shí)點(diǎn)可能是我們?nèi)粘9ぷ鲿?huì)見到或用到的。希望你能通過這篇文章學(xué)到更多知識(shí)。更多詳情敬請(qǐng)關(guān)注創(chuàng)新互聯(lián)-成都網(wǎng)站建設(shè)公司行業(yè)資訊頻道。