本篇內(nèi)容介紹了“Spark是什么”的有關(guān)知識(shí),在實(shí)際案例的操作過(guò)程中,不少人都會(huì)遇到這樣的困境,接下來(lái)就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!
創(chuàng)新互聯(lián)建站"三網(wǎng)合一"的企業(yè)建站思路。企業(yè)可建設(shè)擁有電腦版、微信版、手機(jī)版的企業(yè)網(wǎng)站。實(shí)現(xiàn)跨屏營(yíng)銷,產(chǎn)品發(fā)布一步更新,電腦網(wǎng)絡(luò)+移動(dòng)網(wǎng)絡(luò)一網(wǎng)打盡,滿足企業(yè)的營(yíng)銷需求!創(chuàng)新互聯(lián)建站具備承接各種類型的成都網(wǎng)站設(shè)計(jì)、網(wǎng)站制作項(xiàng)目的能力。經(jīng)過(guò)十年的努力的開(kāi)拓,為不同行業(yè)的企事業(yè)單位提供了優(yōu)質(zhì)的服務(wù),并獲得了客戶的一致好評(píng)。
一、到底什么是Spark?
Spark是一個(gè)通用的大數(shù)據(jù)計(jì)算平臺(tái),基于“One Stack to rule them all”的理念成功成為了一體化多元化的大數(shù)據(jù)處理平臺(tái),輕松應(yīng)對(duì)大數(shù)據(jù)處理中的實(shí)時(shí)流計(jì)算、SQL交互式查詢、機(jī)器學(xué)習(xí)和圖計(jì)算等:
Spark源于BDAS:
基于該技術(shù)堆棧,Spark目前已經(jīng)成為大數(shù)據(jù)通用計(jì)算平臺(tái):
二, Spark的速度為何如此之快?
首先我們看一下Hadoop經(jīng)典的處理過(guò)程:
MapReduce在每次執(zhí)行的時(shí)候都要從磁盤讀數(shù)據(jù),計(jì)算完畢后都要把數(shù)據(jù)存放到磁盤上:
而Spark是基于內(nèi)存的:
另外一方面,DAG也是Spark快的極為重要的原因,下面是一張DAG圖的示例:
大家也可以看一下網(wǎng)絡(luò)上一張描述DAG更多細(xì)節(jié)的圖片:
基于DAG,Spark具備了非常精致的作業(yè)調(diào)度系統(tǒng):
DAG中的依賴有寬依賴和窄依賴之分:
在DAG圖中可以根據(jù)依賴對(duì)pipeline等優(yōu)化操作:
基于RDD和DAG,并行計(jì)算整個(gè)Job:
“Spark是什么”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!