本文實(shí)例講述了Spark基本特性、組成、應(yīng)用。分享給大家供大家參考,具體如下:
在新晃等地區(qū),都構(gòu)建了全面的區(qū)域性戰(zhàn)略布局,加強(qiáng)發(fā)展的系統(tǒng)性、市場(chǎng)前瞻性、產(chǎn)品創(chuàng)新能力,以專注、極致的服務(wù)理念,為客戶提供成都網(wǎng)站制作、成都網(wǎng)站設(shè)計(jì) 網(wǎng)站設(shè)計(jì)制作按需求定制設(shè)計(jì),公司網(wǎng)站建設(shè),企業(yè)網(wǎng)站建設(shè),品牌網(wǎng)站制作,全網(wǎng)營銷推廣,外貿(mào)網(wǎng)站制作,新晃網(wǎng)站建設(shè)費(fèi)用合理。
官網(wǎng)地址:http://spark.apache.org/
Apache Spark™是用于大規(guī)模數(shù)據(jù)處理的統(tǒng)一分析引擎。
從右側(cè)最后一條新聞看,Spark也用于AI人工智能
spark是一個(gè)實(shí)現(xiàn)快速通用的集群計(jì)算平臺(tái)。它是由加州大學(xué)伯克利分校AMP實(shí)驗(yàn)室 開發(fā)的通用內(nèi)存并行計(jì)算框架,用來構(gòu)建大型的、低延遲的數(shù)據(jù)分析應(yīng)用程序。它擴(kuò)展了廣泛使用的MapReduce計(jì)算模型。高效的支撐更多計(jì)算模式,包括交互式查詢和流處理。spark的一個(gè)主要特點(diǎn)是能夠在內(nèi)存中進(jìn)行計(jì)算,及時(shí)依賴磁盤進(jìn)行復(fù)雜的運(yùn)算,Spark依然比MapReduce更加高效。
中間結(jié)果輸出:基于MapReduce的計(jì)算引擎通常會(huì)將中間結(jié)果輸出到磁盤上,進(jìn)行存儲(chǔ)和容錯(cuò)。出于任務(wù)管道承接的,考慮,當(dāng)一些查詢翻譯到MapReduce任務(wù)時(shí),往往會(huì)產(chǎn)生多個(gè)Stage,而這些串聯(lián)的Stage又依賴于底層文件系統(tǒng)(如HDFS)來存儲(chǔ)每一個(gè)Stage的輸出結(jié)果。
Spark是MapReduce的替代方案,而且兼容HDFS、Hive,可融入Hadoop的生態(tài)系統(tǒng),以彌補(bǔ)MapReduce的不足。
運(yùn)行速度提高100倍。
Apache Spark使用最先進(jìn)的DAG調(diào)度程序,查詢優(yōu)化程序和物理執(zhí)行引擎,實(shí)現(xiàn)批量和流式數(shù)據(jù)的高性能。
Spark支持Java、Python和Scala的API,還支持超過80種高級(jí)算法,使用戶可以快速構(gòu)建不同的應(yīng)用。而且Spark支持交互式的Python和Scala的shell,可以非常方便地在這些shell中使用Spark集群來驗(yàn)證解決問題的方法。
Spark提供了統(tǒng)一的解決方案。Spark可以用于批處理、交互式查詢(Spark SQL)、實(shí)時(shí)流處理(Spark Streaming)、機(jī)器學(xué)習(xí)(Spark MLlib)和圖計(jì)算(GraphX)。這些不同類型的處理都可以在同一個(gè)應(yīng)用中無縫使用。Spark統(tǒng)一的解決方案非常具有吸引力,畢竟任何公司都想用統(tǒng)一的平臺(tái)去處理遇到的問題,減少開發(fā)和維護(hù)的人力成本和部署平臺(tái)的物力成本。
Spark可以非常方便地與其他的開源產(chǎn)品進(jìn)行融合。比如,Spark可以使用Hadoop的YARN和Apache Mesos作為它的資源管理和調(diào)度器,器,并且可以處理所有Hadoop支持的數(shù)據(jù),包括HDFS、HBase和Cassandra等。這對(duì)于已經(jīng)部署Hadoop集群的用戶特別重要,因?yàn)椴恍枰鋈魏螖?shù)據(jù)遷移就可以使用Spark的強(qiáng)大處理能力。Spark也可以不依賴于第三方的資源管理和調(diào)度器,它實(shí)現(xiàn)了Standalone作為其內(nèi)置的資源管理和調(diào)度框架,這樣進(jìn)一步降低了Spark的使用門檻,使得所有人都可以非常容易地部署和使用Spark。此外,Spark還提供了在EC2上部署Standalone的Spark集群的工具。
Mesos:Spark可以運(yùn)行在Mesos里面(Mesos 類似于yarn的一個(gè)資源調(diào)度框架)
standalone:Spark自己可以給自己分配資源(master,worker)
YARN:Spark可以運(yùn)行在yarn上面
Kubernetes:Spark接收 Kubernetes的資源調(diào)度
Spark組成(BDAS):全稱伯克利數(shù)據(jù)分析棧,通過大規(guī)模集成算法、機(jī)器、人之間展現(xiàn)大數(shù)據(jù)應(yīng)用的一個(gè)平臺(tái)。也是處理大數(shù)據(jù)、云計(jì)算、通信的技術(shù)解決方案。
它的主要組件有:
SparkCore:將分布式數(shù)據(jù)抽象為彈性分布式數(shù)據(jù)集(RDD),實(shí)現(xiàn)了應(yīng)用任務(wù)調(diào)度、RPC、序列化和壓縮,并為運(yùn)行在其上的上層組件提供API。
SparkSQL:Spark Sql 是Spark來操作結(jié)構(gòu)化數(shù)據(jù)的程序包,可以讓我使用SQL語句的方式來查詢數(shù)據(jù),Spark支持 多種數(shù)據(jù)源,包含Hive表,parquest以及JSON等內(nèi)容。
SparkStreaming: 是Spark提供的實(shí)時(shí)數(shù)據(jù)進(jìn)行流式計(jì)算的組件。
MLlib:提供常用機(jī)器學(xué)習(xí)算法的實(shí)現(xiàn)庫。
GraphX:提供一個(gè)分布式圖計(jì)算框架,能高效進(jìn)行圖計(jì)算。
BlinkDB:用于在海量數(shù)據(jù)上進(jìn)行交互式SQL的近似查詢引擎。
Tachyon:以內(nèi)存為中心高容錯(cuò)的的分布式文件系統(tǒng)。
Yahoo將Spark用在Audience Expansion中的應(yīng)用,進(jìn)行點(diǎn)擊預(yù)測(cè)和即席查詢等 淘寶技術(shù)團(tuán)隊(duì)使用了Spark來解決多次迭代的機(jī)器學(xué)習(xí)算法、高計(jì)算復(fù)雜度的算法等。應(yīng)用于內(nèi)容推薦、社區(qū)發(fā)現(xiàn)等
騰訊大數(shù)據(jù)精準(zhǔn)推薦借助Spark快速迭代的優(yōu)勢(shì),實(shí)現(xiàn)了在“數(shù)據(jù)實(shí)時(shí)采集、算法實(shí)時(shí)訓(xùn)練、系統(tǒng)實(shí)時(shí)預(yù)測(cè)”的全流程實(shí)時(shí)并行高維算法,最終成功應(yīng)用于廣點(diǎn)通pCTR投放系統(tǒng)上。
優(yōu)酷土豆將Spark應(yīng)用于視頻推薦(圖計(jì)算)、廣告業(yè)務(wù),主要實(shí)現(xiàn)機(jī)器學(xué)習(xí)、圖計(jì)算等迭代計(jì)算。
更多關(guān)于java算法相關(guān)內(nèi)容感興趣的讀者可查看本站專題:《Java數(shù)據(jù)結(jié)構(gòu)與算法教程》、《Java操作DOM節(jié)點(diǎn)技巧總結(jié)》、《Java文件與目錄操作技巧匯總》和《Java緩存操作技巧匯總》
希望本文所述對(duì)大家java程序設(shè)計(jì)有所幫助。