Spark簡介

==> 什么是 Spark

創(chuàng)新互聯(lián)建站是一家專業(yè)提供三江侗企業(yè)網(wǎng)站建設(shè),專注與成都做網(wǎng)站、網(wǎng)站制作、成都h5網(wǎng)站建設(shè)、小程序制作等業(yè)務(wù)。10年已為三江侗眾多企業(yè)、政府機(jī)構(gòu)等服務(wù)。創(chuàng)新互聯(lián)專業(yè)網(wǎng)絡(luò)公司優(yōu)惠進(jìn)行中。

---> Spark 是一個針對大規(guī)模數(shù)據(jù)處理的快速通用引擎

---> Spark 是 MapReduce 的替代方案，而且兼容 HDFS, Hive, 可容入Hadoop 的生態(tài)系統(tǒng)，彌補(bǔ) MapReduce 的不足

==> Spark 核心 RDD (Resilient Distributed Datasets 彈性分布式數(shù)據(jù)集)

---> RDD 可簡單理解為：一個提供了很多操作接口的數(shù)據(jù)集合，分布式存儲于集群環(huán)境中的存儲設(shè)備中（內(nèi)存或硬盤），其中包括容錯，并行處理等功能

==> Spark 特點(diǎn)

---> 快

---- 優(yōu)點(diǎn)：與Mapreduce 相比，Spark 基于內(nèi)存運(yùn)算，運(yùn)算速度要快100倍，基于硬盤計(jì)算，運(yùn)算速度要快 10 倍

---- 缺點(diǎn)：沒有對內(nèi)存進(jìn)行管理，把所有的內(nèi)存管理都交給應(yīng)用程序，以彌補(bǔ)MapReduce的不足，

容易出現(xiàn) OOM（out of memory）, 可使用 Java Heap Dump 工具分析 Java 程序的內(nèi)存溢出

---> 易用

---- Spark 支持 Java ，Python, Scala 的 API

---- 支持80多種算法

---- 支持交互式，可以在shell 中使用Spark 驗(yàn)證解決問題的方法

---> 通用（生態(tài)圈）

---- 批處理

---- 交互式查詢（Spark SQL）

---- 實(shí)時(shí)流處理（Spark Streaming）

---- 機(jī)器學(xué)習(xí) ( Spark MLlib )

---- 圖計(jì)算 ( GraphX )

---- 與 Hadoop 很好的融合，可以直接操作 HDFS, 并提供 Hive on Spark, Pig on Spark的框架集成 Hadoop（配置Hive on Spark 還不成熟）

---> 兼容性可以非常方便的與其它開源產(chǎn)品進(jìn)行融合

---- 可以使用 Hadoop 的 YARN 和 Apache Mesos 作為它的資源管理調(diào)度器

---- 可以處理所有 Hadoop 支持的數(shù)據(jù)：HDFS， HBase， Cassandra 等

---- 不需要做任何的數(shù)據(jù)遷移就可以使用 Spark 的強(qiáng)大處理能力

---- 可以不依賴第三方的資源管理和調(diào)度器，實(shí)現(xiàn) Standalone 作為它的內(nèi)置的資源管理和調(diào)試框架，降低部署的復(fù)雜性

---- 提供了在 EC2 上部署 Standalone 的Spark 集群工具

==> Spark 生太圈

---> Spark Core

---> Spark SQL

---> Spark Streaming

---> Spark MLLib: 機(jī)器學(xué)習(xí)

---> Spark GraphX: 圖計(jì)算

名稱欄目：Spark簡介
網(wǎng)頁URL：http://weahome.cn/article/jccdco.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆