真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

<dfn id="7ozd9"><source id="7ozd9"><thead id="7ozd9"></thead></source></dfn>

<pre id="7ozd9"></pre>

<blockquote id="7ozd9"><samp id="7ozd9"><small id="7ozd9"></small></samp></blockquote>

<nav id="7ozd9"></nav>

重慶分公司

重慶分公司

028-86922220

Spark與HadoopMapReduce相比，有哪些優(yōu)點(diǎn)你知道嗎？

一提到大數(shù)據(jù)處理，相信很多人第一時間想到的是 Hadoop MapReduce。沒錯，Hadoop MapReduce 為大數(shù)據(jù)處理技術(shù)奠定了基礎(chǔ)。近年來，隨著 Spark 的發(fā)展，越來越多的聲音提到了 Spark。而Spark相比Hadoop MapReduce有哪些優(yōu)勢?

我們提供的服務(wù)有：網(wǎng)站建設(shè)、網(wǎng)站設(shè)計、微信公眾號開發(fā)、網(wǎng)站優(yōu)化、網(wǎng)站認(rèn)證、大寧ssl等。為近千家企事業(yè)單位解決了網(wǎng)站和推廣的問題。提供周到的售前咨詢和貼心的售后服務(wù)，是有科學(xué)管理、有技術(shù)的大寧網(wǎng)站制作公司

Spark與Hadoop MapReduce在業(yè)界有兩種說法：

一是 Spark 將代替 Hadoop MapReduce，成為未來大數(shù)據(jù)處理發(fā)展的方向 ;

二是 Spark 將會和 Hadoop 結(jié)合，形成更大的生態(tài)圈。其實(shí) Spark 和 Hadoop MapReduce 的重點(diǎn)應(yīng)用場合有所不同。

相對于 Hadoop MapReduce 來說，Spark 有點(diǎn)“青出于藍(lán)”的感覺，Spark 是在Hadoop MapReduce 模型上發(fā)展起來的，在它的身上我們能明顯看到 MapReduce的影子，所有的 Spark 并非從頭創(chuàng)新，而是站在了巨人“MapReduce”的肩膀上。千秋功罪，留于日后評說，我們暫且擱下爭議，來看看相比 Hadoop MapReduce，Spark 都有哪些優(yōu)勢。

Spark和Hadoop MapReduce

Spark與Hadoop MapReduce相比，有哪些優(yōu)點(diǎn)你知道嗎？

1、計算速度快

大數(shù)據(jù)處理首先追求的是速度。Spark 到底有多快?用官方的話說，“Spark 允許 Hadoop 集群中的應(yīng)用程序在內(nèi)存中以 100 倍的速度運(yùn)行，即使在磁盤上運(yùn)行也能快 10 倍”?？赡苡械淖x者看到這里會大為感嘆，的確如此，在有迭代計算的領(lǐng)域，Spark 的計算速度遠(yuǎn)遠(yuǎn)超過 MapReduce，并且迭代次數(shù)越多，Spark 的優(yōu)勢越明顯。這是因?yàn)?Spark 很好地利用了目前服務(wù)器內(nèi)存越來越大這一優(yōu)點(diǎn)，通過減少磁盤 I/O 來達(dá)到性能提升。它們將中間處理數(shù)據(jù)全部放到了內(nèi)存中，僅在必要時才批量存入硬盤中?；蛟S讀者會問：如果應(yīng)用程序特別大，內(nèi)存能放下多少 GB ?答曰：什么? GB ?目前 IBM 服務(wù)器內(nèi)存已經(jīng)擴(kuò)展至幾 TB 了。

2、應(yīng)用靈活，上手容易

知道 AMPLab 的 Lester 為什么放棄 MapReduce 嗎?因?yàn)樗枰押芏嗑Ψ诺組ap和Reduce的編程模型上，極為不便。 Spark在簡單的Map及Reduce操作之外，還支持 SQL 查詢、流式查詢及復(fù)雜查詢，比如開箱即用的機(jī)器學(xué)習(xí)算法。同時，用戶可以在同一個工作流中無縫地搭配這些能力，應(yīng)用十分靈活。歡迎加入大數(shù)據(jù)學(xué)習(xí)交流分享群： 658558542 一起吹水交流學(xué)習(xí)（?點(diǎn)擊即可加入群聊）

Spark 核心部分的代碼為 63 個 Scala 文件，非常的輕量級。并且允許 Java、Scala、Python 開發(fā)者在自己熟悉的語言環(huán)境下進(jìn)行工作，通過建立在Java、Scala、Python、SQL(應(yīng)對交互式查詢)的標(biāo)準(zhǔn) API 以方便各行各業(yè)使用，同時還包括大量開箱即用的機(jī)器學(xué)習(xí)庫。它自帶 80 多個高等級操作符，允許在 Shell中進(jìn)行交互式查詢。即使是新手，也能輕松上手應(yīng)用。

3、兼容競爭對手

Spark 可以獨(dú)立運(yùn)行，除了可以運(yùn)行在當(dāng)下的 YARN 集群管理外，還可以讀取已有的任何 Hadoop 數(shù)據(jù)。它可以運(yùn)行在任何 Hadoop 數(shù)據(jù)源上，比如 HBase、HDFS 等。有了這個特性，讓那些想從 Hadoop 應(yīng)用遷移到 Spark 上的用戶方便了很多。Spark 有兼容競爭對手的胸襟，何愁大事不成?

4、實(shí)時處理性能非凡

MapReduce 更加適合處理離線數(shù) 據(jù)( 當(dāng) 然，在 YARN 之后，Hadoop也可以借助其他工具進(jìn)行流式計算)。Spark 很好地支持實(shí)時的流計算，依賴Spark Streaming 對數(shù)據(jù)進(jìn)行實(shí)時處理。Spark Streaming 具備功能強(qiáng)大的 API，允許用戶快速開發(fā)流應(yīng)用程序。而且不像其他的流解決方案，比如Storm，Spark Streaming 無須額外的代碼和配置，就可以做大量的恢復(fù)和交付工作。

5、社區(qū)貢獻(xiàn)力量巨大

從 Spark 的版本演化來看，足以說明這個平臺旺盛的生命力及社區(qū)的活躍度。尤其自 2013 年以來，Spark 一度進(jìn)入高速發(fā)展期，代碼庫提交與社區(qū)活躍度都有顯著增長。以活躍度論，Spark 在所有的 Apache 基金會開源項(xiàng)目中位列前三，相較于其他大數(shù)據(jù)平臺或框架而言，Spark 的代碼庫最為活躍。

Spark 非常重視社區(qū)活動，組織也極為規(guī)范，會定期或不定期地舉行與 Spark相關(guān)的會議。會議分為兩種：一種是 Spark Summit，影響力極大，可謂全球 Spark頂尖技術(shù)人員的峰會，目前已于 2013—2015 年在 San Francisco 連續(xù)召開了三屆Summit 大會 ;另一種是 Spark 社區(qū)不定期地在全球各地召開的小型 Meetup 活動。Spark Meetup 也會在我國的一些大城市定期召開，比如北京、深圳、西安等地，讀者可以關(guān)注當(dāng)?shù)氐奈⑿殴娞栠M(jìn)行參與。歡迎加入大數(shù)據(jù)學(xué)習(xí)交流分享群： 658558542 一起吹水交流學(xué)習(xí)（?點(diǎn)擊即可加入群聊）

Spark 的適用場景

從大數(shù)據(jù)處理需求來看，大數(shù)據(jù)的業(yè)務(wù)大概可以分為以下三類：

(1)復(fù)雜的批量數(shù)據(jù)處理，通常的時間跨度在數(shù)十分鐘到數(shù)小時之間。

(2)基于歷史數(shù)據(jù)的交互式查詢，通常的時間跨度在數(shù)十秒到數(shù)分鐘之間。

(3)基于實(shí)時數(shù)據(jù)流的數(shù)據(jù)處理，通常的時間跨度在數(shù)百毫秒到數(shù)秒之間。

目前已有很多相對成熟的開源和商業(yè)軟件來處理以上三種情景：第一種業(yè)務(wù)，可以利用 MapReduce 來進(jìn)行批量數(shù)據(jù)處理 ;第二種業(yè)務(wù)，可以用 Impala 來進(jìn)行交互式查詢 ;對于第三種流式數(shù)據(jù)處理，可以想到專業(yè)的流數(shù)據(jù)處理工具Storm。但是這里有一個很重要的問題：對于大多數(shù)互聯(lián)網(wǎng)公司來說，一般會同時遇到以上三種情景，如果采用不同的處理技術(shù)來面對這三種情景，那么這三種情景的輸入/ 輸出數(shù)據(jù)無法無縫共享，它們之間可能需要進(jìn)行格式轉(zhuǎn)換，并且每個開源軟件都需要一支開發(fā)和維護(hù)團(tuán)隊(duì)，從而提高了成本。另外一個不便之處就是，在同一個集群中對各個系統(tǒng)協(xié)調(diào)資源分配比較困難。歡迎加入大數(shù)據(jù)學(xué)習(xí)交流分享群： 658558542 一起吹水交流學(xué)習(xí)（?點(diǎn)擊即可加入群聊）

那么，有沒有一種軟件可以同時處理以上三種情景呢? Spark 就可以，或者說有這樣的潛力。Spark 同時支持復(fù)雜的批處理、互操作和流計算，而且兼容支持HDFS 和 Amazon S3 等分布式文件系統(tǒng)，可以部署在 YARN 和 Mesos 等流行的集群資源管理器上。

從 Spark 的設(shè)計理念(基于內(nèi)存的迭代計算框架)出發(fā)，其最適合有迭代運(yùn)算的或者需要多次操作特定數(shù)據(jù)集的應(yīng)用場合。并且迭代次數(shù)越多，讀取的數(shù)據(jù)量越大，Spark 的應(yīng)用效果就越明顯。因此，對于機(jī)器學(xué)習(xí)之類的“迭代式”應(yīng)用，Spark 可謂拿手好戲，要比 Hadoop MapReduce 快數(shù)十倍。另外，Spark Streaming因?yàn)閮?nèi)存存儲中間數(shù)據(jù)的特性，處理速度非常快，也可以應(yīng)用于需要實(shí)時處理大數(shù)據(jù)的場合。

當(dāng)然，Spark 也有不適用的場合。對于那種異步細(xì)粒度更新狀態(tài)的應(yīng)用，例如 Web 服務(wù)的存儲或增量的 Web 爬蟲和索引，也就是對于那種增量修改的應(yīng)用模型不適合。Spark 也不適合做超級大的數(shù)據(jù)量的處理，這里所說的“超級大”是相對于這個集群的內(nèi)存容量而言的，因?yàn)?Spark 要將數(shù)據(jù)存儲在內(nèi)存中。一般來說，10TB 以上(單次分析)的數(shù)據(jù)就可以算是“超級大”的數(shù)據(jù)了。

一般來說，對于中小企業(yè)的數(shù)據(jù)中心而言，在單次計算的數(shù)據(jù)量不大的情況下，Spark 都是很好的選擇。另外，Spark 也不適合應(yīng)用于混合的云計算平臺，因?yàn)榛旌系脑朴嬎闫脚_的網(wǎng)絡(luò)傳輸是很大的問題，即便有專屬的寬帶在云端 Cluster和本地 Cluster 之間傳輸數(shù)據(jù)，相比內(nèi)存讀取速度來說，依然不抵。

結(jié)語

感謝您的觀看，如有不足之處，歡迎批評指正。

如果有對大數(shù)據(jù)感興趣的小伙伴或者是從事大數(shù)據(jù)的老司機(jī)可以加群：

658558542 （?點(diǎn)擊即可加入群聊）

里面整理了一大份學(xué)習(xí)資料，全都是些干貨，包括大數(shù)據(jù)技術(shù)入門，海量數(shù)據(jù)高級分析語言，海量數(shù)據(jù)存儲分布式存儲，以及海量數(shù)據(jù)分析分布式計算等部分，送給每一位大數(shù)據(jù)小伙伴，這里不止是小白聚集地，還有大牛在線解答！歡迎初學(xué)和進(jìn)階中的小伙伴一起進(jìn)群學(xué)習(xí)交流，共同進(jìn)步！

最后祝福所有遇到瓶頸的大數(shù)據(jù)程序員們突破自己，祝福大家在往后的工作與面試中一切順利。

文章標(biāo)題：Spark與HadoopMapReduce相比，有哪些優(yōu)點(diǎn)你知道嗎？
文章分享：http://weahome.cn/article/isjsgj.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220（工作日）

18980820575（7×24）

提交需求

返回頂部