Hadoop生態(tài)圈組件圖-創(chuàng)新互聯(lián)

Hadoop生態(tài)圈組件圖

在朔州等地區(qū)，都構(gòu)建了全面的區(qū)域性戰(zhàn)略布局，加強(qiáng)發(fā)展的系統(tǒng)性、市場前瞻性、產(chǎn)品創(chuàng)新能力，以專注、極致的服務(wù)理念，為客戶提供成都網(wǎng)站建設(shè)、成都網(wǎng)站制作網(wǎng)站設(shè)計(jì)制作按需定制網(wǎng)站,公司網(wǎng)站建設(shè),企業(yè)網(wǎng)站建設(shè),品牌網(wǎng)站建設(shè),全網(wǎng)整合營銷推廣,外貿(mào)營銷網(wǎng)站建設(shè),朔州網(wǎng)站建設(shè)費(fèi)用合理。

1.Hadoop Common是Hadoop體系最底層的一個(gè)模塊，為Hadoop各個(gè)子模塊提供各種工具，比如系統(tǒng)配置工具Configuration、遠(yuǎn)程調(diào)用RPC、序列化機(jī)制和日志操作等等，是其他模塊的基礎(chǔ)。

2.HDFS是Hadoop分布式文件系統(tǒng)縮寫，它是Hadoop的基石。HDFS是一個(gè)具備高度容錯(cuò)性的文件系統(tǒng)，適合部署在廉價(jià)的機(jī)器上，它能提供高吞吐量的數(shù)據(jù)訪問，非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。

3.YARN是統(tǒng)一資源管理和調(diào)度平臺(tái)。它解決了上一代Hadoop資源利用率低和不能兼容異構(gòu)的計(jì)算框架等多種問題。提供了資源隔離方案和雙調(diào)度器的實(shí)現(xiàn)。

4.MapReduce是一種編程模型，利用函數(shù)式編程思想，將對數(shù)據(jù)集的過程分為Map和Reduce兩個(gè)階段。MapReduce的這種編程模型非常適合進(jìn)行分布式計(jì)算。Hadoop提供MapReduce的計(jì)算框架，實(shí)現(xiàn)了這種編程模型，用戶可以通過Java\C++\Python\PHP等多種語言進(jìn)行編程。

5.Spark是加州伯克利大學(xué)AMP實(shí)驗(yàn)室開發(fā)的新一代計(jì)算框架，對迭代計(jì)算有很大優(yōu)勢，與MapReduce相比性能提升明顯，并且可以和Yarn集成，并且還提供了SparkSQL組件。

6.HBase來源于Google的Bigtable論文，HBase是一個(gè)分布式的，面向列族的開源數(shù)據(jù)庫。采用了Bigtable的數(shù)據(jù)模型--列族。HBase擅長大規(guī)模數(shù)據(jù)的隨機(jī)、實(shí)時(shí)讀寫訪問。

7.Zookeeper作為一個(gè)分布式服務(wù)框架，是基于Fast Paxos算法實(shí)現(xiàn)，解決分布式系統(tǒng)中一致性的問題。提供了配置維護(hù)，名字服務(wù)，分布式同步，組服務(wù)等。

8.Hive最早是facebook開發(fā)并使用的，是基于Hadoop的一個(gè)數(shù)據(jù)倉庫工具，可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張表，提供簡單的SQL查詢功能。并將SQL轉(zhuǎn)為MapReduce作業(yè)運(yùn)行。其有點(diǎn)就是學(xué)習(xí)成本低。降低了Hadoop的使用門檻。

9.Pig與Hive類似，也是對大數(shù)據(jù)集進(jìn)行分析和評估的工具，不同于Hive的是Pig提供了一種高層的，面向領(lǐng)域的抽象語言Pig Latin.同樣Pig也可以將Pig Latin轉(zhuǎn)化為MapReduce作業(yè)。相比與SQL，Pig Latin更加靈活，但學(xué)習(xí)成本更高。

10.Impala是Cloudera公司開發(fā)，可以對存儲(chǔ)HDFS、HBase的海量數(shù)據(jù)提供交互查詢的SQL接口。除了和Hive使用相同的統(tǒng)一存儲(chǔ)平臺(tái)，Impala也使用相同的元數(shù)據(jù)，SQL語法，ODBC驅(qū)動(dòng)程序和用戶界面。Impala還提供了一個(gè)熟悉的面向批量或者實(shí)時(shí)查詢的統(tǒng)一平臺(tái)。Impala的特點(diǎn)是查詢非常迅速，其性能大幅度領(lǐng)先于Hive。Impala并不是基于MapReduce的，它的定位是OLAP，是Google的新三駕馬車之一Dremel的開源實(shí)現(xiàn)。

11.Mahout是一個(gè)機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘庫，它利用MapReduce編程模型實(shí)現(xiàn)k-means,Native,Bayes,Collaborative Filtering等經(jīng)典的機(jī)器學(xué)習(xí)算法，并使其具有良好的可擴(kuò)展性。

12.Flume是Cloudera提供的一個(gè)高可用，高可靠，分布式的海量日志采集、聚合和傳輸系統(tǒng)，F(xiàn)lume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方，用于數(shù)據(jù)收集，同時(shí)Flume提供對數(shù)據(jù)進(jìn)行簡單處理并寫到各個(gè)數(shù)據(jù)接收方的能力。

13.Sqoop是SQL to Hadoop的縮寫，主要作用在于結(jié)構(gòu)化的數(shù)據(jù)存儲(chǔ)與Hadoop之間進(jìn)行數(shù)據(jù)雙向交換，也就是說，Sqoop可以將關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)導(dǎo)入到HDFS、Hive、也可以從HDFS、Hive導(dǎo)出到關(guān)系型數(shù)據(jù)庫中。Sqoop利用了Hadoop的優(yōu)點(diǎn)，整個(gè)導(dǎo)入導(dǎo)出都是由MapReduce計(jì)算框架實(shí)現(xiàn)并行化，非常高效。

14.Kafka是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng)。具有分布式、高可用的特性，在大數(shù)據(jù)系統(tǒng)里被廣泛使用，如果把大數(shù)據(jù)系統(tǒng)比作一臺(tái)機(jī)器，那么kafka就是前端總線，它連接了平臺(tái)中的各個(gè)組件。

還有比如說Storm這樣大數(shù)據(jù)平臺(tái)。

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn，海內(nèi)外云服務(wù)器15元起步，三天無理由+7*72小時(shí)售后在線，公司持有idc許可證，提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案，具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢，專為企業(yè)上云打造定制，能夠滿足用戶豐富、多元化的應(yīng)用場景需求。

分享名稱：Hadoop生態(tài)圈組件圖-創(chuàng)新互聯(lián)
文章轉(zhuǎn)載：http://weahome.cn/article/jcpsg.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

Hadoop生態(tài)圈組件圖-創(chuàng)新互聯(lián)

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管