主要介紹Hadoop家族產品,常用的項目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的項目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。
在城子河等地區(qū),都構建了全面的區(qū)域性戰(zhàn)略布局,加強發(fā)展的系統(tǒng)性、市場前瞻性、產品創(chuàng)新能力,以專注、極致的服務理念,為客戶提供成都網站設計、網站建設 網站設計制作按需網站開發(fā),公司網站建設,企業(yè)網站建設,成都品牌網站建設,成都全網營銷,外貿營銷網站建設,城子河網站建設費用合理。從2011年開始,中國進入大數據風起云涌的時代,以Hadoop為代表的家族軟件,占據了大數據處理的廣闊地盤。開源界及廠商,所有數據軟件,無 一不向Hadoop靠攏。Hadoop也從小眾的高富帥領域,變成了大數據開發(fā)的標準。在Hadoop原有技術基礎之上,出現了Hadoop家族產品,通 過“大數據”概念不斷創(chuàng)新,推出科技進步。
作為IT界的開發(fā)人員,我們也要跟上節(jié)奏,抓住機遇,跟著Hadoop一起雄起!
前言
使用Hadoop已經有一段時間了,從開始的迷茫,到各種的嘗試,到現在組合應用….慢慢地涉及到數據處理的事情,已經離不開hadoop了。Hadoop在大數據領域的成功,更引發(fā)了它本身的加速發(fā)展。現在Hadoop家族產品,已經達到20個了之多。
有必要對自己的知識做一個整理了,把產品和技術都串起來。不僅能加深印象,更可以對以后的技術方向,技術選型做好基礎準備。
本文為“Hadoop家族”開篇,Hadoop家族學習路線圖
目錄
Hadoop家族產品
Hadoop家族學習路線圖
截止到2013年,根據cloudera的統(tǒng)計,Hadoop家族產品已經達到20個!
http://blog.cloudera.com/blog/2013/01/apache-hadoop-in-2013-the-state-of-the-platform/
接下來,我把這20個產品,分成了2類。
第一類,是我已經掌握的
第二類,是TODO準備繼續(xù)學習的
一句話產品介紹:
Apache Hadoop: 是Apache開源組織的一個分布式計算開源框架,提供了一個分布式文件系統(tǒng)子項目(HDFS)和支持MapReduce分布式計算的軟件架構。
Apache Hive: 是基于Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,通過類SQL語句快速實現簡單的MapReduce統(tǒng)計,不必開發(fā)專門的MapReduce應用,十分適合數據倉庫的統(tǒng)計分析。
Apache Pig: 是一個基于Hadoop的大規(guī)模數據分析工具,它提供的SQL-LIKE語言叫Pig Latin,該語言的編譯器會把類SQL的數據分析請求轉換為一系列經過優(yōu)化處理的MapReduce運算。
Apache HBase: 是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng),利用HBase技術可在廉價PC Server上搭建起大規(guī)模結構化存儲集群。
Apache Sqoop: 是一個用來將Hadoop和關系型數據庫中的數據相互轉移的工具,可以將一個關系型數據庫(MySQL ,Oracle ,Postgres等)中的數據導進到Hadoop的HDFS中,也可以將HDFS的數據導進到關系型數據庫中。
Apache Zookeeper: 是一個為分布式應用所設計的分布的、開源的協調服務,它主要是用來解決分布式應用中經常遇到的一些數據管理問題,簡化分布式應用協調及其管理的難度,提供高性能的分布式服務
Apache Mahout:是基于Hadoop的機器學習和數據挖掘的一個分布式框架。Mahout用MapReduce實現了部分數據挖掘算法,解決了并行挖掘的問題。
Apache Cassandra:是一套開源分布式NoSQL數據庫系統(tǒng)。它最初由Facebook開發(fā),用于儲存簡單格式數據,集Google BigTable的數據模型與Amazon Dynamo的完全分布式的架構于一身
Apache Avro: 是一個數據序列化系統(tǒng),設計用于支持數據密集型,大批量數據交換的應用。Avro是新的數據序列化格式與傳輸工具,將逐步取代Hadoop原有的IPC機制
Apache Ambari: 是一種基于Web的工具,支持Hadoop集群的供應、管理和監(jiān)控。
Apache Chukwa: 是一個開源的用于監(jiān)控大型分布式系統(tǒng)的數據收集系統(tǒng),它可以將各種各樣類型的數據收集成適合 Hadoop 處理的文件保存在 HDFS 中供 Hadoop 進行各種 MapReduce 操作。
Apache Hama: 是一個基于HDFS的BSP(Bulk Synchronous Parallel)并行計算框架, Hama可用于包括圖、矩陣和網絡算法在內的大規(guī)模、大數據計算。
Apache Flume: 是一個分布的、可靠的、高可用的海量日志聚合的系統(tǒng),可用于日志數據收集,日志數據處理,日志數據傳輸。
Apache Giraph: 是一個可伸縮的分布式迭代圖處理系統(tǒng), 基于Hadoop平臺,靈感來自 BSP (bulk synchronous parallel) 和 Google 的 Pregel。
Apache Oozie: 是一個工作流引擎服務器, 用于管理和協調運行在Hadoop平臺上(HDFS、Pig和MapReduce)的任務。
Apache Crunch: 是基于Google的FlumeJava庫編寫的Java庫,用于創(chuàng)建MapReduce程序。與Hive,Pig類似,Crunch提供了用于實現如連接數據、執(zhí)行聚合和排序記錄等常見任務的模式庫
Apache Whirr: 是一套運行于云服務的類庫(包括Hadoop),可提供高度的互補性。Whirr學支持Amazon EC2和Rackspace的服務。
Apache Bigtop: 是一個對Hadoop及其周邊生態(tài)進行打包,分發(fā)和測試的工具。
Apache HCatalog: 是基于Hadoop的數據表和存儲管理,實現中央的元數據和模式管理,跨越Hadoop和RDBMS,利用Pig和Hive提供關系視圖。
Cloudera Hue: 是一個基于WEB的監(jiān)控和管理系統(tǒng),實現對HDFS,MapReduce/YARN, HBase, Hive, Pig的web化操作和管理。
下面我將分別介紹各個產品的安裝和使用,以我經驗總結我的學習路線。
Hadoop
Hadoop學習路線圖
Yarn學習路線圖
用Maven構建Hadoop項目
Hadoop歷史版本安裝
Hadoop編程調用HDFS
海量Web日志分析 用Hadoop提取KPI統(tǒng)計指標
用Hadoop構建電影推薦系統(tǒng)
創(chuàng)建Hadoop母體虛擬機
克隆虛擬機增加Hadoop節(jié)點
R語言為Hadoop注入統(tǒng)計血脈
RHadoop實踐系列之一 Hadoop環(huán)境搭建
Hive
Hive學習路線圖
Hive安裝及使用攻略
Hive導入10G數據的測試
R利劍NoSQL系列文章 之 Hive
用RHive從歷史數據中提取逆回購信息
Pig
Pig學習路線圖
Zookeeper
Zookeeper學習路線圖
ZooKeeper偽分步式集群安裝及使用
ZooKeeper實現分布式隊列Queue
ZooKeeper實現分布式FIFO隊列
HBase
HBase學習路線圖
RHadoop實踐系列之四 rhbase安裝與使用
Mahout
Mahout學習路線圖
用R解析Mahout用戶推薦協同過濾算法(UserCF)
RHadoop實踐系列之三 R實現MapReduce的協同過濾算法
用Maven構建Mahout項目
Mahout推薦算法API詳解
從源代碼剖析Mahout推薦引擎
Mahout分步式程序開發(fā) 基于物品的協同過濾ItemCF
Mahout分步式程序開發(fā) 聚類Kmeans
用Mahout構建職位推薦引擎
Sqoop
Sqoop學習路線圖
Cassandra
Cassandra學習路線圖
Cassandra單集群實驗2個節(jié)點
R利劍NoSQL系列文章 之 Cassandra
另外有需要云服務器可以了解下創(chuàng)新互聯cdcxhl.cn,海內外云服務器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應用場景需求。