重點組件:
HDFS:Hadoop 的分布式文件存儲系統(tǒng)
MapReduce:Hadoop 的分布式程序運算框架,也可以叫做一種編程模型
Hive:基于 Hadoop 的類 SQL 數(shù)據(jù)倉庫工具
HBase:基于 Hadoop 的列式分布式 NoSQL 數(shù)據(jù)庫
ZooKeeper:分布式協(xié)調(diào)服務組件
Mahout:基于 MapReduce/Flink/Spark 等分布式運算框架的機器學習算法庫
Oozie/Azkaban:工作流調(diào)度引擎
Sqoop:數(shù)據(jù)遷入遷出工具
Flume:日志采集工具
數(shù)據(jù)的處理流程:
A、數(shù)據(jù)采集:定制開發(fā)采集程序,或使用開源框架 Flume 或者 LogStash
B、數(shù)據(jù)預處理:定制開發(fā) MapReduce 程序運行于 Hadoop 集群,或者專門數(shù)據(jù)收集工具也能進行數(shù)據(jù)預處理
C、數(shù)據(jù)倉庫技術(shù):基于 Hadoop 之上的 Hive
D、數(shù)據(jù)導出:基于 Hadoop 的 Sqoop 數(shù)據(jù)導入導出工具
E、數(shù)據(jù)可視化:定制開發(fā) web 程序或使用 Kettle 等產(chǎn)品
F、數(shù)據(jù)統(tǒng)計分析:Hadoop 中的 MapReduce 或者基于 Hadoop 的 Hive,或者 Spark,F(xiàn)link
G、整個過程的流程調(diào)度:Hadoop 生態(tài)圈中的 Oozie/Azkaban 工具或其他類似開源產(chǎn)品
另外有需要云服務器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應用場景需求。