java SE,EE(SSM)
90%的大數(shù)據(jù)框架都是java寫的
MySQL
SQL on Hadoop
Linux
大數(shù)據(jù)的框架安裝在Linux操作系統(tǒng)上
10年積累的成都做網(wǎng)站、成都網(wǎng)站設(shè)計經(jīng)驗,可以快速應(yīng)對客戶對網(wǎng)站的新想法和需求。提供各種問題對應(yīng)的解決方案。讓選擇我們的客戶得到更好、更有力的網(wǎng)絡(luò)服務(wù)。我雖然不認(rèn)識你,你也不認(rèn)識我。但先網(wǎng)站制作后付款的網(wǎng)站建設(shè)流程,更有濱江免費網(wǎng)站建設(shè)讓你可以放心的選擇與我們合作。
一般處理T+1數(shù)據(jù)
Hadoop 2.X:(common、HDFS、MapReduce、YARN)
環(huán)境搭建,處理數(shù)據(jù)的思想
Hive:
大數(shù)據(jù)數(shù)據(jù)倉庫
通過寫SQL對數(shù)據(jù)進(jìn)行操作,類似于mysql數(shù)據(jù)庫中的sql
HBase
基于HDFS的NoSql數(shù)據(jù)庫
面向列的存儲
協(xié)作框架:
sqoop(橋梁:HDFS 《==》RDBMS)
flume:收集日志文件中信息
調(diào)度框架anzkaban,了解:crotab(Linux自帶)、zeus(Alibaba)、Oozie(cloudera)
擴(kuò)展前沿框架:
kylin、impala、ElasticSearch(ES)
注意:關(guān)于第一方面的內(nèi)容我的另一篇博客有詳細(xì)的總結(jié)(是我搜索大量網(wǎng)上資料所得,可以幫你省下不少時間)
以spark框架為主
Scala:OOP + FP
sparkCore:類比MapReduce
sparkSQL:類比hive
sparkStreaming:實時數(shù)據(jù)處理
kafka:消息隊列
前沿框架擴(kuò)展:flink
阿里巴巴 blink
spark MLlib:機(jī)器學(xué)習(xí)庫
pyspark編程:Python和spark的結(jié)合
推薦系統(tǒng)
python數(shù)據(jù)分析
Python機(jī)器學(xué)習(xí)
HDFS、Hive(本質(zhì)存儲數(shù)據(jù)還是hdfs)、HBASE、ES
MapReduce、Spark、SQL
數(shù)據(jù)存儲:HDFS(Hadoop Distributed File System)
數(shù)據(jù)分析:MapReduce
雖然Google沒有公布這三個產(chǎn)品的源碼,
但是他發(fā)布了這三個產(chǎn)品的詳細(xì)設(shè)計論文,
奠定了風(fēng)靡全球的大數(shù)據(jù)算法的基礎(chǔ)!
將任務(wù)分解然后在多臺處理能力較弱的計算節(jié)點中同時處理,然后將結(jié)果合并從而完成大數(shù)據(jù)處理。
google:android,搜索,大數(shù)據(jù)框架,人工智能框架
pagerank
大數(shù)據(jù)絕大多數(shù)框架,都屬于Apache頂級項目
http://apache.org/
hadoop官網(wǎng):
http://hadoop.apache.org/
分布式
相對于【集中式】
需要多臺機(jī)器,進(jìn)行協(xié)助完成。
元數(shù)據(jù):記錄數(shù)據(jù)的數(shù)據(jù)
架構(gòu):
主節(jié)點Master 老大,管理者
管理
從節(jié)點Slave 從屬,奴隸,被管理者
干活
common
主節(jié)點:NameNode
決定著數(shù)據(jù)存儲到那個DataNode上
從節(jié)點:DataNode
存儲數(shù)據(jù)
分而治之思想
將海量的數(shù)據(jù)劃分為多個部分,每部分?jǐn)?shù)據(jù)進(jìn)行單獨的處理,最后將所有結(jié)果進(jìn)行合并
map task
單獨處理每一部分的數(shù)據(jù)、
reduce task
合并map task的輸出
分布式集群資源管理框架,管理者集群的資源(Memory,cpu core)
合理調(diào)度分配給各個程序(MapReduce)使用
主節(jié)點:resourceManager
掌管集群中的資源
從節(jié)點:nodeManager
管理每臺集群資源
都屬于java進(jìn)程,就是啟動了JVM進(jìn)程,運行服務(wù)。
HDFS:存儲數(shù)據(jù),提供分析的數(shù)據(jù)
NameNode/DataNode
YARN:提供程序運行的資源
ResourceManager/NodeManager