一個公司里面不同項目可能用到不同的數(shù)據(jù)源,有的存在MySQL里面,又的存在MongoDB里面,甚至還有些要做第三方數(shù)據(jù)。
創(chuàng)新互聯(lián)建站主營東莞網(wǎng)站建設的網(wǎng)絡公司,主營網(wǎng)站建設方案,app軟件開發(fā),東莞h5成都小程序開發(fā)搭建,東莞網(wǎng)站營銷推廣歡迎東莞等地區(qū)企業(yè)咨詢
但是現(xiàn)在又想把數(shù)據(jù)整合起來,進行 數(shù)據(jù)分析 。此時數(shù)據(jù)倉庫(Data Warehouse,DW)就派上用場了。它可以對多種業(yè)務數(shù)據(jù)進行篩選和整合,可以用于數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)報表。
總的來說,數(shù)據(jù)倉庫是將多個數(shù)據(jù)源的數(shù)據(jù)按照一定的 主題 集成起來,因為之前的數(shù)據(jù)各不相同,所以需要 抽取、清洗、轉換 。
整合以后的數(shù)據(jù)不允許隨便修改,只能分析,還需要定期更新。
上面我們說過,數(shù)據(jù)倉庫接收的數(shù)據(jù)源是不同的,要做集成的話,需要 抽取、清洗、轉換 三個步驟,這就是 ETL (Extract-Transform-Load)
國內(nèi)最常用的是一款基于Hadoop的開源數(shù)據(jù)倉庫,名為 Hive ,它可以對存儲在 HDFS 的文件數(shù)據(jù)進行 查詢、分析 。
Hive對外可以提供HiveQL,這是類似于SQL語言的一種查詢語言。在查詢時可以將HiveQL語句轉換為 MapReduce 任務,在Hadoop層進行執(zhí)行。
Hive的最大優(yōu)勢在于 免費 ,那其他知名的商業(yè)數(shù)據(jù)倉庫有那些呢?比如Oracle,DB2,其中業(yè)界老大是 Teradata
Teradata數(shù)據(jù)倉庫支持大規(guī)模并行處理平臺(MPP),可以高速處理海量實際上,性能遠遠高于Hive。對企業(yè)來說,只需要專注于業(yè)務,節(jié)省管理技術方面的精力,實現(xiàn)ROI(投資回報率)最大化。
上面提到了Hive是最著名的開源數(shù)據(jù)倉庫,它是Hadoop生態(tài)中一個重要的組件。
Hadoop的生態(tài)中,HDFS解決了分布式存儲的問題,MapReduce解決了分布式計算的問題,而HBASE則提供了一種NoSQL的存儲方法。
但是如果需要的HDFS上的文件或者HBASE的表進行查詢,需要自定義MapReduce方法。那么Hive其實就是在HDFS上面的一個中間層,它可以讓業(yè)務人員直接使用SQL進行查詢。
所以Hive是用進行數(shù)據(jù)提取轉換加載的,而且它可以把SQL轉換為MapReduce任務,而Hive的表就是HDFS的目錄或者文件。
上圖為Hive的體系結構
Hive主要包含以下幾種數(shù)據(jù)模型:
本文為 什么是數(shù)據(jù)倉庫? 的筆記
隨著大數(shù)據(jù)分析市場迅速擴展,哪些技術是最有需求和最有增長潛力的呢?在Forrester Research的一份最新研究報告中,評估了22種技術在整個數(shù)據(jù)生命周期中的成熟度和軌跡。這些技術都對大數(shù)據(jù)的實時、預測和綜合洞察有著巨大的貢獻。
1. 預測分析技術
這也是大數(shù)據(jù)的主要功能之一。預測分析允許公司通過分析大數(shù)據(jù)源來發(fā)現(xiàn)、評估、優(yōu)化和部署預測模型,從而提高業(yè)務性能或降低風險。同時,大數(shù)據(jù)的預測分析也與我們的生活息息相關。淘寶會預測你每次購物可能還想買什么,愛奇藝正在預測你可能想看什么,百合網(wǎng)和其他約會網(wǎng)站甚至試圖預測你會愛上誰……
2. NoSQL數(shù)據(jù)庫
NoSQL,Not Only SQL,意思是“不僅僅是SQL”,泛指非關系型數(shù)據(jù)庫。NoSQL數(shù)據(jù)庫提供了比關系數(shù)據(jù)庫更靈活、可伸縮和更便宜的替代方案,打破了傳統(tǒng)數(shù)據(jù)庫市場一統(tǒng)江山的格局。并且,NoSQL數(shù)據(jù)庫能夠更好地處理大數(shù)據(jù)應用的需求。常見的NoSQL數(shù)據(jù)庫有HBase、Redis、MongoDB、Couchbase、LevelDB等。
3. 搜索和知識發(fā)現(xiàn)
支持來自于多種數(shù)據(jù)源(如文件系統(tǒng)、數(shù)據(jù)庫、流、api和其他平臺和應用程序)中的大型非結構化和結構化數(shù)據(jù)存儲庫中自助提取信息的工具和技術。如,數(shù)據(jù)挖掘技術和各種大數(shù)據(jù)平臺。
4. 大數(shù)據(jù)流計算引擎
能夠過濾、聚合、豐富和分析來自多個完全不同的活動數(shù)據(jù)源的數(shù)據(jù)的高吞吐量的框架,可以采用任何數(shù)據(jù)格式。現(xiàn)今流行的流式計算引擎有Spark Streaming和Flink。
5. 內(nèi)存數(shù)據(jù)結構
通過在分布式計算機系統(tǒng)中動態(tài)隨機訪問內(nèi)存(DRAM)、閃存或SSD上分布數(shù)據(jù),提供低延遲的訪問和處理大量數(shù)據(jù)。
6. 分布式文件存儲
為了保證文件的可靠性和存取性能,數(shù)據(jù)通常以副本的方式存儲在多個節(jié)點上的計算機網(wǎng)絡。常見的分布式文件系統(tǒng)有GFS、HDFS、Lustre 、Ceph等。
7. 數(shù)據(jù)虛擬化
數(shù)據(jù)虛擬化是一種數(shù)據(jù)管理方法,它允許應用程序檢索和操作數(shù)據(jù),而不需要關心有關數(shù)據(jù)的技術細節(jié),比如數(shù)據(jù)在源文件中是何種格式,或者數(shù)據(jù)存儲的物理位置,并且可以提供單個客戶用戶視圖。
8. 數(shù)據(jù)集成
用于跨解決方案進行數(shù)據(jù)編排的工具,如Amazon Elastic MapReduce (EMR)、Apache Hive、Apache Pig、Apache Spark、MapReduce、Couchbase、Hadoop和MongoDB等。
9. 數(shù)據(jù)準備
減輕采購、成形、清理和共享各種雜亂數(shù)據(jù)集的負擔的軟件,以加速數(shù)據(jù)對分析的有用性。
10. 數(shù)據(jù)質(zhì)量
使用分布式數(shù)據(jù)存儲和數(shù)據(jù)庫上的并行操作,對大型高速數(shù)據(jù)集進行數(shù)據(jù)清理和充實的產(chǎn)品。
hbase概念:??非結構化的分布式的面向列存儲非關系型的開源的數(shù)據(jù)庫,根據(jù)谷歌的三大論文之一的bigtable??高寬厚表??作用:??為了解決大規(guī)模數(shù)據(jù)集合多重數(shù)據(jù)種類帶來的挑戰(zhàn),尤其是大數(shù)據(jù)應用難題。
能干什么:??存儲大量結果集數(shù)據(jù),低延遲的隨機查詢。
sql:??結構化查詢語言??nosql:??非關系型數(shù)據(jù)庫,列存儲和文檔存儲(查詢低延遲),hbase是nosql的一個種類,其特點是列式存儲。
非關系型數(shù)據(jù)庫--列存儲(hbase)??非關系型數(shù)據(jù)庫--文檔存儲(MongoDB)??非關系型數(shù)據(jù)庫--內(nèi)存式存儲(redis)??非關系型數(shù)據(jù)庫--圖形模型(graph)??hive和hbase區(qū)別???Hive的定位是數(shù)據(jù)倉庫,雖然也有增刪改查,但其刪改查對應的是整張表而不是單行數(shù)據(jù),查詢的延遲較高。
其本質(zhì)是更加方便的使用mr的威力來進行離線分析的一個數(shù)據(jù)分析工具。
HBase的定位是hadoop的數(shù)據(jù)庫,電腦培訓發(fā)現(xiàn)是一個典型的Nosql,所以HBase是用來在大量數(shù)據(jù)中進行低延遲的隨機查詢的。
hbase運行方式:??standalonedistrubited??單節(jié)點和偽分布式???單節(jié)點:單獨的進程運行在同一臺機器上??hbase應用場景:??存儲海量數(shù)據(jù)低延遲查詢數(shù)據(jù)??hbase表由多行組成??hbase行一行在hbase中由行健和一個或多個列的值組成,按行健字母順序排序的存儲。
1、大數(shù)據(jù)專業(yè),一般是指大數(shù)據(jù)采集與管理專業(yè);
2、課程設置,大數(shù)據(jù)專業(yè)將從大數(shù)據(jù)應用的三個主要層面(即數(shù)據(jù)管理、系統(tǒng)開發(fā)、海量數(shù)據(jù)分析與挖掘)系統(tǒng)地幫助企業(yè)掌握大數(shù)據(jù)應用中的各種典型問題的解決辦法,包括實現(xiàn)和分析協(xié)同過濾算法、運行和學習分類算法、分布式Hadoop集群的搭建和基準測試、分布式Hbase集群的搭建和基準測試、實現(xiàn)一個基于、Mapreduce的并行算法、部署Hive并實現(xiàn)一個的數(shù)據(jù)操作等等,實際提升企業(yè)解決實際問題的能力。
3、核心技術,
(1)大數(shù)據(jù)與Hadoop生態(tài)系統(tǒng)。詳細介紹分析分布式文件系統(tǒng)HDFS、集群文件系統(tǒng)ClusterFS和NoSQL Database技術的原理與應用;分布式計算框架Mapreduce、分布式數(shù)據(jù)庫HBase、分布式數(shù)據(jù)倉庫Hive。
(2)關系型數(shù)據(jù)庫技術。詳細介紹關系型數(shù)據(jù)庫的原理,掌握典型企業(yè)級數(shù)據(jù)庫的構建、管理、開發(fā)及應用。
(3)分布式數(shù)據(jù)處理。詳細介紹分析Map/Reduce計算模型和Hadoop Map/Reduce技術的原理與應用。
(4)海量數(shù)據(jù)分析與數(shù)據(jù)挖掘。詳細介紹數(shù)據(jù)挖掘技術、數(shù)據(jù)挖掘算法–Minhash, Jaccard and Cosine similarity,TF-IDF數(shù)據(jù)挖掘算法–聚類算法;以及數(shù)據(jù)挖掘技術在行業(yè)中的具體應用。
(5)物聯(lián)網(wǎng)與大數(shù)據(jù)。詳細介紹物聯(lián)網(wǎng)中的大數(shù)據(jù)應用、遙感圖像的自動解譯、時間序列數(shù)據(jù)的查詢、分析和挖掘。
(6)文件系統(tǒng)(HDFS)。詳細介紹HDFS部署,基于HDFS的高性能提供高吞吐量的數(shù)據(jù)訪問。
(7)NoSQL。詳細介紹NoSQL非關系型數(shù)據(jù)庫系統(tǒng)的原理、架構及典型應用。
4、行業(yè)現(xiàn)狀,
今天,越來越多的行業(yè)對大數(shù)據(jù)應用持樂觀的態(tài)度,大數(shù)據(jù)或者相關數(shù)據(jù)分析解決方案的使用在互聯(lián)網(wǎng)行業(yè),比如百度、騰訊、淘寶、新浪等公司已經(jīng)成為標準。而像電信、金融、能源這些傳統(tǒng)行業(yè),越來越多的用戶開始嘗試或者考慮怎么樣使用大數(shù)據(jù)解決方案,來提升自己的業(yè)務水平。
在“大數(shù)據(jù)”背景之下,精通“大數(shù)據(jù)”的專業(yè)人才將成為企業(yè)最重要的業(yè)務角色,“大數(shù)據(jù)”從業(yè)人員薪酬持續(xù)增長,人才缺口巨大。
大數(shù)據(jù)技術龐大復雜,基礎的技術包含數(shù)據(jù)的采集、數(shù)據(jù)預處理、分布式存儲、NoSQL數(shù)據(jù)庫、數(shù)據(jù)倉庫、機器學習、并行計算、可視化等范疇
查詢引擎:Phoenix、Shark、Pig、Hive等
流式計算:storm、Twitter Rainbird等
迭代計算:Apache Hama、Apache Giraph、HaLoop等
離線計算:Hadoop MapReduce、Berkeley Spark等
鍵值存儲:LevelDB、RocksDB、HyperDex、Voldemort等
表格存儲:OceanBase、Amazon SimpleDB、Cassandra、HBase等
文件存儲:CouchDB、MongoDB、HDFS等
資源管理:Twitter Mesos、Hadoop Yarn