一·大數(shù)據(jù)概述
隨著信息技術(shù)發(fā)展的巨大變革,企業(yè)和學(xué)術(shù)機(jī)構(gòu)紛紛加大技術(shù)、資金和人員投入,加強(qiáng)對大數(shù)據(jù)關(guān)鍵技術(shù)的研發(fā)與運(yùn)用。
大數(shù)據(jù)的發(fā)展歷程總體上劃分為三個(gè)重要階段:萌芽期、成熟期和大規(guī)模應(yīng)用期。
二.大數(shù)據(jù)概念
大數(shù)據(jù)的4個(gè)特點(diǎn):數(shù)據(jù)量大、數(shù)據(jù)類型繁多、處理速度快和價(jià)值密度低。
三.大數(shù)據(jù)與云計(jì)算、物聯(lián)網(wǎng)的關(guān)系
大數(shù)據(jù)為云計(jì)算機(jī)提供了用武之地,云計(jì)算為大數(shù)據(jù)提供了技術(shù)基礎(chǔ)。
物聯(lián)網(wǎng)是大數(shù)據(jù)的重要來源,大數(shù)據(jù)技術(shù)為物聯(lián)網(wǎng)數(shù)據(jù)分析提供支撐。
云計(jì)算為物聯(lián)網(wǎng)提供海量數(shù)據(jù)存儲(chǔ)能力,物聯(lián)網(wǎng)為云計(jì)算技術(shù)提供了廣闊的應(yīng)用空間。
四.大數(shù)據(jù)處理架構(gòu)Hadoop
1.Hadoop簡介
Hadoop是Apache旗下的一個(gè)開源分布式計(jì)算平臺。是基于Java語言開發(fā)的,具有很好的跨平臺性,并可以部署在一般的計(jì)算機(jī)集群中。Hadoop的核心是分布式文件系統(tǒng)HDFS和MapReduce。HDFS具有較高的讀寫速度、很好的容錯(cuò)性和可伸縮性,很好的保證了數(shù)據(jù)的安全性。
其中YARN是資源調(diào)動(dòng),MapReduce是計(jì)算框架。
2.Hadoop的特性
高可靠性、高效性、高擴(kuò)展性、容錯(cuò)性、成本低、運(yùn)行在Linux平臺上、支持多種編程語言。
3.Hadoop生態(tài)圈