真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

大數(shù)據(jù)需要掌握的知識點(新手)

一、學(xué)習(xí)大數(shù)據(jù)需要的基礎(chǔ)

    java SE,EE(SSM)
        90%的大數(shù)據(jù)框架都是java寫的
    MySQL
        SQL on Hadoop
    Linux
        大數(shù)據(jù)的框架安裝在Linux操作系統(tǒng)上

10年積累的成都做網(wǎng)站、成都網(wǎng)站設(shè)計經(jīng)驗,可以快速應(yīng)對客戶對網(wǎng)站的新想法和需求。提供各種問題對應(yīng)的解決方案。讓選擇我們的客戶得到更好、更有力的網(wǎng)絡(luò)服務(wù)。我雖然不認(rèn)識你,你也不認(rèn)識我。但先網(wǎng)站制作后付款的網(wǎng)站建設(shè)流程,更有濱江免費網(wǎng)站建設(shè)讓你可以放心的選擇與我們合作。

二、需要學(xué)什么

    第一方面:大數(shù)據(jù)離線分析

        一般處理T+1數(shù)據(jù)
            Hadoop 2.X:(common、HDFS、MapReduce、YARN)
                環(huán)境搭建,處理數(shù)據(jù)的思想
            Hive:
                大數(shù)據(jù)數(shù)據(jù)倉庫
                通過寫SQL對數(shù)據(jù)進(jìn)行操作,類似于mysql數(shù)據(jù)庫中的sql
            HBase
                基于HDFS的NoSql數(shù)據(jù)庫
                面向列的存儲
                
            協(xié)作框架:
                sqoop(橋梁:HDFS 《==》RDBMS)
                flume:收集日志文件中信息
                
                調(diào)度框架anzkaban,了解:crotab(Linux自帶)、zeus(Alibaba)、Oozie(cloudera)
            
            擴(kuò)展前沿框架:
                kylin、impala、ElasticSearch(ES)

               

    注意:關(guān)于第一方面的內(nèi)容我的另一篇博客有詳細(xì)的總結(jié)(是我搜索大量網(wǎng)上資料所得,可以幫你省下不少時間)

    第二方面:大數(shù)據(jù)實時分析

            以spark框架為主
            Scala:OOP + FP
            sparkCore:類比MapReduce
            sparkSQL:類比hive
            sparkStreaming:實時數(shù)據(jù)處理
            kafka:消息隊列
        前沿框架擴(kuò)展:flink  
            阿里巴巴 blink
   

    第三方面:大數(shù)據(jù)機(jī)器學(xué)習(xí)(擴(kuò)展)

            spark MLlib:機(jī)器學(xué)習(xí)庫
            pyspark編程:Python和spark的結(jié)合
            推薦系統(tǒng)
            python數(shù)據(jù)分析

            Python機(jī)器學(xué)習(xí)

大數(shù)據(jù)框架安裝功能來劃分

    海量數(shù)據(jù)存儲:

        HDFS、Hive(本質(zhì)存儲數(shù)據(jù)還是hdfs)、HBASE、ES

    海量數(shù)據(jù)分析:

        MapReduce、Spark、SQL

最原始的Hadoop框架

    數(shù)據(jù)存儲:HDFS(Hadoop Distributed File System)
    數(shù)據(jù)分析:MapReduce

Hadoop的起源

    Google的三篇論文

    雖然Google沒有公布這三個產(chǎn)品的源碼,
    但是他發(fā)布了這三個產(chǎn)品的詳細(xì)設(shè)計論文,
    奠定了風(fēng)靡全球的大數(shù)據(jù)算法的基礎(chǔ)!

        Google FS        HDFS
        MapReduce        MapReduce
        BigTable        HBase

    將任務(wù)分解然后在多臺處理能力較弱的計算節(jié)點中同時處理,然后將結(jié)果合并從而完成大數(shù)據(jù)處理。
    
    google:android,搜索,大數(shù)據(jù)框架,人工智能框架
    pagerank
    

Hadoop介紹

    大數(shù)據(jù)絕大多數(shù)框架,都屬于Apache頂級項目
    http://apache.org/
    hadoop官網(wǎng):
    http://hadoop.apache.org/
    
分布式
    相對于【集中式】
    需要多臺機(jī)器,進(jìn)行協(xié)助完成。
    
    元數(shù)據(jù):記錄數(shù)據(jù)的數(shù)據(jù)
    架構(gòu):
        主節(jié)點Master    老大,管理者
            管理
        從節(jié)點Slave    從屬,奴隸,被管理者
            干活

Hadoop也是分布式架構(gòu)

    common

    HDFS:

        主節(jié)點:NameNode
            決定著數(shù)據(jù)存儲到那個DataNode上
        從節(jié)點:DataNode
            存儲數(shù)據(jù)
            

    MapReduce:

        分而治之思想
        將海量的數(shù)據(jù)劃分為多個部分,每部分?jǐn)?shù)據(jù)進(jìn)行單獨的處理,最后將所有結(jié)果進(jìn)行合并
        map task
            單獨處理每一部分的數(shù)據(jù)、
            
        reduce task
            合并map task的輸出
        

    YARN:

        分布式集群資源管理框架,管理者集群的資源(Memory,cpu core)
        合理調(diào)度分配給各個程序(MapReduce)使用
        主節(jié)點:resourceManager
            掌管集群中的資源
        從節(jié)點:nodeManager
            管理每臺集群資源
        

    總結(jié):Hadoop的安裝部署

        都屬于java進(jìn)程,就是啟動了JVM進(jìn)程,運行服務(wù)。
        HDFS:存儲數(shù)據(jù),提供分析的數(shù)據(jù)
            NameNode/DataNode
        YARN:提供程序運行的資源

            ResourceManager/NodeManager


網(wǎng)站標(biāo)題:大數(shù)據(jù)需要掌握的知識點(新手)
網(wǎng)頁路徑:http://weahome.cn/article/igdsop.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部