這篇文章給大家介紹大數(shù)據(jù)分析平臺(tái)系統(tǒng)開發(fā)思路及步驟是什么,內(nèi)容非常詳細(xì),感興趣的小伙伴們可以參考借鑒,希望對(duì)大家能有所幫助。
創(chuàng)新互聯(lián)公司于2013年成立,公司以成都做網(wǎng)站、成都網(wǎng)站制作、系統(tǒng)開發(fā)、網(wǎng)絡(luò)推廣、文化傳媒、企業(yè)宣傳、平面廣告設(shè)計(jì)等為主要業(yè)務(wù),適用行業(yè)近百種。服務(wù)企業(yè)客戶上千余家,涉及國內(nèi)多個(gè)省份客戶。擁有多年網(wǎng)站建設(shè)開發(fā)經(jīng)驗(yàn)。為企業(yè)提供專業(yè)的網(wǎng)站建設(shè)、創(chuàng)意設(shè)計(jì)、宣傳推廣等服務(wù)。 通過專業(yè)的設(shè)計(jì)、獨(dú)特的風(fēng)格,為不同客戶提供各種風(fēng)格的特色服務(wù)。
1、搭建大數(shù)據(jù)平臺(tái)離不開BI。在大數(shù)據(jù)之前,BI就已經(jīng)存在很久了,簡單把大數(shù)據(jù)等同于BI,明顯是不恰當(dāng)?shù)摹5珒烧哂质蔷o密關(guān)聯(lián)的,相輔相成的。BI是達(dá)成業(yè)務(wù)管理的應(yīng)用工具,沒有BI,大數(shù)據(jù)就沒有了價(jià)值轉(zhuǎn)化的工具,就無法把數(shù)據(jù)的價(jià)值呈現(xiàn)給用戶,也就無法有效地支撐企業(yè)經(jīng)營管理決策;大數(shù)據(jù)則是基礎(chǔ),沒有大數(shù)據(jù),BI就失去了存在的基礎(chǔ),沒有辦法快速、實(shí)時(shí)、高效地處理數(shù)據(jù),支撐應(yīng)用。 所以,數(shù)據(jù)的價(jià)值發(fā)揮,大數(shù)據(jù)平臺(tái)的建設(shè),必然是囊括了大數(shù)據(jù)處理與BI應(yīng)用分析建設(shè)的。
2、大數(shù)據(jù)擁有價(jià)值。來看看數(shù)據(jù)使用金字塔模型,從數(shù)據(jù)的使用角度來看,數(shù)據(jù)基本有以下使用方式:
自上而下,可以看到,對(duì)數(shù)據(jù)的要求是不一樣的:
數(shù)據(jù)量越來越大,維度越來越多。
交互難度越來越大。
技術(shù)難度越來越大。
以人為主,逐步向機(jī)器為主。
用戶專業(yè)程度逐步提升,門檻越來越高。
企業(yè)對(duì)數(shù)據(jù)、效率要求的逐步提高,也給大數(shù)據(jù)提供了展現(xiàn)能力的平臺(tái)。企業(yè)構(gòu)建大數(shù)據(jù)平臺(tái),歸根到底是構(gòu)建企業(yè)的數(shù)據(jù)資產(chǎn)運(yùn)營中心,發(fā)揮數(shù)據(jù)的價(jià)值,支撐企業(yè)的發(fā)展。
整體方案思路如下:
建設(shè)企業(yè)的基礎(chǔ)數(shù)據(jù)中心,構(gòu)建企業(yè)統(tǒng)一的數(shù)據(jù)存儲(chǔ)體系,統(tǒng)一進(jìn)行數(shù)據(jù)建模,為數(shù)據(jù)的價(jià)值呈現(xiàn)奠定基礎(chǔ)。同時(shí)數(shù)據(jù)處理能力下沉,建設(shè)集中的數(shù)據(jù)處理中心,提供強(qiáng)大的數(shù)據(jù)處理能力;通過統(tǒng)一的數(shù)據(jù)管理監(jiān)控體系,保障系統(tǒng)的穩(wěn)定運(yùn)行。有了數(shù)據(jù)基礎(chǔ),構(gòu)建統(tǒng)一的BI應(yīng)用中心,滿足業(yè)務(wù)需求,體現(xiàn)數(shù)據(jù)價(jià)值。
提到大數(shù)據(jù)就會(huì)提到hadoop。大數(shù)據(jù)并不等同于hadoop,但hadoop的確是最熱門的大數(shù)據(jù)技術(shù)。下面以最常用的混搭架構(gòu),來看一下大數(shù)據(jù)平臺(tái)可以怎么通過Kafka作為統(tǒng)一采集平臺(tái)的消息管理層,靈活的對(duì)接、適配各種數(shù)據(jù)源采集(如集成flume),提供靈活、可配置的數(shù)據(jù)采集能力。利用spark和hadoop技術(shù),構(gòu)建大數(shù)據(jù)平臺(tái)最為核心的基礎(chǔ)數(shù)據(jù)的存儲(chǔ)、處理能力中心,提供強(qiáng)大的數(shù)據(jù)處理能力,滿足數(shù)據(jù)的交互需求。同時(shí)通過spark streaming,可以有效滿足企業(yè)實(shí)時(shí)數(shù)據(jù)的要求,構(gòu)建企業(yè)發(fā)展的實(shí)時(shí)指標(biāo)體系。
同時(shí)為了更好的滿足的數(shù)據(jù)獲取需求,通過RDBMS,提供企業(yè)高度匯總的統(tǒng)計(jì)數(shù)據(jù),滿足企業(yè)常規(guī)的統(tǒng)計(jì)報(bào)表需求,降低使用門檻。對(duì)大數(shù)據(jù)明細(xì)查詢需求,則通過構(gòu)建HBase集群,提供大數(shù)據(jù)快速查詢能力,滿足對(duì)大數(shù)據(jù)的查詢獲取需求。
一般的大數(shù)據(jù)平臺(tái)從平臺(tái)搭建到數(shù)據(jù)分析大概包括以下幾個(gè)步驟:
1、Linux系統(tǒng)安裝
一般使用開源版的Redhat系統(tǒng)--CentOS作為底層平臺(tái)。為了提供穩(wěn)定的硬件基礎(chǔ),在給硬盤做RAID和掛載數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)的時(shí),需要按情況配置。比如,可以選擇給HDFS的namenode做RAID2以提高其穩(wěn)定性,將數(shù)據(jù)存儲(chǔ)與操作系統(tǒng)分別放置在不同硬盤上,以確保操作系統(tǒng)的正常運(yùn)行。
2、分布式計(jì)算平臺(tái)/組件安裝
當(dāng)前分布式系統(tǒng)的大多使用的是Hadoop系列開源系統(tǒng)。Hadoop的核心是HDFS,一個(gè)分布式的文件系統(tǒng)。在其基礎(chǔ)上常用的組件有Yarn、Zookeeper、Hive、Hbase、Sqoop、Impala、ElasticSearch、Spark等。
使用開源組件的優(yōu)點(diǎn):1)使用者眾多,很多bug可以在網(wǎng)上找的答案(這往往是開發(fā)中最耗時(shí)的地方);2)開源組件一般免費(fèi),學(xué)習(xí)和維護(hù)相對(duì)方便;3)開源組件一般會(huì)持續(xù)更新;4)因?yàn)榇a開源,如果出現(xiàn)bug可自由對(duì)源碼作修改維護(hù)。
常用的分布式數(shù)據(jù)數(shù)據(jù)倉庫有Hive、Hbase。Hive可以用SQL查詢,Hbase可以快速讀取行。外部數(shù)據(jù)庫導(dǎo)入導(dǎo)出需要用到Sqoop。Sqoop將數(shù)據(jù)從Oracle、MySQL等傳統(tǒng)數(shù)據(jù)庫導(dǎo)入Hive或Hbase。Zookeeper是提供數(shù)據(jù)同步服務(wù), Impala是對(duì)hive的一個(gè)補(bǔ)充,可以實(shí)現(xiàn)高效的SQL查詢
3、數(shù)據(jù)導(dǎo)入
前面提到,數(shù)據(jù)導(dǎo)入的工具是Sqoop。它可以將數(shù)據(jù)從文件或者傳統(tǒng)數(shù)據(jù)庫導(dǎo)入到分布式平臺(tái)。
4、數(shù)據(jù)分析
數(shù)據(jù)分析一般包括兩個(gè)階段:數(shù)據(jù)預(yù)處理和數(shù)據(jù)建模分析。
數(shù)據(jù)預(yù)處理是為后面的建模分析做準(zhǔn)備,主要工作時(shí)從海量數(shù)據(jù)中提取可用特征,建立大寬表。這個(gè)過程可能會(huì)用到Hive SQL,Spark QL和Impala。
數(shù)據(jù)建模分析是針對(duì)預(yù)處理提取的特征/數(shù)據(jù)建模,得到想要的結(jié)果。如前面所提到的,這一塊最好用的是Spark。常用的機(jī)器學(xué)習(xí)算法,如樸素貝葉斯、邏輯回歸、決策樹、神經(jīng)網(wǎng)絡(luò)、TFIDF、協(xié)同過濾等,都已經(jīng)在ML lib里面,調(diào)用比較方便。
5、結(jié)果可視化及輸出API
可視化一般式對(duì)結(jié)果或部分原始數(shù)據(jù)做展示。一般有兩種情況,行數(shù)據(jù)展示,和列查找展示。
關(guān)于大數(shù)據(jù)分析平臺(tái)系統(tǒng)開發(fā)思路及步驟是什么就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,可以學(xué)到更多知識(shí)。如果覺得文章不錯(cuò),可以把它分享出去讓更多的人看到。