近年,隨著互聯(lián)網(wǎng)的發(fā)展特別是移動(dòng)互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)的增長呈現(xiàn)出一種爆炸式的成長勢頭。單是谷歌的爬蟲程序每天下載的網(wǎng)頁超過1億個(gè)(2000年數(shù)據(jù),)數(shù)據(jù)的爆炸式增長直接推動(dòng)了海量數(shù)據(jù)處理技術(shù)的發(fā)展。谷歌公司提出的大表、分布式文件系統(tǒng)和分布式計(jì)算的三大技術(shù)構(gòu)架,解決了海量數(shù)據(jù)處理的問題。谷歌公司隨即將設(shè)計(jì)思路開源,發(fā)表了具有劃時(shí)代意義的三篇論文,很快根據(jù)谷歌設(shè)計(jì)思路的開源框架就出現(xiàn)了,就是如今非?;鸨膆adoop、Maperduce和許多NOSQL系統(tǒng)。這三大技術(shù)也是整個(gè)大數(shù)據(jù)技術(shù)的核心基礎(chǔ)。
目前國內(nèi)的hadoop商業(yè)發(fā)行版也是比較多,這些hadoop商業(yè)版大部分都是由國外發(fā)行的,純國產(chǎn)的發(fā)行版不是很多,比如DKhadoop,可以說是目前國內(nèi)自主做hadoop商業(yè)版比較好的了。下面就以大快搜索DKhadoop為例來給大家介紹一下hadoop框架結(jié)構(gòu)!
圖示:DKhadoop技術(shù)技術(shù)架構(gòu)圖
hadoop框架結(jié)構(gòu)核心:
hadoop的框架結(jié)構(gòu)最核心的設(shè)計(jì)就是:HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲(chǔ),MapReduce為海量的數(shù)據(jù)提供了計(jì)算。
大數(shù)據(jù)一體化開發(fā)框架:
大數(shù)據(jù)的應(yīng)用開發(fā)過于偏向底層,設(shè)計(jì)技術(shù)面非常廣泛,學(xué)習(xí)的難度自然要大的很多。對于新手入門更是難上加難。DKhadoop則是大快搜索將一系列技術(shù)框架在底層進(jìn)行了重新封裝。把大數(shù)據(jù)開發(fā)中的一些通用的,重復(fù)使用的基礎(chǔ)代碼、算法封裝為類庫,降低了大俗局的學(xué)習(xí)門檻,降低開發(fā)難度。
DKhadoop框架結(jié)構(gòu)構(gòu)成模塊:
我們以DKhadoop發(fā)行版為例:
1、框架由:數(shù)據(jù)源與SQL引擎、數(shù)據(jù)采集(自定義爬蟲)模塊、數(shù)據(jù)處理模塊、機(jī)器學(xué)習(xí)算法、自然語言處理模塊、搜索引擎模塊,六部分組成。
2、大快的大數(shù)據(jù)通用計(jì)算平臺(DKH),已經(jīng)集成相同版本號的開發(fā)框架的全部組件。如果在開源大數(shù)據(jù)框架上部署大快的開發(fā)框架,需要平臺的組件支持如下:
(1)數(shù)據(jù)源與SQL引擎:DK.Hadoop、spark、hive、sqoop、flume、kafka
(2)數(shù)據(jù)采集:DK.hadoop
(3)數(shù)據(jù)處理模塊:DK.Hadoop、spark、storm、hive
(4)機(jī)器學(xué)習(xí)和AI:DK.Hadoop、spark
(5)NLP模塊:上傳服務(wù)器端JAR包,直接支持
(6)搜索引擎模塊:不獨(dú)立發(fā)布
Dkhadoop是大快深度整合,重新編譯后的HADOOP發(fā)行版,可單獨(dú)發(fā)布。獨(dú)立部署FreeRCH(大快大數(shù)據(jù)一體化開發(fā)框架)時(shí),必需的組件。DK.HADOOP整合集成了NoSql數(shù)據(jù)庫,簡化了文件系統(tǒng)與非關(guān)系數(shù)據(jù)庫之間的編程;DK.HADOOP改進(jìn)了集群同步系統(tǒng),使得HADOOP的數(shù)據(jù)處理更加高效。
關(guān)于hadoop框架結(jié)構(gòu)暫且簡單介紹這些,感興趣的朋友可以找一下大快搜索的DKhadoop試一下。
公司主營業(yè)務(wù):做網(wǎng)站、網(wǎng)站建設(shè)、移動(dòng)網(wǎng)站開發(fā)等業(yè)務(wù)。幫助企業(yè)客戶真正實(shí)現(xiàn)互聯(lián)網(wǎng)宣傳,提高企業(yè)的競爭能力。創(chuàng)新互聯(lián)公司是一支青春激揚(yáng)、勤奮敬業(yè)、活力青春激揚(yáng)、勤奮敬業(yè)、活力澎湃、和諧高效的團(tuán)隊(duì)。公司秉承以“開放、自由、嚴(yán)謹(jǐn)、自律”為核心的企業(yè)文化,感謝他們對我們的高要求,感謝他們從不同領(lǐng)域給我們帶來的挑戰(zhàn),讓我們激情的團(tuán)隊(duì)有機(jī)會(huì)用頭腦與智慧不斷的給客戶帶來驚喜。創(chuàng)新互聯(lián)公司推出松陽免費(fèi)做網(wǎng)站回饋大家。