本篇內(nèi)容主要講解“HADOOP概念是什么”,感興趣的朋友不妨來看看。本文介紹的方法操作簡(jiǎn)單快捷,實(shí)用性強(qiáng)。下面就讓小編來帶大家學(xué)習(xí)“HADOOP概念是什么”吧!
創(chuàng)新互聯(lián)公司堅(jiān)持“要么做到,要么別承諾”的工作理念,服務(wù)領(lǐng)域包括:網(wǎng)站制作、成都網(wǎng)站設(shè)計(jì)、企業(yè)官網(wǎng)、英文網(wǎng)站、手機(jī)端網(wǎng)站、網(wǎng)站推廣等服務(wù),滿足客戶于互聯(lián)網(wǎng)時(shí)代的雙塔網(wǎng)站設(shè)計(jì)、移動(dòng)媒體設(shè)計(jì)的需求,幫助企業(yè)找到有效的互聯(lián)網(wǎng)解決方案。努力成為您成熟可靠的網(wǎng)絡(luò)建設(shè)合作伙伴!大數(shù)據(jù):指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉,管理和處理的數(shù)據(jù)集合,是需要新模式才能具有更強(qiáng)大的決策力,洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量,高增長(zhǎng)率和多樣化的信息資產(chǎn)
最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
1 Byte =8 bit 1 KB = 1,024 Bytes = 8192 bit 1 MB = 1,024 KB = 1,048,576 Bytes 1 GB = 1,024 MB = 1,048,576 KB 1 TB = 1,024 GB = 1,048,576 MB 1 PB = 1,024 TB = 1,048,576 GB 1 EB = 1,024 PB = 1,048,576 TB 1 ZB = 1,024 EB = 1,048,576 PB 1 YB = 1,024 ZB = 1,048,576 EB 1 BB = 1,024 YB = 1,048,576 ZB 1 NB = 1,024 BB = 1,048,576 YB 1 DB = 1,024 NB = 1,048,576 BB
主要解決,海量數(shù)據(jù)的存儲(chǔ)和海量數(shù)據(jù)的分析計(jì)算問題
2 大數(shù)據(jù)的特點(diǎn)
1、大量。大數(shù)據(jù)的特征首先就體現(xiàn)為“大”,從先Map3時(shí)代,一個(gè)小小的MB級(jí)別的Map3就可以滿足很多人的需求,然而隨著時(shí)間的推移,存儲(chǔ)單位從過去的GB到TB,乃至現(xiàn)在的PB、EB級(jí)別。隨著信息技術(shù)的高速發(fā)展,數(shù)據(jù)開始爆發(fā)性增長(zhǎng)。社交網(wǎng)絡(luò)(微博、推特、臉書)-、移動(dòng)網(wǎng)絡(luò)、各種智能工具,服務(wù)工具等,都成為數(shù)據(jù)的來源。淘寶網(wǎng)近4億的會(huì)員每天產(chǎn)生的商品交易數(shù)據(jù)約20TB;臉書約10億的用戶每天產(chǎn)生的日志數(shù)據(jù)超過300TB。迫切需要智能的算法、強(qiáng)大的數(shù)據(jù)處理平臺(tái)和新的數(shù)據(jù)處理技術(shù),來統(tǒng)計(jì)、分析、預(yù)測(cè)和實(shí)時(shí)處理如此大規(guī)模的數(shù)據(jù)。
2、多樣。廣泛的數(shù)據(jù)來源,決定了大數(shù)據(jù)形式的多樣性。任何形式的數(shù)據(jù)都可以產(chǎn)生作用,目前應(yīng)用最廣泛的就是推薦系統(tǒng),如淘寶,網(wǎng)易云音樂、今日頭條等,這些平臺(tái)都會(huì)通過對(duì)用戶的日志數(shù)據(jù)進(jìn)行分析,從而進(jìn)一步推薦用戶喜歡的東西。日志數(shù)據(jù)是結(jié)構(gòu)化明顯的數(shù)據(jù),還有一些數(shù)據(jù)結(jié)構(gòu)化不明顯,例如圖片、音頻、視頻等,這些數(shù)據(jù)因果關(guān)系弱,就需要人工對(duì)其進(jìn)行標(biāo)注。
3、高速。大數(shù)據(jù)的產(chǎn)生非常迅速,主要通過互聯(lián)網(wǎng)傳輸。生活中每個(gè)人都離不開互聯(lián)網(wǎng),也就是說每天個(gè)人每天都在向大數(shù)據(jù)提供大量的資料。并且這些數(shù)據(jù)是需要及時(shí)處理的,因?yàn)榛ㄙM(fèi)大量資本去存儲(chǔ)作用較小的歷史數(shù)據(jù)是非常不劃算的,對(duì)于一個(gè)平臺(tái)而言,也許保存的數(shù)據(jù)只有過去幾天或者一個(gè)月之內(nèi),再遠(yuǎn)的數(shù)據(jù)就要及時(shí)清理,不然代價(jià)太大。基于這種情況,大數(shù)據(jù)對(duì)處理速度有非常嚴(yán)格的要求,服務(wù)器中大量的資源都用于處理和計(jì)算數(shù)據(jù),很多平臺(tái)都需要做到實(shí)時(shí)分析。數(shù)據(jù)無時(shí)無刻不在產(chǎn)生,誰的速度更快,誰就有優(yōu)勢(shì)。
4、價(jià)值。這也是大數(shù)據(jù)的核心特征?,F(xiàn)實(shí)世界所產(chǎn)生的數(shù)據(jù)中,有價(jià)值的數(shù)據(jù)所占比例很小。相比于傳統(tǒng)的小數(shù)據(jù),大數(shù)據(jù)大的價(jià)值在于通過從大量不相關(guān)的各種類型的數(shù)據(jù)中,挖掘出對(duì)未來趨勢(shì)與模式預(yù)測(cè)分析有價(jià)值的數(shù)據(jù),并通過機(jī)器學(xué)習(xí)方法、人工智能方法或數(shù)據(jù)挖掘方法深度分析,發(fā)現(xiàn)新規(guī)律和新知識(shí),并運(yùn)用于農(nóng)業(yè)、金融、醫(yī)療等各個(gè)領(lǐng)域,從而最終達(dá)到改善社會(huì)治理、提高生產(chǎn)效率、推進(jìn)科學(xué)研究的效果
HADOOP背景介紹
1.1 什么是HADOOP
介紹官網(wǎng)hadoop.apache.com --> 看不懂可以使用百度翻譯
Apache Hadoop 為可靠的,可擴(kuò)展的分布式計(jì)算開發(fā)開源軟件。 Apache Hadoop軟件庫(kù)是一個(gè)框架,它允許使用簡(jiǎn)單的編程模型跨計(jì)算機(jī)群集分布式處理大型數(shù)據(jù)集(海量的數(shù)據(jù))。 包括這些模塊:
? Hadoop Common:支持其他Hadoop模塊的常用工具。
? Hadoop分布式文件系統(tǒng)(HDFS?):一種分布式文件系統(tǒng),可提供對(duì)應(yīng)用程序數(shù)據(jù)的高吞吐量訪問。
? Hadoop YARN:作業(yè)調(diào)度和集群資源管理的框架。
? Hadoop MapReduce:一種用于并行處理大型數(shù)據(jù)集的基于YARN的系統(tǒng)。
上述每個(gè)模塊有自己獨(dú)立的功能,而模塊之間又有相互的關(guān)聯(lián)。
廣義上來說,HADOOP通常是指一個(gè)更廣泛的概念——HADOOP生態(tài)圈
1.2 HADOOP產(chǎn)生背景
雛形開始于2002年的Apache的Nutch,Nutch是一個(gè)開源Java 實(shí)現(xiàn)的搜索引擎。它提供了我們運(yùn)行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。Nutch的設(shè)計(jì)目標(biāo)是構(gòu)建一個(gè)大型的全網(wǎng)搜索引擎,包括網(wǎng)頁抓取、索引、查詢等功能,但隨著抓取網(wǎng)頁數(shù)量的增加,遇到了嚴(yán)重的可擴(kuò)展性問題--------“如何解決數(shù)十億網(wǎng)頁的存儲(chǔ)和索引問題”。
? 2003年Google發(fā)表了一篇技術(shù)學(xué)術(shù)論文谷歌文件系統(tǒng)(GFS)。GFS也就是google File System,google公司為了存儲(chǔ)海量搜索數(shù)據(jù)而設(shè)計(jì)的專用文件系統(tǒng)。
? 2004年Nutch創(chuàng)始人Doug Cutting基于Google的GFS論文實(shí)現(xiàn)了分布式文件存儲(chǔ)系統(tǒng)名為NDFS。
ps:2003-2004年,Google公開了部分GFS和Mapreduce思想的細(xì)節(jié),以此為基礎(chǔ)Doug Cutting等人用了2年業(yè)余時(shí)間實(shí)現(xiàn)了DFS和Mapreduce機(jī)制,一個(gè)微縮版:Nutch
? 2004年Google又發(fā)表了一篇技術(shù)學(xué)術(shù)論文MapReduce。MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行分析運(yùn)算。
? 2005年Doug Cutting又基于MapReduce,在Nutch搜索引擎實(shí)現(xiàn)了該功能。
?
國(guó)內(nèi)外HADOOP應(yīng)用案例介紹
? 大型網(wǎng)站W(wǎng)eb服務(wù)器的日志分析:一個(gè)大型網(wǎng)站的Web服務(wù)器集群,每5分鐘收錄的點(diǎn)擊日志高達(dá)800GB左右,峰值點(diǎn)擊每秒達(dá)到900萬次。每隔5分鐘將數(shù)據(jù)裝載到內(nèi)存中,高速計(jì)算網(wǎng)站的熱點(diǎn)URL,并將這些信息反饋給前端緩存服務(wù)器,以提高緩存命中率。
? 運(yùn)營(yíng)商流量經(jīng)營(yíng)分析:每天的流量數(shù)據(jù)在2TB~5TB左右,拷貝到HDFS上,通過交互式分析引擎框架,能運(yùn)行幾百個(gè)復(fù)雜的數(shù)據(jù)清洗和報(bào)表業(yè)務(wù),總時(shí)間比類似硬件配置的小型機(jī)集群和DB2快2~3倍。
1.5 國(guó)內(nèi)HADOOP的就業(yè)情況分析
可以聯(lián)網(wǎng)查智聯(lián)
大數(shù)據(jù)方面的就業(yè)主要有三大方向:
? 數(shù)據(jù)分析類大數(shù)據(jù)人才 對(duì)應(yīng)崗位 大數(shù)據(jù)系統(tǒng)研發(fā)工程師
? 系統(tǒng)研發(fā)類大數(shù)據(jù)人才 對(duì)應(yīng)崗位 大數(shù)據(jù)應(yīng)用開發(fā)工程師
? 應(yīng)用開發(fā)類大數(shù)據(jù)人才 對(duì)應(yīng)崗位 大數(shù)據(jù)分析師
大數(shù)據(jù)技術(shù)生態(tài)體系
上圖中涉及到的技術(shù)名詞解釋如下:
1)Sqoop:sqoop 是一款開源的工具,主要用于在 Hadoop(Hive)與傳統(tǒng)的數(shù)據(jù)庫(kù)(mysql)間進(jìn) 行數(shù)據(jù)的傳遞,可以將一個(gè)關(guān)系型數(shù)據(jù)庫(kù)(例如 : MySQL ,Oracle 等)中的數(shù)據(jù)導(dǎo)進(jìn)到 Hadoop 的 HDFS 中,也可以將 HDFS 的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫(kù)中。
2)Flume:Flume 是 Cloudera 提供的一個(gè)高可用的,高可靠的,分布式的海量日志采集、聚 合和傳輸?shù)南到y(tǒng),F(xiàn)lume 支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時(shí),F(xiàn)lume 提供對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單處理,并寫到各種數(shù)據(jù)接受方(可定制)的能力。
3)Kafka:Kafka 是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng),有如下特性:
(1)通過 O(1)的磁盤數(shù)據(jù)結(jié)構(gòu)提供消息的持久化,這種結(jié)構(gòu)對(duì)于即使數(shù)以 TB 的消息 存儲(chǔ)也能夠保持長(zhǎng)時(shí)間的穩(wěn)定性能。 (2)高吞吐量:即使是非常普通的硬件 Kafka 也可以支持每秒數(shù)百萬的消息 (3)支持通過 Kafka 服務(wù)器和消費(fèi)機(jī)集群來分區(qū)消息。
(4)支持 Hadoop 并行數(shù)據(jù)加載。
4)Storm:Storm 為分布式實(shí)時(shí)計(jì)算提供了一組通用原語,可被用于“流處理”之中,實(shí)時(shí)
處理消息并更新數(shù)據(jù)庫(kù)。這是管理隊(duì)列及工作者集群的另一種方式。 Storm 也可被用于“連
續(xù)計(jì)算”(continuous computation),對(duì)數(shù)據(jù)流做連續(xù)查詢,在計(jì)算時(shí)就將結(jié)果以流的形式
輸出給用戶。
5)Spark:Spark 是當(dāng)前最流行的開源大數(shù)據(jù)內(nèi)存計(jì)算框架??梢曰?Hadoop 上存儲(chǔ)的大數(shù)據(jù)進(jìn)行計(jì)算。
6)Oozie:Oozie 是一個(gè)管理 Hdoop 作業(yè)(job)的工作流程調(diào)度管理系統(tǒng)。Oozie 協(xié)調(diào)作業(yè) 就是通過時(shí)間(頻率)和有效數(shù)據(jù)觸發(fā)當(dāng)前的 Oozie 工作流程。
7)Hbase:HBase 是一個(gè)分布式的、面向列的開源數(shù)據(jù)庫(kù)。HBase 不同于一般的關(guān)系數(shù)據(jù)庫(kù), 它是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫(kù)。
8)Hive:hive 是基于 Hadoop 的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張 數(shù)據(jù)庫(kù)表,并提供簡(jiǎn)單的 sql 查詢功能,可以將 sql 語句轉(zhuǎn)換為 MapReduce 任務(wù)進(jìn)行運(yùn)行。 其優(yōu)點(diǎn)是學(xué)習(xí)成本低,可以通過類 SQL 語句快速實(shí)現(xiàn)簡(jiǎn)單的 MapReduce 統(tǒng)計(jì),不必開發(fā)專 門的 MapReduce 應(yīng)用,十分適合數(shù)據(jù)倉(cāng)庫(kù)的統(tǒng)計(jì)分析。
9)Mahout:
Apache Mahout是個(gè)可擴(kuò)展的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘庫(kù),當(dāng)前Mahout支持主要的4個(gè)用 例: 推薦挖掘:搜集用戶動(dòng)作并以此給用戶推薦可能喜歡的事物。 聚集:收集文件并進(jìn)行相關(guān)文件分組。 分類:從現(xiàn)有的分類文檔中學(xué)習(xí),尋找文檔中的相似特征,并為無標(biāo)簽的文檔進(jìn)行正確 的歸類。
頻繁項(xiàng)集挖掘:將一組項(xiàng)分組,并識(shí)別哪些個(gè)別項(xiàng)會(huì)經(jīng)常一起出現(xiàn)。
10)ZooKeeper:Zookeeper 是 Google 的 Chubby 一個(gè)開源的實(shí)現(xiàn)。它是一個(gè)針對(duì)大型分布 式系統(tǒng)的可靠協(xié)調(diào)系統(tǒng),提供的功能包括:配置維護(hù)、名字服務(wù)、 分布式同步、組服務(wù)等。 ZooKeeper 的目標(biāo)就是封裝好復(fù)雜易出錯(cuò)的關(guān)鍵服務(wù),將簡(jiǎn)單易用的接口和性能高效、功能 穩(wěn)定的系統(tǒng)提供給用戶。
到此,相信大家對(duì)“HADOOP概念是什么”有了更深的了解,不妨來實(shí)際操作一番吧!這里是創(chuàng)新互聯(lián)網(wǎng)站,更多相關(guān)內(nèi)容可以進(jìn)入相關(guān)頻道進(jìn)行查詢,關(guān)注我們,繼續(xù)學(xué)習(xí)!