本篇內(nèi)容介紹了“Hadoop的特點(diǎn)是什么”的有關(guān)知識(shí),在實(shí)際案例的操作過(guò)程中,不少人都會(huì)遇到這樣的困境,接下來(lái)就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!
成都創(chuàng)新互聯(lián)公司是一家專業(yè)提供洛浦企業(yè)網(wǎng)站建設(shè),專注與成都網(wǎng)站建設(shè)、成都網(wǎng)站設(shè)計(jì)、H5響應(yīng)式網(wǎng)站、小程序制作等業(yè)務(wù)。10年已為洛浦眾多企業(yè)、政府機(jī)構(gòu)等服務(wù)。創(chuàng)新互聯(lián)專業(yè)網(wǎng)站設(shè)計(jì)公司優(yōu)惠進(jìn)行中。Hadoop出現(xiàn)的原因:現(xiàn)在的我們,生活在數(shù)據(jù)大爆炸的年代。國(guó)際數(shù)據(jù)公司已經(jīng)預(yù)測(cè)在2020年,全球的數(shù)據(jù)總量將達(dá)到44ZB,經(jīng)過(guò)單位換算后,至少在440億TB以上,也就是說(shuō),全球每人一塊1TB的硬盤都存儲(chǔ)不下。
一些數(shù)據(jù)集的大小更遠(yuǎn)遠(yuǎn)超過(guò)了1TB,也就是說(shuō),數(shù)據(jù)的存儲(chǔ)是一個(gè)要解決的問(wèn)題。同時(shí),硬盤技術(shù)也面臨一個(gè)技術(shù)瓶頸,就是硬盤的傳輸速度(讀數(shù)據(jù)的速度)的提升遠(yuǎn)遠(yuǎn)低于硬盤容量的提升。
容量提升了將近1000倍,而傳輸速度才提升了20倍,讀完一個(gè)硬盤的所需要的時(shí)間相對(duì)來(lái)說(shuō),更長(zhǎng)更久了(已經(jīng)違反了數(shù)據(jù)價(jià)值的即時(shí)性)。讀數(shù)據(jù)都花了這么長(zhǎng)時(shí)間,更不用說(shuō)寫數(shù)據(jù)了。
對(duì)于如何提高讀取數(shù)據(jù)的效率,我們已經(jīng)想到解決的方法了,那就是將一個(gè)數(shù)據(jù)集存儲(chǔ)到多個(gè)硬盤里,然后并行讀取。比如1T的數(shù)據(jù),我們平均100份存儲(chǔ)到100個(gè)1TB硬盤上,同時(shí)讀取,那么讀取完整個(gè)數(shù)據(jù)集的時(shí)間用不上兩分鐘。至于硬盤剩下的99%的容量,我們可以用來(lái)存儲(chǔ)其他的數(shù)據(jù)集,這樣就不會(huì)產(chǎn)生浪費(fèi)。解決讀取效率問(wèn)題的同時(shí),我們也解決了大數(shù)據(jù)的存儲(chǔ)問(wèn)題。
但是,我們同時(shí)對(duì)多個(gè)硬盤進(jìn)行讀/寫操作時(shí),又有了新的問(wèn)題需要解決:
1、硬件故障問(wèn)題。一旦使用多個(gè)硬件,相對(duì)來(lái)說(shuō),個(gè)別硬件產(chǎn)生故障的幾率就高,為了避免數(shù)據(jù)丟失,最常見(jiàn)的做法就是復(fù)制(replication):文件系統(tǒng)保存數(shù)據(jù)的多個(gè)復(fù)本,一旦發(fā)生故障,就可以使用另外的復(fù)本。
2、讀取數(shù)據(jù)的正確性問(wèn)題。大數(shù)據(jù)時(shí)代的一個(gè)分析任務(wù),就需要結(jié)合大部分?jǐn)?shù)據(jù)來(lái)共同完成分析,因此從一個(gè)硬盤上讀取的數(shù)據(jù)要與從其他99個(gè)硬盤上讀取的數(shù)據(jù)結(jié)合起來(lái)使用。那么,在讀取過(guò)程中,如何保證數(shù)據(jù)的正確性,就是一個(gè)很大的挑戰(zhàn)。
有人會(huì)想,既然使用了多個(gè)硬盤,為什么不用配有多個(gè)硬盤的關(guān)系型數(shù)據(jù)庫(kù)來(lái)進(jìn)行數(shù)據(jù)的存儲(chǔ)和分析呢?其實(shí),這個(gè)主要取決于硬盤發(fā)展的一個(gè)技術(shù)限制,那就是需要尋址操作。我們從關(guān)系型數(shù)據(jù)庫(kù)中讀取數(shù)據(jù)包含著大量的尋址操作,那么尋址所產(chǎn)生的時(shí)間開(kāi)銷必然會(huì)大大的增加,再加上讀取數(shù)據(jù)的時(shí)間,就更加漫長(zhǎng)了。還有一個(gè)原因,關(guān)系型數(shù)據(jù)庫(kù)不適合存儲(chǔ)半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),而這個(gè)時(shí)代,半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)占90%,而結(jié)構(gòu)化數(shù)據(jù)只占10%。
針對(duì)于上述幾個(gè)問(wèn)題,Hadoop為我們提供了一個(gè)可靠的且可擴(kuò)展的存儲(chǔ)和分析平臺(tái),此外,由于Hadoop運(yùn)行在商用硬件上且是開(kāi)源的,因此Hadoop的使用成本是比較低了,在用戶的承受范圍內(nèi)。
Hadoop是Apache基金會(huì)旗下的一個(gè)開(kāi)源的分布式計(jì)算平臺(tái),是基于Java語(yǔ)言開(kāi)發(fā)的,有很好的跨平臺(tái)特性,并且可以部署在廉價(jià)的計(jì)算機(jī)集群中。用戶無(wú)需了解分布式底層細(xì)節(jié),就可以開(kāi)發(fā)分布式程序,充分利用集群的威力進(jìn)行高速運(yùn)算和存儲(chǔ)。
最初,Hadoop的核心技術(shù)是HDFS和MapReduce。
HDFS是Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System)的簡(jiǎn)稱,它具有較高的讀寫速度,很好的容錯(cuò)性和可伸縮性,為海量的數(shù)據(jù)提供了分布式存儲(chǔ),其冗余數(shù)據(jù)存儲(chǔ)的方式很好的保證了數(shù)據(jù)的安全性。
MapReduce是一種用于并行處理大數(shù)據(jù)集的軟件框架(編程模型)。用戶可在無(wú)需了解底層細(xì)節(jié)的情況下,編寫MapReduce程序進(jìn)行分析和處理分布式文件系統(tǒng)上的數(shù)據(jù),MapReduce保證了分析和處理數(shù)據(jù)的高效性。
因其在分布式環(huán)境下提供了高效的,海量的數(shù)據(jù)的優(yōu)秀處理能力,Hadoop被公認(rèn)為大數(shù)據(jù)行業(yè)中的標(biāo)準(zhǔn)開(kāi)源軟件。幾乎所有主流的廠商如谷歌,雅虎,微軟,淘寶等等這樣的大公司都是圍繞Hadoop進(jìn)行提供開(kāi)發(fā)工具,開(kāi)源軟件,商業(yè)化工具或技術(shù)服務(wù)的。
在Hadoop2.0以后,又引入了另一個(gè)核心技術(shù):YARN(Yet Another Resource Negotiator)。它是一個(gè)任務(wù)調(diào)度和集群資源管理系統(tǒng),主要有兩類長(zhǎng)期運(yùn)行的守護(hù)線程來(lái)提供自己的核心服務(wù):一類是用于管理集群上資源使用的資源管理器(Resouce Manager),另一類是運(yùn)行在集群中各個(gè)節(jié)點(diǎn)上且能夠啟動(dòng)和監(jiān)控容器(container)的節(jié)點(diǎn)管理器(Node Manager)。
發(fā)展到現(xiàn)在的Hadoop3.x可以概括成以下五個(gè)模塊:
Hadoop Common:由原來(lái)的Hadoop core更名而來(lái)。以前的版本中core包含HDFS、MapReduce及其其他公共部分。后來(lái)HDFS和MapReuce被分離出來(lái)作為獨(dú)立的子項(xiàng)目,剩下的公共部分更名為Common。主要包括系統(tǒng)配置工具Configuration、遠(yuǎn)程過(guò)程調(diào)用RPC、序列化機(jī)制和Hadoop抽象文件系統(tǒng)FileSystem等。它們?yōu)樵谕ㄓ糜布洗罱ㄔ朴?jì)算環(huán)境提供基本的服務(wù),并為運(yùn)行在該平臺(tái)上的軟件開(kāi)發(fā)提供了所需的API。
Hadoop HDFS:Hadoop的核心技術(shù)之一,分布式文件系統(tǒng)
Hadoop YARN:Hadoop2.0以后新增的一個(gè)核心技術(shù),資源管理系統(tǒng)
Hadoop MapReduce:Hadoop的核心技術(shù)之一,編程模型,用于大規(guī)模數(shù)據(jù)集的并行計(jì)算。
Hadoop Ozone:HDFS的一個(gè)擴(kuò)展方向,對(duì)象存儲(chǔ)技術(shù)。
關(guān)于Hadoop這個(gè)名字的由來(lái),該項(xiàng)目的創(chuàng)建者Doug Cutting是這樣解釋的:“這個(gè)名字是我孩子給一個(gè)棕黃色的大象玩具命名的。我的命名標(biāo)準(zhǔn)就是簡(jiǎn)短,容易發(fā)音和拼寫,沒(méi)有太多的意義,并且不會(huì)被用于別處。小孩子恰恰是這方面的高手?!?/p>
Hadoop的發(fā)音是 [h?du:p]。
Hadoop由知名項(xiàng)目Apache Lucene的創(chuàng)始人道格·卡?。╠oug Cutting)創(chuàng)建。
它起源于Apache Nutch 項(xiàng)目(一個(gè)網(wǎng)頁(yè)爬取工具和搜索引擎系統(tǒng),后來(lái)遇到大數(shù)據(jù)量的網(wǎng)頁(yè)存儲(chǔ)問(wèn)題)。
2003年,谷歌發(fā)表的一篇論文(描述的是“谷歌分布式文件系統(tǒng)”,簡(jiǎn)稱GFS)給了Apache Nutch項(xiàng)目的開(kāi)發(fā)者靈感。
2004年,Nutch的開(kāi)發(fā)者開(kāi)始著手 NDFS(Nutch的分布式文件系統(tǒng))。
2004年 ,谷歌又發(fā)表了一篇介紹MapReduce系統(tǒng)的論文。
2005年,Nutch項(xiàng)目實(shí)現(xiàn)了一個(gè)MapReduce系統(tǒng)
2006年,開(kāi)發(fā)人員將NDFS和MapReduce移出Nutch項(xiàng)目形成一個(gè)子項(xiàng)目,命名Hadoop
2008年,Hadoop已稱為Apache的頂級(jí)項(xiàng)目。
2008年4月,Hadoop打破世界記錄,成為最快排序1TB數(shù)據(jù)的系統(tǒng),排序時(shí)間為209秒
2009年,Hadoop把1TB數(shù)據(jù)的排序時(shí)間縮短到62秒。
從此名聲大噪,現(xiàn)在很多公司都在使用,如雅虎,last.fm,F(xiàn)aceBook,《紐約時(shí)報(bào)》等等
目前Hadoop的版本發(fā)展,hadoop1.x > hadoop2.x > hadoop3.x
Hadoop因?yàn)槭腔贘ava語(yǔ)言開(kāi)發(fā)的,因此最理想的運(yùn)行平臺(tái)就是Linux系統(tǒng)了。它也支持多種編程語(yǔ)言,如C++,PHP等等。
也可以總結(jié)出以下優(yōu)點(diǎn):
高可靠型。Hadoop按位存儲(chǔ)和處理數(shù)據(jù)的能力值得人們信賴。
高效性。Hadoop能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù),并保證各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡,因此處理速度非???,可以處理PB級(jí)數(shù)據(jù)。
高可擴(kuò)展性。Hadoop的設(shè)計(jì)目標(biāo)是可以高效的穩(wěn)定的運(yùn)行在廉價(jià)的計(jì)算機(jī)集群上,可以擴(kuò)展到數(shù)以千計(jì)的計(jì)算機(jī)節(jié)點(diǎn)。
高容錯(cuò)性。采用冗余數(shù)據(jù)存儲(chǔ)方式,自動(dòng)保存數(shù)據(jù)的多個(gè)復(fù)本,并且能夠自動(dòng)將失敗的任務(wù)進(jìn)行重新分配
成本低。Hadoop采用廉價(jià)的計(jì)算機(jī)集群,成本比較低,普通用戶也可以使用自己的電腦來(lái)搭建Hadoop環(huán)境
“Hadoop的特點(diǎn)是什么”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注創(chuàng)新互聯(lián)-成都網(wǎng)站建設(shè)公司網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!