Hadoop和大數(shù)據(jù)是這兩年最火的詞兒們之一,越來(lái)越多的公司對(duì)這個(gè)東西感興趣,但是我接觸到的大多數(shù)公司里的人,無(wú)論是技術(shù)人員還是老板。都不知道怎么能把這些東西用于改善自己公司的業(yè)務(wù)。在解答的過(guò)程中,提煉出幾個(gè)要點(diǎn),記錄一下。
大數(shù)據(jù)和云是不是一回事?
這是最容易混淆的概念之一,我個(gè)人認(rèn)為這是兩回事,云服務(wù),無(wú)論是云主機(jī)還是云存儲(chǔ)還是云的其他應(yīng)用,都是向用戶提供一個(gè)接口,但這個(gè)接口的后端是虛擬機(jī)技術(shù),或者分布式存儲(chǔ)技術(shù),或者其他分布式計(jì)算技術(shù)等等。簡(jiǎn)而言之,云的概念就是我向你提供服務(wù),而你不需要關(guān)心這種服務(wù)的架構(gòu)或者技術(shù)實(shí)現(xiàn)有多么復(fù)雜。打個(gè)比方,就好象是,云之前的時(shí)代我們要用電,就需要自己造一個(gè)電廠發(fā)電,造機(jī)組,造變電站,然后再去用它。而云服務(wù)就好象是別人搭好了一個(gè)電廠,電線直接進(jìn)你家,你要用,只需要插上插頭,不需要關(guān)心電是怎么被制造出來(lái)的。電力的生產(chǎn)和電力設(shè)備的維護(hù)都由國(guó)家電網(wǎng)承擔(dān)。聯(lián)系到網(wǎng)絡(luò)方面,就是,我們以前要自己買服務(wù)器,自己裝系統(tǒng),自己上架,自己做負(fù)載均衡,自己維護(hù)軟硬件環(huán)境。有了云之后,這些都通過(guò)云服務(wù)商的虛擬機(jī)技術(shù)完成了。數(shù)據(jù)安全和網(wǎng)絡(luò)安全都由云服務(wù)商提供,你也不需要專門請(qǐng)人維護(hù)一堆設(shè)備。
如果你想要學(xué)好大數(shù)據(jù)最好加入一個(gè)好的學(xué)習(xí)環(huán)境,可以來(lái)這個(gè)Q群251956502 這樣大家學(xué)習(xí)的話就比較方便,還能夠共同交流和分享資料
而說(shuō)到大數(shù)據(jù),這個(gè)可以是基于云的,也可以是不基于云的。大數(shù)據(jù)的處理技術(shù)與提供云服務(wù)的技術(shù)是不盡相同的,但是又有所交集。可以說(shuō),云服務(wù)是基礎(chǔ)設(shè)施,是市政工程,而大數(shù)據(jù)是城市里的高樓大廈。大數(shù)據(jù)可以基于云,也可以不基于云。
從技術(shù)角度上說(shuō),國(guó)內(nèi)的大多數(shù)云服務(wù)商,主要提供的是虛擬機(jī)服務(wù),這是一種分的概念,把一臺(tái)物理服務(wù)器拆成多個(gè)虛擬的小服務(wù)器,盡可能多的使用其物理資源,避免浪費(fèi)。而大數(shù)據(jù)是合的思想,是把很多臺(tái)服務(wù)器合并成一個(gè)虛擬的巨型服務(wù)器,通過(guò)分配計(jì)算資源使數(shù)據(jù)可以快速的為生產(chǎn)力服務(wù)。用一句中國(guó)的老話形容大數(shù)據(jù)和Hadoop就是:三個(gè)臭皮匠頂個(gè)諸葛亮。用合并起來(lái)的計(jì)算資源超越小型機(jī)或者中型機(jī)的計(jì)算能力。這里面當(dāng)然也有云的概念存在著,就是說(shuō),你不需要關(guān)心數(shù)據(jù)的存儲(chǔ)和計(jì)算到底是怎么完成的,你只需要用就可以了。
大數(shù)據(jù)技術(shù)是不是一定需要數(shù)據(jù)量大才可以,數(shù)據(jù)量不大就不需要用?
通常是這樣認(rèn)為的,但是并不絕對(duì),計(jì)算維度大,計(jì)算過(guò)程復(fù)雜也都可以認(rèn)為是大數(shù)據(jù)。換句話說(shuō),就是,如果你所需要的數(shù)據(jù),在你所需要的時(shí)間內(nèi)無(wú)法正常計(jì)算出來(lái),你可能就需要用到大數(shù)據(jù)的技術(shù)了。
一方面,你的數(shù)據(jù)需要的存儲(chǔ)量超過(guò)數(shù)據(jù)庫(kù)或者數(shù)據(jù)倉(cāng)庫(kù)的能力范圍,你可能需要大數(shù)據(jù)技術(shù);另一方面,你的計(jì)算量超過(guò)傳統(tǒng)的數(shù)據(jù)處理手段的時(shí)效性能力范圍之外,你也可能需要大數(shù)據(jù)技術(shù)。而典型的計(jì)算能力的挑戰(zhàn)就是來(lái)自于數(shù)據(jù)挖掘和多維度分析??赡軘?shù)據(jù)量不大,但是算法和過(guò)程很復(fù)雜,也可能會(huì)需要大數(shù)據(jù)的技術(shù)。比如對(duì)用戶做推薦,基于用戶群的分類做精準(zhǔn)的廣告投放?;蛘咴趥鹘y(tǒng)行業(yè)計(jì)算氣象預(yù)報(bào),計(jì)算地質(zhì)數(shù)據(jù)做石油探測(cè),礦產(chǎn)探測(cè)。又或者用在金融行業(yè),通過(guò)對(duì)歷史數(shù)據(jù)建立數(shù)學(xué)模型,對(duì)證券和期貨貸款等做風(fēng)險(xiǎn)預(yù)估。之所以阿里巴巴對(duì)于中國(guó)的經(jīng)濟(jì)和進(jìn)出口的預(yù)測(cè)比商務(wù)部和統(tǒng)計(jì)局更精準(zhǔn),除了他們有一群數(shù)學(xué)和統(tǒng)計(jì)專家外,大數(shù)據(jù)是完全不可或缺的技術(shù)手段。
大數(shù)據(jù)技術(shù)是不是就是那個(gè)什么憨杜普?
顯然不是,大數(shù)據(jù)領(lǐng)域存在很多廠商和應(yīng)用,有開源的,有收費(fèi)的。比如一些非Hadoop大數(shù)據(jù)處理的公司和軟件,EMC的Greenplum,Splunk公司的splunk等等。這些都不是基于Hadoop的,但是也有共同的缺陷,就是很貴。所以,大多數(shù)公司采用開源軟件來(lái)完成大數(shù)據(jù)的業(yè)務(wù)處理。而開源領(lǐng)域做得最好的,應(yīng)該就是hadoop了。所以現(xiàn)在hadoop基本成了大數(shù)據(jù)處理的代名詞了?;贖adoop衍生了很多家商業(yè)公司,因?yàn)锳pache的許可協(xié)議并不拒絕商業(yè)。像國(guó)內(nèi)比較知名的Cloudera,MapR,他們的商業(yè)產(chǎn)品都是基于Hadoop及其周邊的生態(tài)軟件。
大數(shù)據(jù)應(yīng)該怎么推進(jìn)公司業(yè)務(wù)的發(fā)展?
這是個(gè)關(guān)乎想象力的事情,有了大容量和大計(jì)算,至于怎么用,這只能自己想。原來(lái)數(shù)據(jù)怎么做現(xiàn)在還怎么做,不過(guò)除了啤酒與尿布,口香糖與避孕套之外,還有一個(gè)比較生動(dòng)的案例大約是這樣的:美國(guó)有一個(gè)公司,在各產(chǎn)糧區(qū)每隔一英里插一個(gè)傳感器,收集空氣濕度和土壤含氮量等數(shù)據(jù)。收集上來(lái)以后通過(guò)大數(shù)據(jù)的處理手段和算法,預(yù)測(cè)出該地區(qū)的收成可能會(huì)是什么情況,然后把預(yù)測(cè)報(bào)告賣給美國(guó)的農(nóng)業(yè)保險(xiǎn)公司。
Hadoop有什么優(yōu)缺點(diǎn)?
Hadoop的優(yōu)點(diǎn)是數(shù)據(jù)的容量和計(jì)算能力以及數(shù)據(jù)的備份安全性有了很大程度的提升,1.0大可以支持到大約4000臺(tái)服務(wù)器的并行存儲(chǔ)和運(yùn)算,而2.0大約可以支持6000臺(tái)服務(wù)器。不過(guò)2.0現(xiàn)在還不是很完善,所以生產(chǎn)環(huán)境還是建議用1.0。我認(rèn)為4000臺(tái)集群的容量和計(jì)算能力足以匹敵IBM的大型機(jī),從去年12月15號(hào)的中國(guó)銀行大型機(jī)宕機(jī)事件來(lái)看。大型機(jī)就算安全性再有保障,也畢竟是單點(diǎn)。真出了故障,誰(shuí)也不敢拍板切換到備份大型機(jī)上。Hadoop 1.0已經(jīng)有了很多方案去解決單點(diǎn)問(wèn)題,2.0自己就支持單點(diǎn)故障切換?;蛟S未來(lái)繼續(xù)發(fā)展,將全面超越大型機(jī)。事實(shí)上,IBM已經(jīng)開始出自己的Hadoop發(fā)行版了。
至于缺點(diǎn),就是Hadoop1.0還是存在單點(diǎn)問(wèn)題,但是可以通過(guò)其他技術(shù)手段彌補(bǔ)做到熱切換,只是要求維護(hù)人員的技術(shù)水平較高。另外一個(gè)缺點(diǎn)是計(jì)算的時(shí)間會(huì)比較長(zhǎng),還無(wú)法做到實(shí)時(shí)查詢和快速?zèng)Q策響應(yīng)。但是有很多其他的方案在彌補(bǔ)Hadoop的這個(gè)問(wèn)題,像Apache出的跟Google Dremel競(jìng)爭(zhēng)的Drill,Cloudera推出的Impala,和其他一些產(chǎn)品。而實(shí)時(shí)計(jì)算則有Twitter開源的Storm集群,設(shè)計(jì)理念跟Hadoop是一樣的,但是可以對(duì)實(shí)時(shí)數(shù)據(jù)流進(jìn)行計(jì)算,并即刻生成計(jì)算結(jié)果。做到隨查隨出。
在各個(gè)開源社區(qū)的支持下,在全世界程序員的共同努力下,大數(shù)據(jù)的處理能力也在高速的發(fā)展,程序員們正在用自己的智慧改造這個(gè)世界。
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無(wú)理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。