Hadoop是一個(gè)開源框架,它允許在整個(gè)集群使用簡(jiǎn)單編程模型計(jì)算機(jī)的分布式環(huán)境存儲(chǔ)并處理大數(shù)據(jù)。它的目的是從單一的服務(wù)器到上千臺(tái)機(jī)器的擴(kuò)展,每一個(gè)臺(tái)機(jī)都可以提供本地計(jì)算和存儲(chǔ)。
“90%的世界數(shù)據(jù)在過去的幾年中產(chǎn)生”。
由于新技術(shù),設(shè)備和類似的社交網(wǎng)站通信裝置的出現(xiàn),人類產(chǎn)生的數(shù)據(jù)量每年都在迅速增長(zhǎng)。美國(guó)從一開始的時(shí)候到2003年產(chǎn)生的數(shù)據(jù)量為5十億千兆字節(jié)。如果以堆放的數(shù)據(jù)磁盤的形式,它可以填補(bǔ)整個(gè)足球場(chǎng)。在2011年創(chuàng)建相同數(shù)據(jù)量只需要兩天,在2013年該速率仍在每十分鐘極大地增長(zhǎng)。雖然生產(chǎn)的所有這些信息是有意義的,處理起來有用的,但是它被忽略了。推薦下我自己創(chuàng)建的大數(shù)據(jù)學(xué)習(xí)交流Qun: 710219868 有打卡有資料, 進(jìn)Qun聊邀請(qǐng)碼填寫 南風(fēng)(必填 )有學(xué)習(xí)路線的分享公開課,聽完之后就知道怎么學(xué)大數(shù)據(jù)了
頭條 用戶 qq(630892562)
什么是大數(shù)據(jù)?
大數(shù)據(jù)是不能用傳統(tǒng)的計(jì)算技術(shù)處理的大型數(shù)據(jù)集的集合。它不是一個(gè)單一的技術(shù)或工具,而是涉及的業(yè)務(wù)和技術(shù)的許多領(lǐng)域。
在大數(shù)據(jù)會(huì)發(fā)生什么?
大數(shù)據(jù)包括通過不同的設(shè)備和應(yīng)用程序所產(chǎn)生的數(shù)據(jù)。下面給出的是一些在數(shù)據(jù)的框架下的領(lǐng)域。
黑匣子數(shù)據(jù):這是直升機(jī),飛機(jī),噴氣機(jī)的一個(gè)組成部分,它捕獲飛行機(jī)組的聲音,麥克風(fēng)和耳機(jī)的錄音,以及飛機(jī)的性能信息。
社會(huì)化媒體數(shù)據(jù):社會(huì)化媒體,如Facebook和Twitter保持信息發(fā)布的數(shù)百萬世界各地的人的意見觀點(diǎn)。
證券交易所數(shù)據(jù):交易所數(shù)據(jù)保存有關(guān)的“買入”和“賣出”,客戶由不同的公司所占的份額決定的信息。
電網(wǎng)數(shù)據(jù):電網(wǎng)數(shù)據(jù)保持相對(duì)于基站所消耗的特定節(jié)點(diǎn)的信息。
交通運(yùn)輸數(shù)據(jù):交通數(shù)據(jù)包括車輛的型號(hào),容量,距離和可用性。
搜索引擎數(shù)據(jù):搜索引擎獲取大量來自不同數(shù)據(jù)庫(kù)中的數(shù)據(jù)。
大數(shù)據(jù)的好處
通過保留了社交網(wǎng)絡(luò)如Facebook的信息,市場(chǎng)營(yíng)銷機(jī)構(gòu)了解可以他們的活動(dòng),促銷等廣告媒介的響應(yīng)。
利用信息計(jì)劃生產(chǎn)在社會(huì)化媒體一樣喜好并讓消費(fèi)者對(duì)產(chǎn)品的認(rèn)知,產(chǎn)品企業(yè)和零售企業(yè)。
使用關(guān)于患者以前的病歷資料,醫(yī)院提供更好的和快速的服務(wù)。
大數(shù)據(jù)技術(shù)
大數(shù)據(jù)的技術(shù)是在提供更準(zhǔn)確的分析,這可能影響更多的具體決策導(dǎo)致更大的運(yùn)行效率,降低成本,并減少了對(duì)業(yè)務(wù)的風(fēng)險(xiǎn)。
為了利用大數(shù)據(jù)的力量,需要管理和處理的實(shí)時(shí)結(jié)構(gòu)化和非結(jié)構(gòu)化的海量數(shù)據(jù),可以保護(hù)數(shù)據(jù)隱私和安全的基礎(chǔ)設(shè)施。
目前在市場(chǎng)上的各種技術(shù),從不同的供應(yīng)商,包括亞馬遜,IBM,微軟等來處理大數(shù)據(jù)。盡管找到了處理大數(shù)據(jù)的技術(shù),我們研究了以下兩類技術(shù):
操作大數(shù)據(jù)
這些包括像MongoDB系統(tǒng),提供業(yè)務(wù)實(shí)時(shí)的能力,這里主要是數(shù)據(jù)捕獲和存儲(chǔ)互動(dòng)工作。
NoSQL大數(shù)據(jù)系統(tǒng)的設(shè)計(jì)充分利用已經(jīng)出現(xiàn)在過去的十年,而讓大量的計(jì)算,以廉價(jià),高效地運(yùn)行新的云計(jì)算架構(gòu)的優(yōu)勢(shì)。這使得運(yùn)營(yíng)大數(shù)據(jù)工作負(fù)載更容易管理,更便宜,更快的實(shí)現(xiàn)。
一些NoSQL系統(tǒng)可以提供深入了解基于使用最少的編碼無需數(shù)據(jù)科學(xué)家和額外的基礎(chǔ)架構(gòu)的實(shí)時(shí)數(shù)據(jù)模式。
分析大數(shù)據(jù)
這些包括,如大規(guī)模并行處理(MPP)數(shù)據(jù)庫(kù)系統(tǒng)和MapReduce提供用于回顧性和復(fù)雜的分析,可能觸及大部分或全部數(shù)據(jù)的分析能力的系統(tǒng)。
MapReduce提供分析數(shù)據(jù)的基礎(chǔ)上,MapReduce可以按比例增加從單個(gè)服務(wù)器向成千上萬的高端和低端機(jī)的互補(bǔ)SQL提供的功能,這是系統(tǒng)的一種新方法。
這兩個(gè)類技術(shù)是互補(bǔ)的,并經(jīng)常一起部署。
大數(shù)據(jù)的挑戰(zhàn)
大數(shù)據(jù)相關(guān)的主要挑戰(zhàn)如下:
采集數(shù)據(jù)
策展
存儲(chǔ)
搜索
分享
傳輸
分析
展示
為了實(shí)現(xiàn)上述挑戰(zhàn),企業(yè)通常需要企業(yè)級(jí)服務(wù)器的幫助。
傳統(tǒng)的企業(yè)方法
在這種方法中,一個(gè)企業(yè)將有一個(gè)計(jì)算機(jī)存儲(chǔ)和處理大數(shù)據(jù)。對(duì)于存儲(chǔ)而言,程序員會(huì)自己選擇的數(shù)據(jù)庫(kù)廠商,如Oracle,IBM等的幫助下完成,用戶交互使用應(yīng)用程序進(jìn)而獲取并處理數(shù)據(jù)存儲(chǔ)和分析
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。