1.hadoop:
目前創(chuàng)新互聯(lián)已為數(shù)千家的企業(yè)提供了網(wǎng)站建設(shè)、域名、虛擬主機(jī)、綿陽服務(wù)器托管、企業(yè)網(wǎng)站設(shè)計(jì)、陽曲網(wǎng)站維護(hù)等服務(wù),公司將堅(jiān)持客戶導(dǎo)向、應(yīng)用為本的策略,正道將秉承"和諧、參與、激情"的文化,與客戶和合作伙伴齊心協(xié)力一起成長,共同發(fā)展。
作者:Doug Cutting
受Google三篇論文的啟發(fā)
2.版本:
Apache: 官方版本(1.1.2),學(xué)習(xí)使用
Cloudera:在apache版本的基礎(chǔ)上添加功能,實(shí)現(xiàn)商業(yè)用途
Yahoo:現(xiàn)在已經(jīng)集中在apache的版本上
3.hadoop的核心項(xiàng)目
HDFS:(Hadoop Distributed File System) 分布式文件系統(tǒng)
MapReduce:并行計(jì)算框架
4.HDFS的架構(gòu)(主從結(jié)構(gòu)中,主節(jié)點(diǎn)負(fù)責(zé)管理。從節(jié)點(diǎn)負(fù)責(zé)操作)
主從結(jié)構(gòu)(只有一個主節(jié)點(diǎn)namenode,可以有很多個從節(jié)點(diǎn)datanodes)
namenode負(fù)責(zé):
接收用戶的操作請求
維護(hù)文件系統(tǒng)的目錄結(jié)構(gòu)
管理文件與block之間的關(guān)系,block與datanode之間的關(guān)系
datanode負(fù)責(zé):
存儲文件
文件被分成block存儲在磁盤上
為保證數(shù)據(jù)安全,文件會有多個副本
5.MapReduce的架構(gòu)
主從結(jié)構(gòu)(只有一個主節(jié)點(diǎn)JobTracker,可以用很多個從節(jié)點(diǎn)TaskTrackers)
JobTracker負(fù)責(zé):
接收客戶提交的計(jì)算任務(wù)
把計(jì)算任務(wù)分給TaskTracker執(zhí)行
監(jiān)控TaskTracker的執(zhí)行情況
TaskTrackers負(fù)責(zé):
執(zhí)行JobTracker分配的計(jì)算任務(wù)
6.Hadoop的特點(diǎn):
擴(kuò)容能力(Scalable):能可靠地存儲和處理千兆字節(jié)(PB)數(shù)據(jù);
成本低(Economical):可以通過普通機(jī)器組成的服務(wù)器群來分發(fā)以及處理數(shù)據(jù);
高效率(Efficient):通過分發(fā)數(shù)據(jù),hadoop可以在數(shù)據(jù)的所在節(jié)點(diǎn)上并行處理;
可性靠(Reliable):hadoop能自動地維護(hù)數(shù)據(jù)的多份副本,并且在任務(wù)失敗后能自動重新部署計(jì)算任務(wù)
7.Hadoop集群的物理分布
說明:
a.下方的Rack分別表示兩個機(jī)柜,分別存放多個服務(wù)器,左右兩機(jī)柜都連接有自己的交換機(jī),左右兩個交換機(jī)又和總的交換機(jī)連接,所以,機(jī)柜上的各個服務(wù)器之間可以互相訪問;
b.機(jī)柜上兩個主節(jié)點(diǎn)分別都獨(dú)占一臺服務(wù)器,而從節(jié)點(diǎn)組合在一起存放在一臺服務(wù)器上
8.單節(jié)點(diǎn)物理結(jié)構(gòu)
說明:左右圖分別表示主節(jié)點(diǎn)和從節(jié)點(diǎn),圖中主從節(jié)點(diǎn)都使用linux系統(tǒng)的服務(wù)器,并且都運(yùn)行在java虛擬機(jī)上,因?yàn)閔adoop是基于java開發(fā)的
9.Hadoop部署方式
本地部署(不常用)
偽分布模式(學(xué)習(xí)使用)
集群模式(公司使用)
10.安裝前準(zhǔn)備軟件
VitualVox
centos
jdk-6u24-linux-xxx.bin
hadoop-1.1.2.tar.gz
11.偽分布模式安裝步驟:(6步)
關(guān)閉防火墻
修改ip
修改hostname
設(shè)置ssh自動登錄
安裝jdk
安裝hadoop