Hadoop2.2.0集群在RHEL6.2下如何安裝

小編給大家分享一下Hadoop2.2.0集群在RHEL6.2下如何安裝，相信大部分人都還不怎么了解，因此分享這篇文章給大家參考一下，希望大家閱讀完這篇文章后大有收獲，下面讓我們一起去了解一下吧！

站在用戶的角度思考問題，與客戶深入溝通，找到通許網(wǎng)站設(shè)計與通許網(wǎng)站推廣的解決方案，憑借多年的經(jīng)驗(yàn)，讓設(shè)計與互聯(lián)網(wǎng)技術(shù)結(jié)合，創(chuàng)造個性化、用戶體驗(yàn)好的作品，建站類型包括：成都網(wǎng)站設(shè)計、成都網(wǎng)站制作、外貿(mào)網(wǎng)站建設(shè)、企業(yè)官網(wǎng)、英文網(wǎng)站、手機(jī)端網(wǎng)站、網(wǎng)站推廣、申請域名、網(wǎng)頁空間、企業(yè)郵箱。業(yè)務(wù)覆蓋通許地區(qū)。

本次集群搭建過程中，主要遇到兩個問題：
（1）第一個是：DataNode啟動了（使用jps可以看到進(jìn)程），但是在NameNode中看不到（192.168.1.10:50070），花費(fèi)大約3個小時時間查問題，根據(jù)logs目錄的日志“org.apache.hadoop.ipc.Client: Retrying connect to server: master/192.168.1.10:9000”，到百度搜索，有人遇到說是防火墻沒關(guān)的問題，但是我的防火墻都關(guān)了。最后多種方式嘗試，原來是/etc/hosts中，對于master除了對應(yīng)到192.168.1.10之外，我還對應(yīng)到了127.0.0.1，去掉之后，重新啟動，就都好了。
（2）第二個是：常見問題，多次format namecode造成的DataNode不啟動，刪除/home/hadoop/dfs/data/current/VERSION就好了。
（3）多看日志，總能解決

Hadoop是什么
Hadoop是Lucene創(chuàng)始人Doug Cutting，根據(jù)Google的相關(guān)內(nèi)容山寨出來的分布式文件系統(tǒng)和對海量數(shù)據(jù)進(jìn)行分析計算的基礎(chǔ)框架系統(tǒng)，其中包含MapReduce程序，hdfs系統(tǒng)等。

名詞解釋
（1）Hadoop：Apache開源的分布式框架。
（2）HDSF：Hadoop的分布式文件系統(tǒng)。

（3）NameNode：Hadoop HDFS元數(shù)據(jù)主節(jié)點(diǎn)服務(wù)器，負(fù)責(zé)保存DataNode 文件存儲元數(shù)據(jù)信息，這個服務(wù)器是單點(diǎn)的。

（4）JobTracker：Hadoop的Map/Reduce調(diào)度器，負(fù)責(zé)與TaskTracker通信分配計算任務(wù)并跟蹤任務(wù)進(jìn)度，這個服務(wù)器也是單點(diǎn)的。
（5）DataNode：Hadoop數(shù)據(jù)節(jié)點(diǎn)，負(fù)責(zé)存儲數(shù)據(jù)。
（6）TaskTracker：Hadoop調(diào)度程序，負(fù)責(zé)Map,Reduce任務(wù)的啟動和執(zhí)行。

Hadoop1的集群部署結(jié)構(gòu)圖

20140412225748359.jpg(50.6 KB, 下載次數(shù): 0)

下載附件保存到相冊

6 天前上傳

Hadoop2的Yarn架構(gòu)圖

20140413085324421.jpg(183.81 KB, 下載次數(shù): 0)

下載附件保存到相冊

6 天前上傳

安裝RHEL環(huán)境
使用VMWare WorkStation安裝虛擬機(jī)：
http://blog.csdn.net/puma_dong/article/details/17889593#t0
http://blog.csdn.net/puma_dong/article/details/17889593#t1

安裝Java環(huán)境：
http://blog.csdn.net/puma_dong/article/details/17889593#t10

安裝完畢之后，4臺虛擬機(jī)IP及機(jī)器名稱如下：
192.168.1.10 master
192.168.1.11 node1
192.168.1.12 node2
192.168.1.13 node3
可以通過vim /etc/hosts查看。注意：在/etc/hosts中，不要把機(jī)器名字，同時對應(yīng)到127.0.0.1這個地址，會導(dǎo)致數(shù)據(jù)節(jié)點(diǎn)連接不上命名節(jié)點(diǎn)，報錯如下：

org.apache.hadoop.ipc.Client: Retrying connect to server: master/192.168.1.10:9000

安裝完畢之后，Java位置如下：/usr/jdk1.6.0_45 ，可以通過echo $JAVA_HOME查看。

配置Hadoop環(huán)境
創(chuàng)建Hadoop賬號
（1）創(chuàng)建Hadoop用戶組：groupadd hadoop
（2）創(chuàng)建Hadoop用戶：useradd hadoop -g hadoop
（3）設(shè)置Hadoop用戶密碼：passwd 密碼hadoop
（4）給hadoop賬戶增加sudo權(quán)限： vim /etc/sudoers ，增加內(nèi)容：hduser ALL=(ALL) ALL
注意：以上對于每一臺機(jī)器都要執(zhí)行

創(chuàng)建master到slave的無密碼登錄
（1）切換到Hadoop 用戶下：su hadoop cd /home/hadoop/
（2）生成公鑰和私鑰：ssh-keygen -q -t rsa -N "" -f /home/hadoop/.ssh/id_rsa
（3）查看密鑰內(nèi)容：cd /home/hadoop/.ssh cat id_rsa.pub
（4）復(fù)制id_rsa.pub公鑰到 authorized_keys 文件：cat id_rsa.pub > authorized_keys
（5）修改master公鑰權(quán)限：chmod 644 /home/hadoop/.ssh/authorized_keys
（6）把 master 機(jī)器上的 authorized_keys 文件 copy 到 node1 節(jié)點(diǎn)上：
scp /home/hadoop/.ssh/authorized_keys node1:/home/hadoop/.ssh/
如果node1/node2/node3機(jī)器上沒有.ssh目錄，則創(chuàng)建，并chmod 700 /home/hadoop/.ssh

安裝Hadoop
安裝目錄
Hadoop安裝目錄：/home/hadoop/hadoop-2.2.0
文件目錄：/home/hadoop/dfs/name ，/home/hadoop/dfs/data ，/home/hadoop/tmp

安裝步驟
注意：以下步驟使用hadoop賬號操作。

（1）轉(zhuǎn)到 home/hadoop目錄：cd /home/hadoop
（2）下載hadoop：wget http://mirror.esocc.com/apache/h ... hadoop-2.2.0.tar.gz
（3）解壓hadoop并放到計劃安裝位置：tar zxvf hadoop-2.2.0.tar.gz
（4）創(chuàng)建文件目錄：mkdir -p /home/hadoop/dfs/name /home/hadoop/dfs/data /home/hadoop/tmp
（5）修改7個配置文件，文件位置：/home/hadoop/hadoop-2.2.0/etc/hadoop/，文件名稱：hadoop-env.sh、yarn-evn.sh、slaves、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml

配置文件hadoop-env.sh
如果系統(tǒng)環(huán)境變量有設(shè)置$JAVA_HOME，則這個文件不用修改，否則要修改${JAVA_HOME}為：/usr/jdk1.6.0_45

配置文件yarn-env.sh
如果系統(tǒng)環(huán)境變量有設(shè)置$JAVA_HOME，則這個文件不用修改，否則要修改${JAVA_HOME}為：/usr/jdk1.6.0_45

配置文件slaves
vim /home/hadoop/hadoop-2.2.0/etc/hadoop/slaves，修改內(nèi)容為所有的DataNode的機(jī)器名字，每個機(jī)器一行，這篇文章的配置如下：
node1
node2
node3

配置文件core-site.xml
vim /home/hadoop/hadoop-2.2.0/etc/hadoop/core-site.xml，修改configuration內(nèi)容如下：

fs.defaultFShdfs://master:9000io.file.buffer.size131072hadoop.tmp.dirfile:/home/hadoop/tmpAbase for other temporary directories.
配置文件hdfs-site.xml
vim /home/hadoop/hadoop-2.2.0/etc/hadoop/hdfs-site.xml，修改configuration內(nèi)容如下：

dfs.namenode.secondary.http-addressmaster:9001dfs.namenode.name.dirfile:/home/hadoop/dfs/namedfs.datanode.data.dirfile:/home/hadoop/dfs/datadfs.replication3dfs.webhdfs.enabledtrue

配置文件mapred-site.xml
mv /home/hadoop/hadoop-2.2.0/etc/hadoop/mapred-site.xml.template /home/hadoop/hadoop-2.2.0/etc/hadoop/mapred-site.xml
vim /home/hadoop/hadoop-2.2.0/etc/hadoop/mapred-site.xml，修改configuration內(nèi)容如下：

mapreduce.framework.nameyarnmapreduce.jobhistory.addressmaster:10020mapreduce.jobhistory.webapp.addressmaster:19888

配置節(jié)點(diǎn)yarn-site.xml
vim /home/hadoop/hadoop-2.2.0/etc/hadoop/yarn-site.xml，修改configuration內(nèi)容如下：

yarn.nodemanager.aux-servicesmapreduce_shuffleyarn.nodemanager.aux-services.mapreduce.shuffle.classorg.apache.hadoop.mapred.ShuffleHandleryarn.resourcemanager.addressmaster:8032yarn.resourcemanager.scheduler.addressmaster:8030yarn.resourcemanager.resource-tracker.addressmaster:8031yarn.resourcemanager.admin.addressmaster:8033yarn.resourcemanager.webapp.addressmaster:8088

復(fù)制Hadoop到其他節(jié)點(diǎn)
（1）scp -r /home/hadoop/hadoop-2.2.0 hadoop@node1:~/

（2）scp -r /home/hadoop/hadoop-2.2.0 hadoop@node2:~/

（3）scp -r /home/hadoop/hadoop-2.2.0 hadoop@node3:~/

啟動Hadoop
（1）切換到hadoop用戶：su hadoop
（2）進(jìn)入安裝目錄： cd  ~/hadoop-2.2.0/
（3）格式化namenode：./bin/hdfs namenode –format
（4）啟動hdfs: ./sbin/start-dfs.sh
（5）jps查看，此時master有進(jìn)程：NameNoce SecondaryNameNode，node1/node2/node3上有進(jìn)程：DataNode
（6）啟動yarn: ./sbin/start-yarn.sh
（7）jps查看，此時master有進(jìn)程：NameNoce SecondaryNameNode ResourceManager，node1/node2/node3上有進(jìn)程：DataNode NodeManager
（8）查看集群狀態(tài)：./bin/hdfs dfsadmin -report
（9）查看文件塊組成：  ./bin/hdfs fsck / -files -blocks
（10）Web查看HDFS: http://192.168.1.10:50070
（11）Web查看RM: http://192.168.1.10:8088

HADOOP_HOME環(huán)境變量

在運(yùn)行方便，我們設(shè)置一個HADOOP_HOME環(huán)境變量，并加入PATH目錄，步驟如下：
（1）vim /etc/profile.d/java.sh  #因?yàn)閔adoop必用java，所有我們把使用這個文件即可。
（2）增加內(nèi)容：
export HADOOP_HOME=/home/hadoop/hadoop-2.2.0
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

運(yùn)行Hadoop計算任務(wù)
WordCount
（1）/home/hadoop目錄下有兩個文本文件file01.txt和file02.txt，文件內(nèi)容分別為：
file01.txt：
kongxianghe
kong
yctc
Hello World

file02.txt：
11
2222
kong
Hello
yctc
（2）將這兩個文件放入hadoop的HDFS中：
hadoop fs -ls    //查看hdfs目錄情況
hadoop fs -mkdir -p input
hadoop fs -put /home/hadoop/file*.txt input
hadoop fs -cat input/file01.txt //查看命令
（3）計算并查看結(jié)果：
hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar wordcount input output
hadoop fs -ls output
hadoop fs -cat output/part-r-00000

可以看到數(shù)據(jù)都已經(jīng)被統(tǒng)計出來了。

運(yùn)行排序計算
如下的這個程序，會現(xiàn)在每個節(jié)點(diǎn)生成10個G的隨機(jī)數(shù)字，然后排序出結(jié)果：
（1）./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar randomwriter rand
（2）./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar sort rand sort-rand
第一個命令會在rand 目錄的生成沒有排序的數(shù)據(jù)。第二個命令會讀數(shù)據(jù)，排序，然后寫入rand-sort 目錄。

常見錯誤
（1）Name node is in safe mode
運(yùn)行hadoop程序時，異常終止了，然后再向hdfs加文件或刪除文件時，出現(xiàn)Name node is in safe mode錯誤：
rmr: org.apache.hadoop.dfs.SafeModeException: Cannot delete /user/hadoop/input. Name node is in safe mode
解決的命令：
hadoop dfsadmin -safemode leave #關(guān)閉safe mode

（2）DataNode 無法啟動
我遇到過兩種情況的DataNode無法啟動：第一種是/etc/hosts里面機(jī)器名字除了和IP對應(yīng)之外，還和127.0.0.1對應(yīng)，導(dǎo)致DataNode連接NameNode的9000端口一直連接不上；第二種是多次format namenode 造成namenode 和datanode的clusterID不一致，通過查看NameNode和DataNode的/home/hadoop/dfs/data/current/VERSION，發(fā)現(xiàn)確實(shí)不一致。

以上是“Hadoop2.2.0集群在RHEL6.2下如何安裝”這篇文章的所有內(nèi)容，感謝各位的閱讀！相信大家都有了一定的了解，希望分享的內(nèi)容對大家有所幫助，如果還想學(xué)習(xí)更多知識，歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道！

網(wǎng)頁標(biāo)題：Hadoop2.2.0集群在RHEL6.2下如何安裝
本文來源：http://weahome.cn/article/ggpihp.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

Hadoop2.2.0集群在RHEL6.2下如何安裝

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管