前言
成都創(chuàng)新互聯(lián)公司-專業(yè)網(wǎng)站定制、快速模板網(wǎng)站建設、高性價比西鄉(xiāng)網(wǎng)站開發(fā)、企業(yè)建站全套包干低至880元,成熟完善的模板庫,直接使用。一站式西鄉(xiāng)網(wǎng)站制作公司更省心,省錢,快速模板網(wǎng)站建設找我們,業(yè)務覆蓋西鄉(xiāng)地區(qū)。費用合理售后完善,十多年實體公司更值得信賴。Apache Spark 是一個新興的大數(shù)據(jù)處理通用引擎,提供了分布式的內(nèi)存抽象。Spark 大的特點就是快,可比 Hadoop MapReduce 的處理速度快 100 倍。本文沒有使用一臺電腦上構建多個虛擬機的方法來模擬集群,而是使用三臺電腦來搭建一個小型分布式集群環(huán)境安裝。
本教程采用Spark2.0以上版本(比如Spark2.0.2、Spark2.1.0等)搭建集群,同樣適用于搭建Spark1.6.2集群。
安裝Hadoop并搭建好Hadoop集群環(huán)境
Spark分布式集群的安裝環(huán)境,需要事先配置好Hadoop的分布式集群環(huán)境。
安裝Spark
這里采用3臺機器(節(jié)點)作為實例來演示如何搭建Spark集群,其中1臺機器(節(jié)點)作為Master節(jié)點,另外兩臺機器(節(jié)點)作為Slave節(jié)點(即作為Worker節(jié)點),主機名分別為Slave01和Slave02。
在Master節(jié)點機器上,訪問Spark官方下載地址,按照如下圖下載。
下載完成后,執(zhí)行如下命令:
sudo tar -zxf ~/下載/spark-2.0.2-bin-without-hadoop.tgz -C /usr/local/ cd /usr/local sudo mv ./spark-2.0.2-bin-without-hadoop/ ./spark sudo chown -R hadoop ./spark