官方下載地址:http://spark.apache.org/downloads.html ,選擇 Spark 版本和對(duì)應(yīng)的 Hadoop 版本后再下載:
在新余等地區(qū),都構(gòu)建了全面的區(qū)域性戰(zhàn)略布局,加強(qiáng)發(fā)展的系統(tǒng)性、市場(chǎng)前瞻性、產(chǎn)品創(chuàng)新能力,以專(zhuān)注、極致的服務(wù)理念,為客戶提供網(wǎng)站制作、網(wǎng)站設(shè)計(jì) 網(wǎng)站設(shè)計(jì)制作按需規(guī)劃網(wǎng)站,公司網(wǎng)站建設(shè),企業(yè)網(wǎng)站建設(shè),品牌網(wǎng)站制作,全網(wǎng)整合營(yíng)銷(xiāo)推廣,成都外貿(mào)網(wǎng)站建設(shè),新余網(wǎng)站建設(shè)費(fèi)用合理。解壓安裝包:
# tar -zxvf spark-2.2.3-bin-hadoop2.6.tgz
# vim /etc/profile
添加環(huán)境變量:
export SPARK_HOME=/usr/app/spark-2.2.3-bin-hadoop2.6
export PATH=${SPARK_HOME}/bin:$PATH
使得配置的環(huán)境變量立即生效:
# source /etc/profile
Local 模式是最簡(jiǎn)單的一種運(yùn)行方式,它采用單節(jié)點(diǎn)多線程方式運(yùn)行,不用部署,開(kāi)箱即用,適合日常測(cè)試開(kāi)發(fā)。
# 啟動(dòng)spark-shell
spark-shell --master local[2]
進(jìn)入 spark-shell 后,程序已經(jīng)自動(dòng)創(chuàng)建好了上下文 SparkContext
,等效于執(zhí)行了下面的 Scala 代碼:
val conf = new SparkConf().setAppName("Spark shell").setMaster("local[2]")
val sc = new SparkContext(conf)
安裝完成后可以先做一個(gè)簡(jiǎn)單的詞頻統(tǒng)計(jì)例子,感受 spark 的魅力。準(zhǔn)備一個(gè)詞頻統(tǒng)計(jì)的文件樣本 wc.txt
,內(nèi)容如下:
hadoop,spark,hadoop
spark,flink,flink,spark
hadoop,hadoop
在 scala 交互式命令行中執(zhí)行如下 Scala 語(yǔ)句:
val file = spark.sparkContext.textFile("file:///usr/app/wc.txt")
val wordCounts = file.flatMap(line => line.split(",")).map((word => (word, 1))).reduceByKey(_ + _)
wordCounts.collect
執(zhí)行過(guò)程如下,可以看到已經(jīng)輸出了詞頻統(tǒng)計(jì)的結(jié)果:
同時(shí)還可以通過(guò) Web UI 查看作業(yè)的執(zhí)行情況,訪問(wèn)端口為 4040
:
Spark 是基于 Scala 語(yǔ)言進(jìn)行開(kāi)發(fā)的,分別提供了基于 Scala、Java、Python 語(yǔ)言的 API,如果你想使用 Scala 語(yǔ)言進(jìn)行開(kāi)發(fā),則需要搭建 Scala 語(yǔ)言的開(kāi)發(fā)環(huán)境。
Scala 的運(yùn)行依賴于 JDK,所以需要你本機(jī)有安裝對(duì)應(yīng)版本的 JDK,最新的 Scala 2.12.x 需要 JDK 1.8+。
IDEA 默認(rèn)不支持 Scala 語(yǔ)言的開(kāi)發(fā),需要通過(guò)插件進(jìn)行擴(kuò)展。打開(kāi) IDEA,依次點(diǎn)擊 File => settings=> plugins 選項(xiàng)卡,搜索 Scala 插件 (如下圖)。找到插件后進(jìn)行安裝,并重啟 IDEA 使得安裝生效。
在 IDEA 中依次點(diǎn)擊 File => New => Project 選項(xiàng)卡,然后選擇創(chuàng)建 Scala—IDEA
工程:
此時(shí)看到 Scala SDK
為空,依次點(diǎn)擊 Create
=> Download
,選擇所需的版本后,點(diǎn)擊 OK
按鈕進(jìn)行下載,下載完成點(diǎn)擊 Finish
進(jìn)入工程。
方式一是 Scala 官方安裝指南里使用的方式,但下載速度通常比較慢,且這種安裝下并沒(méi)有直接提供 Scala 命令行工具。所以個(gè)人推薦到官網(wǎng)下載安裝包進(jìn)行安裝,下載地址:https://www.scala-lang.org/download/
這里我的系統(tǒng)是 Windows,下載 msi 版本的安裝包后,一直點(diǎn)擊下一步進(jìn)行安裝,安裝完成后會(huì)自動(dòng)配置好環(huán)境變量。
由于安裝時(shí)已經(jīng)自動(dòng)配置好環(huán)境變量,所以 IDEA 會(huì)自動(dòng)選擇對(duì)應(yīng)版本的 SDK。
在工程 src
目錄上右擊 New => Scala class 創(chuàng)建 Hello.scala
。輸入代碼如下,完成后點(diǎn)擊運(yùn)行按鈕,成功運(yùn)行則代表搭建成功。
在日常的開(kāi)發(fā)中,由于對(duì)應(yīng)軟件(如 Spark)的版本切換,可能導(dǎo)致需要切換 Scala 的版本,則可以在 Project Structures
中的 Global Libraries
選項(xiàng)卡中進(jìn)行切換。
在 IDEA 中有時(shí)候重新打開(kāi)項(xiàng)目后,右擊并不會(huì)出現(xiàn)新建 scala
文件的選項(xiàng),或者在編寫(xiě)時(shí)沒(méi)有 Scala 語(yǔ)法提示,此時(shí)可以先刪除 Global Libraries
中配置好的 SDK,之后再重新添加:
另外在 IDEA 中以本地模式運(yùn)行 Spark 項(xiàng)目是不需要在本機(jī)搭建 Spark 和 Hadoop 環(huán)境的。
更多大數(shù)據(jù)系列文章可以參見(jiàn) GitHub 開(kāi)源項(xiàng)目: 大數(shù)據(jù)入門(mén)指南
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無(wú)理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專(zhuān)為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。