spark命令linux spark命令行參數(shù)

Spark從入門到精通3：Spark全分布模式的安裝和配置

Spark的安裝模式一般分為三種：1.偽分布模式：即在一個(gè)節(jié)點(diǎn)上模擬一個(gè)分布式環(huán)境，master和worker共用一個(gè)節(jié)點(diǎn)，這種模式一般用于開發(fā)和測(cè)試Spark程序；2.全分布模式：即真正的集群模式，master和worker部署在不同的節(jié)點(diǎn)之上，一般至少需要3個(gè)節(jié)點(diǎn)（1個(gè)master和2個(gè)worker），這種模式一般用于實(shí)際的生產(chǎn)環(huán)境；3.HA集群模式：即高可用集群模式，一般至少需要4臺(tái)機(jī)器（1個(gè)主master，1個(gè)備master，2個(gè)worker），這種模式的優(yōu)點(diǎn)是在主master宕機(jī)之后，備master會(huì)立即啟動(dòng)擔(dān)任master的職責(zé)，可以保證集群高效穩(wěn)定的運(yùn)行，這種模式就是實(shí)際生產(chǎn)環(huán)境中多采用的模式。本小節(jié)來介紹Spark的全分布模式的安裝和配置。

10多年的平利網(wǎng)站建設(shè)經(jīng)驗(yàn)，針對(duì)設(shè)計(jì)、前端、開發(fā)、售后、文案、推廣等六對(duì)一服務(wù)，響應(yīng)快，48小時(shí)及時(shí)工作處理。成都全網(wǎng)營銷的優(yōu)勢(shì)是能夠根據(jù)用戶設(shè)備顯示端的尺寸不同，自動(dòng)調(diào)整平利建站的顯示方式，使網(wǎng)站能夠適用不同顯示終端，在瀏覽器中調(diào)整網(wǎng)站的寬度，無論在任何一種瀏覽器上瀏覽網(wǎng)站，都能展現(xiàn)優(yōu)雅布局與設(shè)計(jì)，從而大程度地提升瀏覽體驗(yàn)。創(chuàng)新互聯(lián)建站從事“平利網(wǎng)站設(shè)計(jì)”,“平利網(wǎng)站推廣”以來，每個(gè)客戶項(xiàng)目都認(rèn)真落實(shí)執(zhí)行。

安裝介質(zhì)：

jdk-8u162-linux-x64.tar.gz 提取碼：2bh8

hadoop-2.7.3.tar.gz 提取碼：d4g2

scala-2.12.6.tgz 提取碼：s2ly

spark-2.1.0-bin-hadoop2.7.tgz 提取碼：5kcf

準(zhǔn)備3臺(tái)Linux主機(jī)，按照下面的步驟在每臺(tái)主機(jī)上執(zhí)行一遍，設(shè)置成如下結(jié)果：

安裝Linux操作系統(tǒng)比較簡單，這里不再詳細(xì)。參考：《 Linux從入門到精通1：使用 VMware Workstation 14 Pro 安裝 CentOS 7 詳細(xì)圖文教程》

編輯hosts配置文件：# vi /etc/hosts，追加3行：

測(cè)試主機(jī)名是否可用：

（1）使用ssh-keygen工具生成秘鑰對(duì)：

（2）將生成的公鑰發(fā)給三臺(tái)主機(jī)：master、slave1、slave2：

（3）測(cè)試秘鑰認(rèn)證是否成功：

由于各個(gè)主機(jī)上的時(shí)間可能不一致，會(huì)導(dǎo)致執(zhí)行Spark程序出現(xiàn)異常，因此需要同步各個(gè)主機(jī)的時(shí)間。在實(shí)際生成環(huán)境中，一般使用時(shí)間服務(wù)器來同步時(shí)間，但是搭建時(shí)間服務(wù)器相對(duì)較為復(fù)雜。這里介紹一種簡單的方法來快速同步每臺(tái)主機(jī)主機(jī)的時(shí)間。我們知道，使用date命令可以設(shè)置主機(jī)的時(shí)間，因此這里使用putty的插件MTPuTTY來同時(shí)向每一臺(tái)主機(jī)發(fā)送date命令，以到達(dá)同步時(shí)間的目的。

（1）使用MTPuTTY工具連接三臺(tái)主機(jī)，點(diǎn)擊MTPuTTY工具的Tools菜單下的“Send script…”子菜單，打開發(fā)送腳本工具窗口。

（2）輸入命令：date -s 2018-05-28，然后回車（注意：一定要回車，否則只發(fā)送不執(zhí)行），在下面服務(wù)器列表中選擇要同步的主機(jī)，然后點(diǎn)擊“Send script”，即可將時(shí)間同步為2018-05-28 00:00:00。

使用winscp工具將JDK安裝包 jdk-8u144-linux-x64.tar.gz 上傳到/root/tools/目錄中，該目錄是事先創(chuàng)建的。

進(jìn)入/root/tools/目錄，將jdk安裝包解壓到/root/training/目錄中，該目錄也是事先創(chuàng)建的。

使用winscp工具將Hadoop安裝包 hadoop-2.7.3.tar.gz 上傳到master節(jié)點(diǎn)的/root/tools/目錄中，該目錄是事先創(chuàng)建的。

進(jìn)入/root/tools/目錄，將hadoop安裝包解壓到/root/training/目錄中，該目錄也是事先創(chuàng)建的。

進(jìn)入Hadoop配置文件目錄：

(1) 配置hadoop-env.sh文件：

(2) 配置hdfs-site.xml文件：

(3) 配置core-site.xml文件：

(4) 配置mapred-site.xml文件：

將模板文件mapred-site.xml.template拷貝一份重命名為mapred-site.xml然后編輯：

(5) 配置yarn-site.xml文件：

(6) 配置slaves文件：

將master上配置好的Hadoop安裝目錄分別復(fù)制給兩個(gè)從節(jié)點(diǎn)slave1和slave2，并驗(yàn)證是否成功。

第一次啟動(dòng)需要輸入yes繼續(xù)。

啟動(dòng)成功后，使用jps命令查看各個(gè)節(jié)點(diǎn)上開啟的進(jìn)程：

使用命令行查看HDFS的狀態(tài)：

使用瀏覽器查看HDFS的狀態(tài)：

使用瀏覽器查看YARN的狀態(tài)：

(1) 在HDFS上創(chuàng)建輸入目錄/input：

(2) 將本地?cái)?shù)據(jù)文件data.txt上傳至該目錄：

(3) 進(jìn)入到Hadoop的示例程序目錄：

(4) 執(zhí)行示例程序中的Wordcount程序，以HDFS上的/input/data.txt作為輸入數(shù)據(jù)，輸出結(jié)果存放到HDFS上的/out/wc目錄下：

(5) 查看進(jìn)度和結(jié)果：

可以通過終端打印出來的日志信息知道執(zhí)行進(jìn)度：

執(zhí)行結(jié)束后可以在HDFS上的/out/wc目錄下查看是否有_SUCCESS標(biāo)志文件來判斷是否執(zhí)行成功。

如果執(zhí)行成功，可以在輸出目錄下看到_SUCCESS標(biāo)志文件，且可以在part-r-00000文件中查看到wordcount程序的結(jié)果：

由于Scala只是一個(gè)應(yīng)用軟件，只需要安裝在master節(jié)點(diǎn)即可。

使用winscp工具將Scala安裝包上傳到master節(jié)點(diǎn)的/root/tools目錄下：

進(jìn)入/root/tools目錄，將Scala安裝包解壓到安裝目錄/root/training/：

將Scala的家目錄加入到環(huán)境變量PATH中：

使環(huán)境變量生效：

輸入scala命令，如下進(jìn)入scala環(huán)境，則證明scala安裝成功：

我們先在master節(jié)點(diǎn)上配置好參數(shù)，再分發(fā)給兩個(gè)從節(jié)點(diǎn)slave1和slave2。

使用winscp工具將Spark安裝包上傳到master節(jié)點(diǎn)的/root/tools目錄下：

進(jìn)入/root/tools目錄，將Spark安裝包解壓到安裝目錄/root/training/下：

注意：由于Spark的命令腳本和Hadoop的命令腳本有沖突（比如都有start-all.sh和stop-all.sh等），

所以這里需要注釋掉Hadoop的環(huán)境變量，添加Spark的環(huán)境變量：

按Esc:wq保存退出，使用source命令使配置文件立即生效：

進(jìn)入Spark的配置文件目錄下：

(1) 配置spark-env.sh文件：

(2) 配置slaves文件：

將master上配置好的Spark安裝目錄分別復(fù)制給兩個(gè)從節(jié)點(diǎn)slave1和slave2，并驗(yàn)證是否成功。

啟動(dòng)后查看每個(gè)節(jié)點(diǎn)上的進(jìn)程：

使用瀏覽器監(jiān)控Spark的狀態(tài)：

使用spark-shell命令進(jìn)入SparkContext（即Scala環(huán)境）：

啟動(dòng)了spark-shell之后，可以使用4040端口訪問其Web控制臺(tái)頁面(注意：如果一臺(tái)機(jī)器上啟動(dòng)了多個(gè)spark-shell，即運(yùn)行了多個(gè)SparkContext，那么端口會(huì)自動(dòng)連續(xù)遞增，如4041,4042,4043等等)：

注意：由于我們將Hadoop從環(huán)境變量中注釋掉了，這時(shí)只能手動(dòng)進(jìn)入到Hadoop的sbin目錄停止Hadoop：

Spark中常用的端口總結(jié)：

Linux里面spark作用是什么？

Spark是通用數(shù)據(jù)處理引擎，適用于多種情況。應(yīng)用程序開發(fā)人員和數(shù)據(jù)科學(xué)家將Spark集成到他們的應(yīng)用程序中，以快速地大規(guī)模查詢，分析和轉(zhuǎn)換數(shù)據(jù)。與Spark最頻繁相關(guān)的任務(wù)包括跨大型數(shù)據(jù)集的交互式查詢，來自傳感器或金融系統(tǒng)的流數(shù)據(jù)處理以及機(jī)器學(xué)習(xí)任務(wù)。

Spark于2009年開始運(yùn)作，最初是加州大學(xué)伯克利分校AMPLab內(nèi)部的一個(gè)項(xiàng)目。更具體地說，它是出于證明Mesos概念的需要而誕生的，Mesos概念也是在AMPLab中創(chuàng)建的。在Mesos白皮書《 Mesos：數(shù)據(jù)中心中的細(xì)粒度資源共享平臺(tái)》中首次討論了Spark，其中最著名的作者是Benjamin Hindman和Matei Zaharia。

2013年，Spark成為Apache Software Foundation的孵化項(xiàng)目，并于2014年初被提升為該基金會(huì)的頂級(jí)項(xiàng)目之一。 Spark是基金會(huì)管理的最活躍的項(xiàng)目之一，圍繞該項(xiàng)目成長的社區(qū)包括多產(chǎn)的個(gè)人貢獻(xiàn)者和資金雄厚的企業(yè)支持者，例如Databricks，IBM和中國的華為。

從一開始，Spark就被優(yōu)化為在內(nèi)存中運(yùn)行。它比Hadoop的MapReduce等替代方法更快地處理數(shù)據(jù)，后者傾向于在處理的每個(gè)階段之間向計(jì)算機(jī)硬盤寫入數(shù)據(jù)或從計(jì)算機(jī)硬盤寫入數(shù)據(jù)。 Spark的支持者聲稱，Spark在內(nèi)存中的運(yùn)行速度可以比Hadoop MapReduce快100倍，并且在以類似于Hadoop MapReduce本身的方式處理基于磁盤的數(shù)據(jù)時(shí)也可以快10倍。這種比較并不完全公平，這不僅是因?yàn)樵妓俣葘?duì)Spark的典型用例而言比對(duì)批處理更為重要，在這種情況下，類似于MapReduce的解決方案仍然很出色。

在linux下怎么安裝spark

在windows下安裝軟件大家都覺得很容易，只要雙擊setup或是install的圖標(biāo)，然后跟著向?qū)б徊揭徊降陌刺崾咀鼍涂梢粤?，但是在linux下安裝軟件就不像windows下那樣容易了，有時(shí)你找到的是沒有編譯過的軟件源碼，那就更加的麻煩了，這里就介紹一下如何安裝linux的軟件啦！ linux下的軟件一般都是經(jīng)過壓縮的，主要的格式有這幾種：rpm、tar、tar.gz、tgz等。所以首先拿到軟件后第一件事就是解壓縮。一、在xwindow下以rpm格式的軟件安裝比較容易，只要在把鼠標(biāo)移到文件上單擊右鍵，在彈出的菜單里會(huì)有專門的三項(xiàng)（只有在右鍵單擊rpm文件才會(huì)出現(xiàn)）show info，upgrade和install，這三項(xiàng)的意思大家都很清楚了，我就不多說了。rpm格式說了，接著就是tar，tar.gz，tgz等，在xwindow下雙擊這些格式的文件就會(huì)自動(dòng)解壓縮的，是解壓縮而不是像rpm那樣有install選項(xiàng)的，install文件會(huì)在你解壓縮后才出現(xiàn)，不過這里我要先說一下，在你雙擊install前建議先好好看一下readme，因?yàn)槟闼惭b這些軟件可能是沒有編譯的，所以看一下會(huì)比較好。二、說完了xwindow下的安裝和解壓縮，接著說在文本模式下如何解壓縮和安裝，還有編譯源碼了。首先說rpm的，以root身份登陸后（用其他的身份登陸也可以但有些軟件就不能被安裝）鍵入rpm －i你所要解壓縮的文件＋擴(kuò)展名（當(dāng)然是rpm）也不是很難吧，這里我要說的是“－i”意思是install，如果你想要卸載或是要執(zhí)行其他的指令就打rpm －－h(huán)elp，看電腦給你的提示吧，為了照顧那些E文不太好的人我這里就寫幾個(gè)常用的參數(shù)：－e：卸載相關(guān)的應(yīng)用程序，－U（注意是大寫）：升級(jí)軟件包，－pql：列出rpm軟件包的相關(guān)信息，－qf：查找指定文件屬于哪個(gè)軟件包。至于那些其他格式的軟件則可以用gunzip，gzip，tar和unzip等指令來解壓縮，然后再運(yùn)行install。通過解包后會(huì)得到一些文件，然后進(jìn)入剛才解壓縮后文件目錄用“l(fā)s －F －color”指令看一下所得到的文件，一般有兩種情況：第一種是文件為已經(jīng)編譯好的程序（無須再編譯了）用上面的察看文件命令會(huì)以帶“＊”標(biāo)記的亮綠色顯示；第二種則是需要由你自己編譯的源代碼。得到的是源代碼的話，就需要我們自己編譯來得到可運(yùn)行的程序。編譯源代碼聽到編譯是不是就嚇到你了呢，其實(shí)說穿了也就加上幾句話而已，對(duì)初學(xué)者是有些困難想用好的操作系統(tǒng)就需要學(xué)習(xí)嘛，等你學(xué)會(huì)了在MM前露一手的時(shí)候想想吧……，在編譯之前先要認(rèn)真的閱讀一下readme文檔，老鳥們就不需要了吧，等你閱讀完了以后就執(zhí)行 ./configure make make install（只有Root身份才能執(zhí)行此命令），編譯完成之后便會(huì)在當(dāng)前目錄或src子目錄下得到軟件的可執(zhí)行程序。介紹完了，大家是不是覺的RPM的軟件安裝比較容易一點(diǎn)呢，但我個(gè)人意見初學(xué)者還是多選擇RPM格式以外的軟件，因?yàn)橥ㄟ^編譯軟件的源碼可以為你以后編譯內(nèi)核打下一定的基礎(chǔ)。

網(wǎng)站欄目：spark命令linux spark命令行參數(shù)
文章源于：http://weahome.cn/article/hpppss.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

spark命令linux spark命令行參數(shù)

Spark從入門到精通3：Spark全分布模式的安裝和配置

Linux里面spark作用是什么？

在linux下怎么安裝spark

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管