真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

spark命令linux spark命令行參數(shù)

Spark從入門到精通3:Spark全分布模式的安裝和配置

Spark的安裝模式一般分為三種:1.偽分布模式:即在一個(gè)節(jié)點(diǎn)上模擬一個(gè)分布式環(huán)境,master和worker共用一個(gè)節(jié)點(diǎn),這種模式一般用于開發(fā)和測(cè)試Spark程序;2.全分布模式:即真正的集群模式,master和worker部署在不同的節(jié)點(diǎn)之上,一般至少需要3個(gè)節(jié)點(diǎn)(1個(gè)master和2個(gè)worker),這種模式一般用于實(shí)際的生產(chǎn)環(huán)境;3.HA集群模式:即高可用集群模式,一般至少需要4臺(tái)機(jī)器(1個(gè)主master,1個(gè)備master,2個(gè)worker),這種模式的優(yōu)點(diǎn)是在主master宕機(jī)之后,備master會(huì)立即啟動(dòng)擔(dān)任master的職責(zé),可以保證集群高效穩(wěn)定的運(yùn)行,這種模式就是實(shí)際生產(chǎn)環(huán)境中多采用的模式。本小節(jié)來介紹Spark的全分布模式的安裝和配置。

10多年的平利網(wǎng)站建設(shè)經(jīng)驗(yàn),針對(duì)設(shè)計(jì)、前端、開發(fā)、售后、文案、推廣等六對(duì)一服務(wù),響應(yīng)快,48小時(shí)及時(shí)工作處理。成都全網(wǎng)營銷的優(yōu)勢(shì)是能夠根據(jù)用戶設(shè)備顯示端的尺寸不同,自動(dòng)調(diào)整平利建站的顯示方式,使網(wǎng)站能夠適用不同顯示終端,在瀏覽器中調(diào)整網(wǎng)站的寬度,無論在任何一種瀏覽器上瀏覽網(wǎng)站,都能展現(xiàn)優(yōu)雅布局與設(shè)計(jì),從而大程度地提升瀏覽體驗(yàn)。創(chuàng)新互聯(lián)建站從事“平利網(wǎng)站設(shè)計(jì)”,“平利網(wǎng)站推廣”以來,每個(gè)客戶項(xiàng)目都認(rèn)真落實(shí)執(zhí)行。

安裝介質(zhì):

jdk-8u162-linux-x64.tar.gz 提取碼:2bh8

hadoop-2.7.3.tar.gz 提取碼:d4g2

scala-2.12.6.tgz 提取碼:s2ly

spark-2.1.0-bin-hadoop2.7.tgz 提取碼:5kcf

準(zhǔn)備3臺(tái)Linux主機(jī),按照下面的步驟在每臺(tái)主機(jī)上執(zhí)行一遍,設(shè)置成如下結(jié)果:

安裝Linux操作系統(tǒng)比較簡單,這里不再詳細(xì)。參考:《 Linux從入門到精通1:使用 VMware Workstation 14 Pro 安裝 CentOS 7 詳細(xì)圖文教程 》

編輯hosts配置文件:# vi /etc/hosts,追加3行:

測(cè)試主機(jī)名是否可用:

(1)使用ssh-keygen工具生成秘鑰對(duì):

(2)將生成的公鑰發(fā)給三臺(tái)主機(jī):master、slave1、slave2:

(3)測(cè)試秘鑰認(rèn)證是否成功:

由于各個(gè)主機(jī)上的時(shí)間可能不一致,會(huì)導(dǎo)致執(zhí)行Spark程序出現(xiàn)異常,因此需要同步各個(gè)主機(jī)的時(shí)間。在實(shí)際生成環(huán)境中,一般使用時(shí)間服務(wù)器來同步時(shí)間,但是搭建時(shí)間服務(wù)器相對(duì)較為復(fù)雜。這里介紹一種簡單的方法來快速同步每臺(tái)主機(jī)主機(jī)的時(shí)間。我們知道,使用date命令可以設(shè)置主機(jī)的時(shí)間,因此這里使用putty的插件MTPuTTY來同時(shí)向每一臺(tái)主機(jī)發(fā)送date命令,以到達(dá)同步時(shí)間的目的。

(1)使用MTPuTTY工具連接三臺(tái)主機(jī),點(diǎn)擊MTPuTTY工具的Tools菜單下的“Send script…”子菜單,打開發(fā)送腳本工具窗口。

(2)輸入命令:date -s 2018-05-28,然后回車(注意:一定要回車,否則只發(fā)送不執(zhí)行),在下面服務(wù)器列表中選擇要同步的主機(jī),然后點(diǎn)擊“Send script”,即可將時(shí)間同步為2018-05-28 00:00:00。

使用winscp工具將JDK安裝包 jdk-8u144-linux-x64.tar.gz 上傳到/root/tools/目錄中,該目錄是事先創(chuàng)建的。

進(jìn)入/root/tools/目錄,將jdk安裝包解壓到/root/training/目錄中,該目錄也是事先創(chuàng)建的。

使用winscp工具將Hadoop安裝包 hadoop-2.7.3.tar.gz 上傳到master節(jié)點(diǎn)的/root/tools/目錄中,該目錄是事先創(chuàng)建的。

進(jìn)入/root/tools/目錄,將hadoop安裝包解壓到/root/training/目錄中,該目錄也是事先創(chuàng)建的。

進(jìn)入Hadoop配置文件目錄:

(1) 配置hadoop-env.sh文件:

(2) 配置hdfs-site.xml文件:

(3) 配置core-site.xml文件:

(4) 配置mapred-site.xml文件:

將模板文件mapred-site.xml.template拷貝一份重命名為mapred-site.xml然后編輯:

(5) 配置yarn-site.xml文件:

(6) 配置slaves文件:

將master上配置好的Hadoop安裝目錄分別復(fù)制給兩個(gè)從節(jié)點(diǎn)slave1和slave2,并驗(yàn)證是否成功。

第一次啟動(dòng)需要輸入yes繼續(xù)。

啟動(dòng)成功后,使用jps命令查看各個(gè)節(jié)點(diǎn)上開啟的進(jìn)程:

使用命令行查看HDFS的狀態(tài):

使用瀏覽器查看HDFS的狀態(tài):

使用瀏覽器查看YARN的狀態(tài):

(1) 在HDFS上創(chuàng)建輸入目錄/input:

(2) 將本地?cái)?shù)據(jù)文件data.txt上傳至該目錄:

(3) 進(jìn)入到Hadoop的示例程序目錄:

(4) 執(zhí)行示例程序中的Wordcount程序,以HDFS上的/input/data.txt作為輸入數(shù)據(jù),輸出結(jié)果存放到HDFS上的/out/wc目錄下:

(5) 查看進(jìn)度和結(jié)果:

可以通過終端打印出來的日志信息知道執(zhí)行進(jìn)度:

執(zhí)行結(jié)束后可以在HDFS上的/out/wc目錄下查看是否有_SUCCESS標(biāo)志文件來判斷是否執(zhí)行成功。

如果執(zhí)行成功,可以在輸出目錄下看到_SUCCESS標(biāo)志文件,且可以在part-r-00000文件中查看到wordcount程序的結(jié)果:

由于Scala只是一個(gè)應(yīng)用軟件,只需要安裝在master節(jié)點(diǎn)即可。

使用winscp工具將Scala安裝包上傳到master節(jié)點(diǎn)的/root/tools目錄下:

進(jìn)入/root/tools目錄,將Scala安裝包解壓到安裝目錄/root/training/:

將Scala的家目錄加入到環(huán)境變量PATH中:

使環(huán)境變量生效:

輸入scala命令,如下進(jìn)入scala環(huán)境,則證明scala安裝成功:

我們先在master節(jié)點(diǎn)上配置好參數(shù),再分發(fā)給兩個(gè)從節(jié)點(diǎn)slave1和slave2。

使用winscp工具將Spark安裝包上傳到master節(jié)點(diǎn)的/root/tools目錄下:

進(jìn)入/root/tools目錄,將Spark安裝包解壓到安裝目錄/root/training/下:

注意:由于Spark的命令腳本和Hadoop的命令腳本有沖突(比如都有start-all.sh和stop-all.sh等),

所以這里需要注釋掉Hadoop的環(huán)境變量,添加Spark的環(huán)境變量:

按Esc:wq保存退出,使用source命令使配置文件立即生效:

進(jìn)入Spark的配置文件目錄下:

(1) 配置spark-env.sh文件:

(2) 配置slaves文件:

將master上配置好的Spark安裝目錄分別復(fù)制給兩個(gè)從節(jié)點(diǎn)slave1和slave2,并驗(yàn)證是否成功。

啟動(dòng)后查看每個(gè)節(jié)點(diǎn)上的進(jìn)程:

使用瀏覽器監(jiān)控Spark的狀態(tài):

使用spark-shell命令進(jìn)入SparkContext(即Scala環(huán)境):

啟動(dòng)了spark-shell之后,可以使用4040端口訪問其Web控制臺(tái)頁面(注意:如果一臺(tái)機(jī)器上啟動(dòng)了多個(gè)spark-shell,即運(yùn)行了多個(gè)SparkContext,那么端口會(huì)自動(dòng)連續(xù)遞增,如4041,4042,4043等等):

注意:由于我們將Hadoop從環(huán)境變量中注釋掉了,這時(shí)只能手動(dòng)進(jìn)入到Hadoop的sbin目錄停止Hadoop:

Spark中常用的端口總結(jié):

Linux里面spark作用是什么?

Spark是通用數(shù)據(jù)處理引擎,適用于多種情況。 應(yīng)用程序開發(fā)人員和數(shù)據(jù)科學(xué)家將Spark集成到他們的應(yīng)用程序中,以快速地大規(guī)模查詢,分析和轉(zhuǎn)換數(shù)據(jù)。 與Spark最頻繁相關(guān)的任務(wù)包括跨大型數(shù)據(jù)集的交互式查詢,來自傳感器或金融系統(tǒng)的流數(shù)據(jù)處理以及機(jī)器學(xué)習(xí)任務(wù)。

Spark于2009年開始運(yùn)作,最初是加州大學(xué)伯克利分校AMPLab內(nèi)部的一個(gè)項(xiàng)目。 更具體地說,它是出于證明Mesos概念的需要而誕生的,Mesos概念也是在AMPLab中創(chuàng)建的。 在Mesos白皮書《 Mesos:數(shù)據(jù)中心中的細(xì)粒度資源共享平臺(tái)》中首次討論了Spark,其中最著名的作者是Benjamin Hindman和Matei Zaharia。

2013年,Spark成為Apache Software Foundation的孵化項(xiàng)目,并于2014年初被提升為該基金會(huì)的頂級(jí)項(xiàng)目之一。 Spark是基金會(huì)管理的最活躍的項(xiàng)目之一,圍繞該項(xiàng)目成長的社區(qū)包括多產(chǎn)的個(gè)人貢獻(xiàn)者和資金雄厚的企業(yè)支持者,例如Databricks,IBM和中國的華為。

從一開始,Spark就被優(yōu)化為在內(nèi)存中運(yùn)行。 它比Hadoop的MapReduce等替代方法更快地處理數(shù)據(jù),后者傾向于在處理的每個(gè)階段之間向計(jì)算機(jī)硬盤寫入數(shù)據(jù)或從計(jì)算機(jī)硬盤寫入數(shù)據(jù)。 Spark的支持者聲稱,Spark在內(nèi)存中的運(yùn)行速度可以比Hadoop MapReduce快100倍,并且在以類似于Hadoop MapReduce本身的方式處理基于磁盤的數(shù)據(jù)時(shí)也可以快10倍。 這種比較并不完全公平,這不僅是因?yàn)樵妓俣葘?duì)Spark的典型用例而言比對(duì)批處理更為重要,在這種情況下,類似于MapReduce的解決方案仍然很出色。

在linux下怎么安裝spark

在windows下安裝軟件大家都覺得很容易,只要雙擊setup或是install的圖標(biāo),然后跟著向?qū)б徊揭徊降陌刺崾咀鼍涂梢粤?,但是在linux下安裝軟件就不像windows下那樣容易了,有時(shí)你找到的是沒有編譯過的軟件源碼,那就更加的麻煩了,這里就介紹一下如何安裝linux的軟件啦! linux下的軟件一般都是經(jīng)過壓縮的,主要的格式有這幾種:rpm、tar、tar.gz、tgz等。所以首先拿到軟件后第一件事就是解壓縮。 一、在xwindow下以rpm格式的軟件安裝比較容易,只要在把鼠標(biāo)移到文件上單擊右鍵,在彈出的菜單里會(huì)有專門的三項(xiàng)(只有在右鍵單擊rpm文件才會(huì)出現(xiàn))show info,upgrade和install,這三項(xiàng)的意思大家都很清楚了,我就不多說了。rpm格式說了,接著就是tar,tar.gz,tgz等,在xwindow下雙擊這些格式的文件就會(huì)自動(dòng)解壓縮的,是解壓縮而不是像rpm那樣有install選項(xiàng)的,install文件會(huì)在你解壓縮后才出現(xiàn),不過這里我要先說一下,在你雙擊install前建議先好好看一下readme,因?yàn)槟闼惭b這些軟件可能是沒有編譯的,所以看一下會(huì)比較好。 二、說完了xwindow下的安裝和解壓縮,接著說在文本模式下如何解壓縮和安裝,還有編譯源碼了。首先說rpm的,以root身份登陸后(用其他的身份登陸也可以但有些軟件就不能被安裝)鍵入rpm -i你所要解壓縮的文件+擴(kuò)展名(當(dāng)然是rpm)也不是很難吧,這里我要說的是“-i”意思是install,如果你想要卸載或是要執(zhí)行其他的指令就打rpm --h(huán)elp,看電腦給你的提示吧,為了照顧那些E文不太好的人我這里就寫幾個(gè)常用的參數(shù):-e:卸載相關(guān)的應(yīng)用程序,-U(注意是大寫):升級(jí)軟件包, -pql:列出rpm軟件包的相關(guān)信息,-qf:查找指定文件屬于哪個(gè)軟件包。至于那些其他格式的軟件則可以用gunzip,gzip,tar和unzip等指令來解壓縮,然后再運(yùn)行install。通過解包后會(huì)得到一些文件,然后進(jìn)入剛才解壓縮后文件目錄用“l(fā)s -F -color”指令看一下所得到的文件,一般有兩種情況:第一種是文件為已經(jīng)編譯好的程序(無須再編譯了)用上面的察看文件命令會(huì)以帶“*”標(biāo)記的亮綠色顯示;第二種則是需要由你自己編譯的源代碼。得到的是源代碼的話,就需要我們自己編譯來得到可運(yùn)行的程序。編譯源代碼聽到編譯是不是就嚇到你了呢,其實(shí)說穿了也就加上幾句話而已,對(duì)初學(xué)者是有些困難想用好的操作系統(tǒng)就需要學(xué)習(xí)嘛,等你學(xué)會(huì)了在MM前露一手的時(shí)候想想吧……,在編譯之前先要認(rèn)真的閱讀一下readme文檔,老鳥們就不需要了吧,等你閱讀完了以后就執(zhí)行 ./configure make make install(只有Root身份才能執(zhí)行此命令),編譯完成之后便會(huì)在當(dāng)前目錄或src子目錄下得到軟件的可執(zhí)行程序。 介紹完了,大家是不是覺的RPM的軟件安裝比較容易一點(diǎn)呢,但我個(gè)人意見初學(xué)者還是多選擇RPM格式以外的軟件,因?yàn)橥ㄟ^編譯軟件的源碼可以為你以后編譯內(nèi)核打下一定的基礎(chǔ)。


網(wǎng)站欄目:spark命令linux spark命令行參數(shù)
文章源于:http://weahome.cn/article/hpppss.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部