真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

spark對硬件的要求有哪些

小編給大家分享一下spark對硬件的要求有哪些,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!

網(wǎng)站建設(shè)哪家好,找創(chuàng)新互聯(lián)!專注于網(wǎng)頁設(shè)計、網(wǎng)站建設(shè)、微信開發(fā)、成都微信小程序、集團企業(yè)網(wǎng)站建設(shè)等服務(wù)項目。為回饋新老客戶創(chuàng)新互聯(lián)還提供了袁州免費建站歡迎大家使用!

一,存儲系統(tǒng)

因為大多數(shù)Spark工作可能需要從外部存儲系統(tǒng)(例如Hadoop文件系統(tǒng)或HBase)中讀取輸入數(shù)據(jù),所以將spark盡可能部署到靠近存儲系統(tǒng)很重要。所以,有如下建議:

1,如果可能,在與HDFS相同的節(jié)點上運行Spark。最簡單的方式是將spark 的Standalone集群和hadoop集群安裝在相同的節(jié)點,同時配置好Spark和hadoop的內(nèi)存使用,避免相互干擾(對于hadoop,每個task的內(nèi)存配置參數(shù)是mapred.child.java.opts;mapreduce.tasktracker.map.tasks.maximum 和mapreduce.tasktracker.reduce.tasks.maximum 決定了task的數(shù)目)。也可以將hadoop和spark運行在共同的集群管理器上,如mesos和 yarn。

2,如果不可能,請在與HDFS相同的局域網(wǎng)中的不同節(jié)點上運行Spark。

3,對于低延遲數(shù)據(jù)存儲(如HBase),可能優(yōu)先在與存儲系統(tǒng)不同的節(jié)點上運行計算任務(wù)以避免干擾。

二,本地磁盤

雖然Spark可以在內(nèi)存中執(zhí)行大量的計算,但它仍然使用本地磁盤來存儲不適合RAM的數(shù)據(jù),以及在stage之間,也即shuffle的中間結(jié)果。建議每個節(jié)點至少有4-8塊磁盤,并且不需要RAID,僅僅是獨立的磁盤掛在節(jié)點。在Linux中,使用noatime選項安裝磁盤,以減少不必要的寫入。在spark任務(wù)中,spark.local.dir配置可以十多個磁盤目錄,以逗號分開。如果運行在hdfs上,與hdfs保持一致就很好。

使用noatime選項安裝磁盤,要求當(dāng)掛載文件系統(tǒng)時,可以指定標(biāo)準(zhǔn)Linux安裝選項(noatime),這將禁用該文件系統(tǒng)上的atime更新。磁盤掛在命令:

mount -t gfs BlockDevice MountPoint -o noatimeBlockDevice 指定GFS文件系統(tǒng)駐留的塊設(shè)備。MountPoint 指定GFS文件系統(tǒng)應(yīng)安裝的目錄。例子:mount -t gfs /dev/vg01/lvol0 /gfs1 -o noatime

三,內(nèi)存

單臺機器內(nèi)存從8GB到數(shù)百GB,spark都能運行良好。在所有情況下,建議僅為Spark分配最多75%的內(nèi)存;留下其余的操作系統(tǒng)和緩沖區(qū)緩存。

需要多少內(nèi)存取決于你的應(yīng)用程序。要確定你的應(yīng)用的特定數(shù)據(jù)集需要多大內(nèi)存,請加載部分?jǐn)?shù)據(jù)集到內(nèi)存,然后在Spark UI的Storage界面去看它的內(nèi)存占用量。

請注意,內(nèi)存使用受到存儲級別和序列化格式的極大影響 - 有關(guān)如何減少內(nèi)存使用的技巧,請參閱另一篇調(diào)優(yōu)的文章。

最后,請注意,對于超過200GB的內(nèi)存的機器JAVA VM運行狀態(tài)并不一直表現(xiàn)良好。如果買的機器內(nèi)存超過了200GB,那么可以在一個節(jié)點上運行多個worker。Spark Standalone模式下,可以在配置文件 conf/spark-env.sh中設(shè)置SPARK_WORKER_INSTANCES的值來設(shè)置單節(jié)點worker的數(shù)目。也可以設(shè)置SPARK_WORKER_CORES參數(shù)來設(shè)置每個Worker的cpu數(shù)目。

四,網(wǎng)絡(luò)

根據(jù)以往的經(jīng)驗,假如數(shù)據(jù)是在內(nèi)存中,那么spark的應(yīng)用的瓶頸往往就在網(wǎng)絡(luò)。用10 Gigabit或者更高的網(wǎng)絡(luò),是使spark應(yīng)用跑的最更快的最佳方式。特別是針對“distributed reduce”應(yīng)用,如group-bys,reduce-bys和sql joins,就表現(xiàn)的更加明顯。在任何給定的應(yīng)用程序中,可以通過spark ui查看spark shuffle過程夸網(wǎng)絡(luò)傳輸了多少數(shù)據(jù)。

五,cpu

對于每臺機器幾十個cpu的機器,spark也可以很好的擴展,因為他在線程之間執(zhí)行最小的共享cpu。應(yīng)該每臺機器至少配置8-16個內(nèi)核。根據(jù)cpu負(fù)載,可能需要更多的cpu:一旦數(shù)據(jù)在內(nèi)存中,大多數(shù)應(yīng)用程序的瓶頸就在CPU和網(wǎng)絡(luò)。

以上是“spark對硬件的要求有哪些”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對大家有所幫助,如果還想學(xué)習(xí)更多知識,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!


當(dāng)前標(biāo)題:spark對硬件的要求有哪些
網(wǎng)頁URL:http://weahome.cn/article/pjphoi.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部