真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

Spark調(diào)優(yōu)之硬件要求有哪些

這篇文章將為大家詳細(xì)講解有關(guān)Spark調(diào)優(yōu)之硬件要求有哪些,小編覺得挺實(shí)用的,因此分享給大家做個(gè)參考,希望大家閱讀完這篇文章后可以有所收獲。

成都創(chuàng)新互聯(lián)專業(yè)為企業(yè)提供源匯網(wǎng)站建設(shè)、源匯做網(wǎng)站、源匯網(wǎng)站設(shè)計(jì)、源匯網(wǎng)站制作等企業(yè)網(wǎng)站建設(shè)、網(wǎng)頁設(shè)計(jì)與制作、源匯企業(yè)網(wǎng)站模板建站服務(wù),十多年源匯做網(wǎng)站經(jīng)驗(yàn),不只是建網(wǎng)站,更提供有價(jià)值的思路和整體網(wǎng)絡(luò)服務(wù)。

一,存儲(chǔ)系統(tǒng)

因?yàn)橐驗(yàn)榇蠖鄶?shù)Spark工作可能需要從外部存儲(chǔ)系統(tǒng)(例如Hadoop文件系統(tǒng)或HBase)中讀取輸入數(shù)據(jù),所以將其盡可能靠近該系統(tǒng)很重要。所以,有如下建議:

1,如果可能,在與HDFS相同的節(jié)點(diǎn)上運(yùn)行Spark。最簡單的方式是將spark 的Standalone集群和hadoop集群安裝在相同的節(jié)點(diǎn),同時(shí)配置好Spark和hadoop的內(nèi)存使用,避免相互干擾(對于hadoop,每個(gè)task的內(nèi)存配置參數(shù)是mapred.child.java.opts; mapreduce.tasktracker.map.tasks.maximum 和mapreduce.tasktracker.reduce.tasks.maximum 決定了task的數(shù)目)。也可以將hadoop和spark運(yùn)行在共同的集群管理器上,如mesos和 yarn。

2,如果不可能,請?jiān)谂cHDFS相同的局域網(wǎng)中的不同節(jié)點(diǎn)上運(yùn)行Spark。

3,對于低延遲數(shù)據(jù)存儲(chǔ)(如HBase),可能優(yōu)先在與存儲(chǔ)系統(tǒng)不同的節(jié)點(diǎn)上運(yùn)行計(jì)算任務(wù)以避免干擾。

二,本地磁盤

雖然Spark可以在內(nèi)存中執(zhí)行大量的計(jì)算,但它仍然使用本地磁盤來存儲(chǔ)不適合RAM的數(shù)據(jù),以及在stage之間,也即shuffle的中間結(jié)果。我們建議每個(gè)節(jié)點(diǎn)至少有4-8塊磁盤,并且不需要RAID,僅僅是獨(dú)立的磁盤掛在節(jié)點(diǎn)。在Linux中,使用noatime選項(xiàng)安裝磁盤,以減少不必要的寫入。在spark任務(wù)中,spark.local.dir配置可以十多個(gè)磁盤目錄,以逗號(hào)分開。如果你運(yùn)行在hdfs上,與hdfs保持一致就很好。

使用noatime選項(xiàng)安裝磁盤,要求當(dāng)掛載文件系統(tǒng)時(shí),可以指定標(biāo)準(zhǔn)Linux安裝選項(xiàng)(noatime),這將禁用該文件系統(tǒng)上的atime更新。磁盤掛在命令:

mount -t gfs BlockDevice MountPoint -o noatime

BlockDevice 指定GFS文件系統(tǒng)駐留的塊設(shè)備。

MountPoint 指定GFS文件系統(tǒng)應(yīng)安裝的目錄。

例子:

mount -t gfs /dev/vg01/lvol0 /gfs1 -o noatime

三,內(nèi)存

單臺(tái)機(jī)器內(nèi)存從8GB到數(shù)百GB,spark都能運(yùn)行良好。在所有情況下,我們建議僅為Spark分配最多75%的內(nèi)存;留下其余的操作系統(tǒng)和緩沖區(qū)緩存。

需要多少內(nèi)存取決于你的應(yīng)用程序。要確定你的應(yīng)用的特定數(shù)據(jù)集需要多大內(nèi)存,請加載部分?jǐn)?shù)據(jù)集到內(nèi)存,然后在Spark UI的Storage界面去看它的內(nèi)存占用量。

請注意,內(nèi)存使用受到存儲(chǔ)級別和序列化格式的極大影響 - 有關(guān)如何減少內(nèi)存使用的技巧,請參閱另一篇調(diào)優(yōu)的文章。

最后,請注意,對于超過200GB的內(nèi)存的機(jī)器JAVA VM運(yùn)行狀態(tài)并不一直表現(xiàn)良好。如果你買的機(jī)器內(nèi)存超過了200GB,那么可以在一個(gè)節(jié)點(diǎn)上運(yùn)行多個(gè)worker。Spark Standalone模式下,你可以在配置文件 conf/spark-env.sh中設(shè)置SPARK_WORKER_INSTANCES的值來設(shè)置單節(jié)點(diǎn)worker的數(shù)目。也可以設(shè)置SPARK_WORKER_CORES參數(shù)來設(shè)置每個(gè)Worker的cpu數(shù)目。

四,網(wǎng)絡(luò)

根據(jù)以往的經(jīng)驗(yàn),假如數(shù)據(jù)是在內(nèi)存中,那么spark的應(yīng)用的瓶頸往往就在網(wǎng)絡(luò)。用10 Gigabit或者更高的網(wǎng)絡(luò),是使spark應(yīng)用跑的最更快的最佳方式。特別是針對“distributed reduce”應(yīng)用,如group-bys,reduce-bys和sql joins,就表現(xiàn)的更加明顯。在任何給定的應(yīng)用程序中,你可以通過spark ui查看spark shuffle過程夸網(wǎng)絡(luò)傳輸了多少數(shù)據(jù)。

五,cpu

即使每臺(tái)機(jī)器幾十個(gè)cpu,spark也可以很好的擴(kuò)展,因?yàn)樗诰€程之間執(zhí)行最小的共享cpu。你應(yīng)該每臺(tái)機(jī)器至少配置8-16個(gè)內(nèi)核。根據(jù)cpu負(fù)載,可能需要更多的cpu:一旦數(shù)據(jù)在內(nèi)存中,大多數(shù)應(yīng)用程序的瓶頸就在CPU和內(nèi)存。

關(guān)于“Spark調(diào)優(yōu)之硬件要求有哪些”這篇文章就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,使各位可以學(xué)到更多知識(shí),如果覺得文章不錯(cuò),請把它分享出去讓更多的人看到。


新聞名稱:Spark調(diào)優(yōu)之硬件要求有哪些
網(wǎng)頁鏈接:http://weahome.cn/article/pjpijg.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部