spark對硬件的要求有哪些

小編給大家分享一下spark對硬件的要求有哪些，相信大部分人都還不怎么了解，因此分享這篇文章給大家參考一下，希望大家閱讀完這篇文章后大有收獲，下面讓我們一起去了解一下吧！

網(wǎng)站建設(shè)哪家好，找創(chuàng)新互聯(lián)！專注于網(wǎng)頁設(shè)計、網(wǎng)站建設(shè)、微信開發(fā)、成都微信小程序、集團企業(yè)網(wǎng)站建設(shè)等服務(wù)項目。為回饋新老客戶創(chuàng)新互聯(lián)還提供了袁州免費建站歡迎大家使用！

一，存儲系統(tǒng)

因為大多數(shù)Spark工作可能需要從外部存儲系統(tǒng)（例如Hadoop文件系統(tǒng)或HBase）中讀取輸入數(shù)據(jù)，所以將spark盡可能部署到靠近存儲系統(tǒng)很重要。所以，有如下建議：

1，如果可能，在與HDFS相同的節(jié)點上運行Spark。最簡單的方式是將spark 的Standalone集群和hadoop集群安裝在相同的節(jié)點，同時配置好Spark和hadoop的內(nèi)存使用，避免相互干擾(對于hadoop，每個task的內(nèi)存配置參數(shù)是mapred.child.java.opts；mapreduce.tasktracker.map.tasks.maximum 和mapreduce.tasktracker.reduce.tasks.maximum 決定了task的數(shù)目)。也可以將hadoop和spark運行在共同的集群管理器上，如mesos和 yarn。

2，如果不可能，請在與HDFS相同的局域網(wǎng)中的不同節(jié)點上運行Spark。

3，對于低延遲數(shù)據(jù)存儲（如HBase），可能優(yōu)先在與存儲系統(tǒng)不同的節(jié)點上運行計算任務(wù)以避免干擾。

二，本地磁盤

雖然Spark可以在內(nèi)存中執(zhí)行大量的計算，但它仍然使用本地磁盤來存儲不適合RAM的數(shù)據(jù)，以及在stage之間，也即shuffle的中間結(jié)果。建議每個節(jié)點至少有4-8塊磁盤，并且不需要RAID，僅僅是獨立的磁盤掛在節(jié)點。在Linux中，使用noatime選項安裝磁盤，以減少不必要的寫入。在spark任務(wù)中，spark.local.dir配置可以十多個磁盤目錄，以逗號分開。如果運行在hdfs上，與hdfs保持一致就很好。

使用noatime選項安裝磁盤，要求當(dāng)掛載文件系統(tǒng)時，可以指定標(biāo)準(zhǔn)Linux安裝選項（noatime），這將禁用該文件系統(tǒng)上的atime更新。磁盤掛在命令：

mount -t gfs BlockDevice MountPoint -o noatimeBlockDevice 指定GFS文件系統(tǒng)駐留的塊設(shè)備。MountPoint 指定GFS文件系統(tǒng)應(yīng)安裝的目錄。例子：mount -t gfs /dev/vg01/lvol0 /gfs1 -o noatime

三，內(nèi)存

單臺機器內(nèi)存從8GB到數(shù)百GB，spark都能運行良好。在所有情況下，建議僅為Spark分配最多75％的內(nèi)存;留下其余的操作系統(tǒng)和緩沖區(qū)緩存。

需要多少內(nèi)存取決于你的應(yīng)用程序。要確定你的應(yīng)用的特定數(shù)據(jù)集需要多大內(nèi)存，請加載部分?jǐn)?shù)據(jù)集到內(nèi)存，然后在Spark UI的Storage界面去看它的內(nèi)存占用量。

請注意，內(nèi)存使用受到存儲級別和序列化格式的極大影響 - 有關(guān)如何減少內(nèi)存使用的技巧，請參閱另一篇調(diào)優(yōu)的文章。

最后，請注意，對于超過200GB的內(nèi)存的機器JAVA VM運行狀態(tài)并不一直表現(xiàn)良好。如果買的機器內(nèi)存超過了200GB，那么可以在一個節(jié)點上運行多個worker。Spark Standalone模式下，可以在配置文件 conf/spark-env.sh中設(shè)置SPARK_WORKER_INSTANCES的值來設(shè)置單節(jié)點worker的數(shù)目。也可以設(shè)置SPARK_WORKER_CORES參數(shù)來設(shè)置每個Worker的cpu數(shù)目。

四，網(wǎng)絡(luò)

根據(jù)以往的經(jīng)驗，假如數(shù)據(jù)是在內(nèi)存中，那么spark的應(yīng)用的瓶頸往往就在網(wǎng)絡(luò)。用10 Gigabit或者更高的網(wǎng)絡(luò)，是使spark應(yīng)用跑的最更快的最佳方式。特別是針對“distributed reduce”應(yīng)用，如group-bys,reduce-bys和sql joins，就表現(xiàn)的更加明顯。在任何給定的應(yīng)用程序中，可以通過spark ui查看spark shuffle過程夸網(wǎng)絡(luò)傳輸了多少數(shù)據(jù)。

五，cpu

對于每臺機器幾十個cpu的機器，spark也可以很好的擴展，因為他在線程之間執(zhí)行最小的共享cpu。應(yīng)該每臺機器至少配置8-16個內(nèi)核。根據(jù)cpu負(fù)載，可能需要更多的cpu：一旦數(shù)據(jù)在內(nèi)存中，大多數(shù)應(yīng)用程序的瓶頸就在CPU和網(wǎng)絡(luò)。

以上是“spark對硬件的要求有哪些”這篇文章的所有內(nèi)容，感謝各位的閱讀！相信大家都有了一定的了解，希望分享的內(nèi)容對大家有所幫助，如果還想學(xué)習(xí)更多知識，歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道！

當(dāng)前標(biāo)題：spark對硬件的要求有哪些
網(wǎng)頁URL：http://weahome.cn/article/pjphoi.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

spark對硬件的要求有哪些

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管