大多數(shù)Spark作業(yè)可能需要從外部存儲(chǔ)系統(tǒng)(例如 :Cassandra、Hadoop文件系統(tǒng)或HBase)讀取輸入數(shù)據(jù),所以要讓Spark計(jì)算引擎盡可能靠近數(shù)據(jù)持久層。
如果使用HDFS作為數(shù)據(jù)存儲(chǔ)集群,可以在相同的集群上部署Spark集群,并配置Spark和Hadoop的內(nèi)存和CPU使用率以避免干擾。我們的生產(chǎn)存儲(chǔ)使用的是Cassandra集群,spark master 服務(wù)單獨(dú)部署,其它節(jié)點(diǎn)同時(shí)部署:Cassandra + spark worker,保證spark worker 節(jié)點(diǎn)可以快速從本地讀取數(shù)據(jù)進(jìn)行計(jì)算匯總。
創(chuàng)新互聯(lián)專業(yè)IDC數(shù)據(jù)服務(wù)器托管提供商,專業(yè)提供成都服務(wù)器托管,服務(wù)器租用,成都移動(dòng)服務(wù)器托管,成都移動(dòng)服務(wù)器托管,成都多線服務(wù)器托管等服務(wù)器托管服務(wù)。
雖然Spark可以在內(nèi)存中執(zhí)行大量的計(jì)算,但它仍然可能會(huì)使用本地磁盤來存儲(chǔ)不適用于RAM的數(shù)據(jù),建議每個(gè)節(jié)點(diǎn)配置4-8個(gè)磁盤,不需要配置RAID(磁盤陣列),磁盤成本越來越低,可以考慮配置ssd 硬盤,可以大幅提升性能。另外;在Linux中,使用noatime選項(xiàng)掛載磁盤,以減少不必要的寫入操作。 在Spark中,可以將spark.local.dir變量配置為多個(gè)本地磁盤的地址,多個(gè)地址之間以逗號(hào)分隔。
建議為Spark分配的內(nèi)存容量不大于機(jī)器總內(nèi)存容量的75%;確保為操作系統(tǒng)和緩沖區(qū)留下足夠的內(nèi)存。根據(jù)業(yè)務(wù)特點(diǎn)評估需要多少內(nèi)存。
請注意,當(dāng)內(nèi)存容量超過200GB時(shí)Java 虛擬機(jī)的性能表現(xiàn)會(huì)不穩(wěn)定。如果您購買的RAM大于200G,則可以為每個(gè)節(jié)點(diǎn)運(yùn)行多個(gè)worker JVM。在Spark的standalone模式下,您可以通過conf/spark-env.sh中的SPARK_WORKER_INSTANCES變量設(shè)置每個(gè)節(jié)點(diǎn)運(yùn)行的worker進(jìn)程數(shù),以及通過SPARK_WORKER_CORES變量設(shè)置每個(gè)worker可用的cpu核心數(shù)。
當(dāng)數(shù)據(jù)已經(jīng)存儲(chǔ)在內(nèi)存中時(shí),很多Spark應(yīng)用程序的性能瓶頸在于網(wǎng)絡(luò)的傳輸速率。推薦最低使用10G的網(wǎng)絡(luò)。
Spark運(yùn)行匯總計(jì)算任務(wù)比較多,推薦配置更多的cpu核數(shù),性能提升還是比較明顯,推薦:每臺(tái)機(jī)器至少配置8-16個(gè)核??梢愿鶕?jù)Spark作業(yè)的CPU負(fù)載情況,進(jìn)行配置調(diào)整。一旦數(shù)據(jù)已經(jīng)在內(nèi)存中,大多數(shù)應(yīng)用程序的性能瓶頸在于CPU和網(wǎng)絡(luò)。
http://spark.apache.org/docs/latest/hardware-provisioning.html