本篇文章為大家展示了Spark API編程中spark文件操作和debug是怎樣的,內(nèi)容簡明扼要并且容易理解,絕對能使你眼前一亮,通過這篇文章的詳細介紹希望你能有所收獲。
讓客戶滿意是我們工作的目標,不斷超越客戶的期望值來自于我們對這個行業(yè)的熱愛。我們立志把好的技術(shù)通過有效、簡單的方式提供給客戶,將通過不懈努力成為客戶在信息化領(lǐng)域值得信任、有價值的長期合作伙伴,公司提供的服務(wù)項目有:空間域名、虛擬主機、營銷軟件、網(wǎng)站建設(shè)、濂溪網(wǎng)站維護、網(wǎng)站推廣。
這次 我們以指定executor-memory參數(shù)的方式來啟動spark-shell:
從hdfs上讀取文件:
可以看出MappedRDD是從HadoopRDD轉(zhuǎn)換而來的
再看下textFile的源代碼:
下面進行一個簡單的wordcount操作:
再次使用toDebugString,查看下依賴關(guān)系:
HadoopRDD -> MappedRDD -> FlatMappedRDD -> MappedRDD -> ShuffledRDD
上述內(nèi)容就是Spark API編程中spark文件操作和debug是怎樣的,你們學(xué)到知識或技能了嗎?如果還想學(xué)到更多技能或者豐富自己的知識儲備,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。