spark-core:
rdd api =>算子
scala:
高階函數(shù)/ 高階api
1.構(gòu)建rdd
1.從已經(jīng)存在集合
2.已經(jīng)存在外部數(shù)據(jù)源
1.textFile :
1.Spark creates one partition for each block of the file hdfs [沒(méi)有問(wèn)題的]
2. you cannot have fewer partitions than blocks
val rdd = sc.textFile("hdfs://bigdata32:9000/wc.data") 2
3 =》 3
保存:
saveAstextFile:
落地hdfs文件的個(gè)數(shù):
mapreduce =》 reduce task數(shù)量
spark-core =》 最終的rdd的分區(qū)數(shù)
2.RDD 相關(guān)的操作
1.transformations 【轉(zhuǎn)換操作】:
create a new dataset from an existing one
2.actions 【觸發(fā)job執(zhí)行的操作】
which return a value to the driver program 【spark client、控制臺(tái)】
after running a computation on the dataset. 【rdd】
構(gòu)建rdd:
1.從已經(jīng)存在集合
2.已經(jīng)存在外部數(shù)據(jù)源
3.從已經(jīng)存在rdd轉(zhuǎn)換生成一個(gè)新的rdd
transformation:
1.All transformations in Spark are lazy =》 懶加載
rdda =>rddb =>rddc =>不會(huì)立即執(zhí)行 不會(huì)觸發(fā)job的執(zhí)行
rdd.map().fitler.
=》 rdd 血緣關(guān)系
action:
觸發(fā)作業(yè)的執(zhí)行
好處: mapreduce
1=>2=>3=>4
spark-core: job pipiline
1=>2=>3=>4 action =>job作業(yè)的執(zhí)行
1.map : 一一映射
處理rdd里面每一個(gè)元素
2.filter
map相關(guān)的算子、kv類型的算子、other算子
3.map相關(guān)的算子
makeRDD =>了解 =》 parallelize
map vs mapPartitions:
1.map 一個(gè)作用的rdd里面每一個(gè)元素
2.mapPartitions 作用的rdd里面 分區(qū)
需求: spark-core:
map filter =》 不讓用 如何實(shí)現(xiàn) 功能? 平臺(tái)
MapPartitionsRDD
Actions1.collect()
2.foreach() 輸出 :
driver :
1.控制臺(tái)
2.hdfs 不這樣用
3.db
你是否還在尋找穩(wěn)定的海外服務(wù)器提供商?創(chuàng)新互聯(lián)www.cdcxhl.cn海外機(jī)房具備T級(jí)流量清洗系統(tǒng)配攻擊溯源,準(zhǔn)確流量調(diào)度確保服務(wù)器高可用性,企業(yè)級(jí)服務(wù)器適合批量采購(gòu),新人活動(dòng)首月15元起,快前往官網(wǎng)查看詳情吧