本篇內(nèi)容主要講解“spark MLlib數(shù)據(jù)類(lèi)型有哪些”,感興趣的朋友不妨來(lái)看看。本文介紹的方法操作簡(jiǎn)單快捷,實(shí)用性強(qiáng)。下面就讓小編來(lái)帶大家學(xué)習(xí)“spark MLlib數(shù)據(jù)類(lèi)型有哪些”吧!
成都創(chuàng)新互聯(lián)服務(wù)項(xiàng)目包括海南州網(wǎng)站建設(shè)、海南州網(wǎng)站制作、海南州網(wǎng)頁(yè)制作以及海南州網(wǎng)絡(luò)營(yíng)銷(xiāo)策劃等。多年來(lái),我們專(zhuān)注于互聯(lián)網(wǎng)行業(yè),利用自身積累的技術(shù)優(yōu)勢(shì)、行業(yè)經(jīng)驗(yàn)、深度合作伙伴關(guān)系等,向廣大中小型企業(yè)、政府機(jī)構(gòu)等提供互聯(lián)網(wǎng)行業(yè)的解決方案,海南州網(wǎng)站推廣取得了明顯的社會(huì)效益與經(jīng)濟(jì)效益。目前,我們服務(wù)的客戶(hù)以成都為中心已經(jīng)輻射到海南州省份的部分城市,未來(lái)相信會(huì)繼續(xù)擴(kuò)大服務(wù)區(qū)域并繼續(xù)獲得客戶(hù)的支持與信任!
MLlib是spark的機(jī)器學(xué)習(xí)庫(kù),其目的是使得機(jī)器學(xué)習(xí)算法更容易使用和擴(kuò)展。MLlib包含分類(lèi)、回歸、聚類(lèi)、協(xié)同濾波、降維,以及更低層級(jí)的優(yōu)化原語(yǔ)和更高層級(jí)的管道API。MLlib分成兩個(gè)包:spark.mllib包含建立在RDD之上的原始API,spark.ml提供了建立在DataFrames之上的更高層級(jí)的機(jī)器學(xué)習(xí)管道API。推薦使用spark.ml,因?yàn)镈ataFrames使得API更加通用和靈活。
MLlib支持保存在本地的,或者由RDD所表示的分布式向量和矩陣。代數(shù)運(yùn)算由Breeze和jblas庫(kù)支持。在監(jiān)督式學(xué)習(xí)中,一個(gè)訓(xùn)練樣本稱(chēng)為:a labeled point
本地向量:元素為double類(lèi)型,向量下標(biāo)索引從0開(kāi)始的int整數(shù);支持dense和sparse兩種類(lèi)型。dense 向量由一個(gè)double數(shù)組保存向量中所有的值;sparse向量由兩個(gè)并行的數(shù)組支持,分別保存索引和值。類(lèi)繼承關(guān)系:Vector -> (DenseVector, SparseVector)
LabeledPoint:包括一個(gè)本地向量(可以是dense vector或者sparse vector),和給該向量打上的標(biāo)簽。標(biāo)簽采用double類(lèi)型保存,所以LabeledPoint可用于分類(lèi)和回歸問(wèn)題中。對(duì)于二值分類(lèi)問(wèn)題,標(biāo)簽要么為0,要么為1;對(duì)于多類(lèi)問(wèn)題,標(biāo)簽為從0開(kāi)始的整數(shù):0,1,2,...。實(shí)際問(wèn)題中經(jīng)常遇到訓(xùn)練數(shù)據(jù)稀疏的情況,MLlib支持從LIBSVM文件加載數(shù)據(jù),構(gòu)造LabeledPoint
本地矩陣:元素值為double類(lèi)型,行列索引為int類(lèi)型;支持dense和sparse矩陣。dense矩陣采用一個(gè)double數(shù)組,按照列主序保存數(shù)組;sparse矩陣采用CSC(Compressed sparse column)格式,以列主序保存矩陣中非零元素。Matrix -> (DenseMatrix, SparseMatrix)
分布式矩陣:采用long類(lèi)型保存行列索引,元素值依然是double類(lèi)型,分布式保存在一個(gè)或者多個(gè)RDD之中。選擇正確的保存格式對(duì)分布式矩陣非常重要,因?yàn)檗D(zhuǎn)換分布式矩陣的格式很可能會(huì)牽涉到大量的shuffle IO操作,目前支持3種類(lèi)型的分布式矩陣:RowMatrix, IndexedRowMatrix, CoordinateMatrix。最基本的類(lèi)型RowMatrix,是一個(gè)以行為主的矩陣,每一行可以看成是一個(gè)特征向量,以向量的形式存儲(chǔ)在本地。IndexedRowMatrix是特殊的RowMatrix,其還保存了每一行的索引,用于定位特定的行和執(zhí)行join操作。CoordinateMatrix以坐標(biāo)序列的形式保存數(shù)組中的元素。BlockMatrix是為分塊矩陣設(shè)計(jì)的數(shù)據(jù)結(jié)構(gòu),矩陣被分割成一個(gè)個(gè)矩陣塊,保存到本地。
在RDD[Vector]上,Statistics類(lèi)提供了基于列的統(tǒng)計(jì)函數(shù)colStats,colStats返回每一列的最大值,最小值,均值,方差,非零元素個(gè)數(shù),以及所有元素?cái)?shù)量
計(jì)算兩個(gè)序列的相關(guān)性是一項(xiàng)很常用的操作,使用corr函數(shù)可以很容易的計(jì)算兩個(gè)或者多個(gè)向量的相關(guān)系數(shù),corr函數(shù)支持Pearson和Spearman相關(guān)系數(shù)。
在RDD[(K,V)],采用分層抽樣函數(shù)sampleByKey,需指定每一個(gè)key抽樣的比例
假設(shè)檢驗(yàn),支持皮爾遜卡方檢驗(yàn)
隨機(jī)數(shù)生成,支持均勻分布、標(biāo)準(zhǔn)正態(tài)分布、泊松分布
kernel density estimation:允許在不知道被觀察樣本概率分布的情況下,對(duì)其經(jīng)驗(yàn)概率分布進(jìn)行可視化。通過(guò)評(píng)估給定的樣本,估計(jì)隨機(jī)變量的分布。在評(píng)估隨機(jī)變量的分布時(shí),假設(shè)隨機(jī)變量的經(jīng)驗(yàn)概率分布函數(shù),可以表示為以所有采樣點(diǎn)為中心的正態(tài)分布的均值。
到此,相信大家對(duì)“spark MLlib數(shù)據(jù)類(lèi)型有哪些”有了更深的了解,不妨來(lái)實(shí)際操作一番吧!這里是創(chuàng)新互聯(lián)網(wǎng)站,更多相關(guān)內(nèi)容可以進(jìn)入相關(guān)頻道進(jìn)行查詢(xún),關(guān)注我們,繼續(xù)學(xué)習(xí)!