這篇“R語言數(shù)據(jù)標(biāo)準(zhǔn)化方法怎么使用”文章的知識點(diǎn)大部分人都不太理解,所以小編給大家總結(jié)了以下內(nèi)容,內(nèi)容詳細(xì),步驟清晰,具有一定的借鑒價值,希望大家閱讀完這篇文章能有所收獲,下面我們一起來看看這篇“R語言數(shù)據(jù)標(biāo)準(zhǔn)化方法怎么使用”文章吧。
成都創(chuàng)新互聯(lián)公司服務(wù)項(xiàng)目包括惠安網(wǎng)站建設(shè)、惠安網(wǎng)站制作、惠安網(wǎng)頁制作以及惠安網(wǎng)絡(luò)營銷策劃等。多年來,我們專注于互聯(lián)網(wǎng)行業(yè),利用自身積累的技術(shù)優(yōu)勢、行業(yè)經(jīng)驗(yàn)、深度合作伙伴關(guān)系等,向廣大中小型企業(yè)、政府機(jī)構(gòu)等提供互聯(lián)網(wǎng)行業(yè)的解決方案,惠安網(wǎng)站推廣取得了明顯的社會效益與經(jīng)濟(jì)效益。目前,我們服務(wù)的客戶以成都為中心已經(jīng)輻射到惠安省份的部分城市,未來相信會繼續(xù)擴(kuò)大服務(wù)區(qū)域并繼續(xù)獲得客戶的支持與信任!
什么是數(shù)據(jù)標(biāo)準(zhǔn)化?
在微生物組學(xué)數(shù)據(jù)分析之前,我們常常需要根據(jù)數(shù)據(jù)量綱的不同以及分析方法的需要對數(shù)據(jù)進(jìn)行各種預(yù)處理,也即數(shù)據(jù)標(biāo)準(zhǔn)化。數(shù)據(jù)標(biāo)準(zhǔn)化的目的是使數(shù)據(jù)的總體符合某種要求,例如使數(shù)據(jù)總體符合正態(tài)分布以方便參數(shù)檢驗(yàn)、使數(shù)據(jù)范圍相同以方便比較分析、使數(shù)據(jù)分布均勻以方便作圖展示等。我們必須知道不同標(biāo)準(zhǔn)化方法的內(nèi)涵,從而在實(shí)際研究中可以選擇正確的數(shù)據(jù)標(biāo)準(zhǔn)化方法。
首先我們介紹一下數(shù)據(jù)轉(zhuǎn)換。簡單數(shù)據(jù)轉(zhuǎn)換也即對整體數(shù)據(jù)進(jìn)行簡單運(yùn)算,數(shù)據(jù)轉(zhuǎn)換的目的主要有三個,一是改變數(shù)據(jù)結(jié)構(gòu),例如非線性通過平方根、對數(shù)轉(zhuǎn)換為線性;二是改變數(shù)據(jù)范圍,便于比較和作圖分析,例如數(shù)據(jù)變化特別大的可以進(jìn)行對數(shù)轉(zhuǎn)換來縮小屬性范圍;三是改變數(shù)據(jù)分布,使得樣本偏離標(biāo)準(zhǔn)分布太遠(yuǎn)的更加接近標(biāo)準(zhǔn)分布(例如正態(tài)分布)。常見的數(shù)據(jù)轉(zhuǎn)換有以下幾種:
對數(shù)轉(zhuǎn)換:將數(shù)據(jù)(樣本觀察值)取自然對數(shù)(或者其他數(shù)為底的對數(shù)),可以使用log()函數(shù)來實(shí)現(xiàn)(log1p()可以將數(shù)據(jù)加1后取自然對數(shù))。若是數(shù)據(jù)中有0或負(fù)值,可以全部數(shù)據(jù)加上一個數(shù)轉(zhuǎn)換為正數(shù)。一般來說自然對數(shù)轉(zhuǎn)換可以使0~1范圍內(nèi)的數(shù)據(jù)范圍變大,可以使>1范圍內(nèi)數(shù)據(jù)范圍變緊湊。
平方根轉(zhuǎn)換:將數(shù)據(jù)全部取平方根,可以使用sqrt(x)或者x^0.5來實(shí)現(xiàn)。類似的還有立方根轉(zhuǎn)換、四次方根轉(zhuǎn)換,偶數(shù)次方根要求數(shù)據(jù)非負(fù)。如果數(shù)據(jù)結(jié)構(gòu)為二次關(guān)系,平方根轉(zhuǎn)換后平方根轉(zhuǎn)換可以使數(shù)據(jù)范圍變小。
decostand(x, method, MARGIN, range.global, logbase = 2, na.rm=FALSE, ...)
其中x為向量或矩陣,method為標(biāo)準(zhǔn)化方法,MARGIN=1按行處理,MARGIN=2按列處理,不同標(biāo)準(zhǔn)化方法介紹如下:
①method="pa",將數(shù)據(jù)轉(zhuǎn)換為有-無(1-0)類型,若分析不加權(quán)的情況群結(jié)構(gòu)下可以使用;
②method="max",最大值標(biāo)準(zhǔn)化,將數(shù)據(jù)除以該行或者列的最大值(defaultMARGIN=2)。若數(shù)據(jù)非負(fù),最大值標(biāo)準(zhǔn)化后數(shù)據(jù)全部位于0到1之間。
③method="total",總和標(biāo)準(zhǔn)化,將數(shù)據(jù)除以該行或者列的總和,也即求相對豐度(default MARGIN=1),總和標(biāo)準(zhǔn)化后數(shù)據(jù)全部位于0到1之間。
④method="range",Min-max標(biāo)準(zhǔn)化,將數(shù)據(jù)減去該行或者列的最小值,并比上最大值與最小值之差(defaultMARGIN=2),Min-max標(biāo)準(zhǔn)化后的數(shù)據(jù)全部位于0到1之間。
⑤method="normalize",模標(biāo)準(zhǔn)化,將數(shù)據(jù)除以每行或者每列的平方和的平方根(default MARGIN=1),模標(biāo)準(zhǔn)化后每行、列的平方和為1(向量的模為1),也即在笛卡爾坐標(biāo)系中到原點(diǎn)的歐氏距離為1,樣品分布在一個圓弧上,彼此之間的距離為弦長,因此也稱為弦轉(zhuǎn)化。在基于歐氏距離的PCA、RDA中分析群落數(shù)據(jù)可以將每個樣方弦轉(zhuǎn)化可以彌補(bǔ)歐氏距離的缺陷。弦轉(zhuǎn)化后的數(shù)據(jù)使用歐氏距離函數(shù)計(jì)算將得到弦距離矩陣。
⑥method="hellinger",hellinger轉(zhuǎn)化,就是總和標(biāo)準(zhǔn)化數(shù)據(jù)的平方根(default MARGIN=1),hellinger轉(zhuǎn)化后的數(shù)據(jù)使用歐氏距離函數(shù)計(jì)算將得到hellinger距離矩陣。
⑦method="chi.square",卡方轉(zhuǎn)化,在默認(rèn)(defaultMARGIN=1)的情況下是數(shù)據(jù)除以行的和再除以列的和的平方根,卡方轉(zhuǎn)化后的數(shù)據(jù)使用歐氏距離函數(shù)計(jì)算將得到卡方距離矩陣。
⑧Wisconsin轉(zhuǎn)化,這個是使用伴隨的函數(shù)wisconsin(),將數(shù)據(jù)除以該列最大值再除以該行總和,是最大值標(biāo)準(zhǔn)化和總和標(biāo)準(zhǔn)化的結(jié)合。
一般情況下,上面方法中默認(rèn)MARGIN=1是默認(rèn)對樣品進(jìn)行處理,默認(rèn)MARGIN=2是默認(rèn)對物種或者環(huán)境變量進(jìn)行處理。
#假設(shè)虛擬數(shù)據(jù):2個物種在5個樣方的分布spe1=c(0.1,0.2,0.3,0.4,0.5)spe2=c(0.6,0.7,0.8,0.9,1)ab=cbind(spe1,spe2)rownames(ab)=LETTERS[1:5]#各種標(biāo)準(zhǔn)化ab1=decostand(ab, MARGIN=1, "total")ab2=decostand(ab, MARGIN=1, "normalize")ab3=decostand(ab, MARGIN=1, "hellinger")ab4=decostand(ab, MARGIN=1, "chi.square")ab5=wisconsin(ab)#作圖觀察不同標(biāo)準(zhǔn)化方法距離差異par(mfrow=c(2,3))plot(ab[,1], ab[,2], xlim=0:1, ylim=0:1, main="Raw data")text(ab[,1], ab[,2]-0.05, labels=rownames(ab), cex=1.2)plot(ab1[,1], ab1[,2], xlim=0:1, ylim=0:1, main="Total")text(ab1[,1], ab1[,2]-0.05, labels=rownames(ab), cex=1.2)plot(ab2[,1], ab2[,2], xlim=0:1, ylim=0:1, main="Normalize")text(ab2[,1], ab2[,2]-0.05, labels=rownames(ab), cex=1.2)plot(ab3[,1], ab3[,2], xlim=0:1, ylim=0:1, main="Hellinger")text(ab3[,1], ab3[,2]-0.05, labels=rownames(ab), cex=1.2)plot(ab4[,1], ab4[,2], xlim=0:1, ylim=0:1, main="Chi.square")text(ab4[,1], ab4[,2]-0.05, labels=rownames(ab), cex=1.2)plot(ab5[,1], ab5[,2], xlim=0:1, ylim=0:1, main="Wisconsin")text(ab5[,1], ab5[,2]-0.05, labels=rownames(ab), cex=1.2)
結(jié)果如下所示:
在沒有處理的情況下,群落之間的歐氏距離相等,然而在生態(tài)學(xué)方面我們不這么看,因?yàn)锽中物種1的數(shù)量是A的兩倍,其群落差異顯然比D、E更大,五種處理方法標(biāo)準(zhǔn)化數(shù)據(jù)后的結(jié)果都比較好的證實(shí)了上面的猜想,尤其是最后兩種。然而在微生物生態(tài)中,我們傾向于認(rèn)為微生物群落是一個整體,不同樣品之間物種的相對豐度是有可比較的實(shí)際意義的,因此最常用的就是總和標(biāo)準(zhǔn)化(當(dāng)然在不涉及豐度比較的聚類和排序分析中各種標(biāo)準(zhǔn)化方法都可以嘗試,在傳統(tǒng)群落研究里,雖然經(jīng)常使用中心化等方法,但是需要使用蓋度等對不同物種進(jìn)行加權(quán),因此直接進(jìn)行總和標(biāo)準(zhǔn)化從某種意義上是使用相對豐度進(jìn)行加權(quán))。
以上就是關(guān)于“R語言數(shù)據(jù)標(biāo)準(zhǔn)化方法怎么使用”這篇文章的內(nèi)容,相信大家都有了一定的了解,希望小編分享的內(nèi)容對大家有幫助,若想了解更多相關(guān)的知識內(nèi)容,請關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。