如何進(jìn)行大數(shù)據(jù)中R語(yǔ)言的描述性統(tǒng)計(jì),很多新手對(duì)此不是很清楚,為了幫助大家解決這個(gè)難題,下面小編將為大家詳細(xì)講解,有這方面需求的人可以來(lái)學(xué)習(xí)下,希望你能有所收獲。
創(chuàng)新互聯(lián)專(zhuān)注于友誼網(wǎng)站建設(shè)服務(wù)及定制,我們擁有豐富的企業(yè)做網(wǎng)站經(jīng)驗(yàn)。 熱誠(chéng)為您提供友誼營(yíng)銷(xiāo)型網(wǎng)站建設(shè),友誼網(wǎng)站制作、友誼網(wǎng)頁(yè)設(shè)計(jì)、友誼網(wǎng)站官網(wǎng)定制、微信小程序開(kāi)發(fā)服務(wù),打造友誼網(wǎng)絡(luò)公司原創(chuàng)品牌,更為您提供友誼網(wǎng)站排名全網(wǎng)營(yíng)銷(xiāo)落地服務(wù)。
常見(jiàn)描述性統(tǒng)計(jì)可以通過(guò)最小值、下四分位數(shù)、中位數(shù)、上四分位數(shù)和最大值,均值、眾數(shù)、標(biāo)準(zhǔn)差、極差等查看數(shù)據(jù)的分布和離散程度;通過(guò)偏度(數(shù)據(jù)分布形態(tài)呈現(xiàn)左偏或右偏)和峰度(分布形態(tài)呈現(xiàn)尖瘦或矮胖)等查看數(shù)據(jù)的正態(tài)與否。
下面簡(jiǎn)單的介紹如何使用R實(shí)現(xiàn)數(shù)值型變量的上述統(tǒng)計(jì)量。
1 基礎(chǔ)包中summary()函數(shù)
可得到數(shù)值型變量的最小值、下四分位數(shù)、中位數(shù)、上四分位數(shù)和最大值。
#使用自帶的mtcars數(shù)據(jù)集,選擇mpg,disp和hp三個(gè)數(shù)值型變量進(jìn)行分析。head(mtcars)data <- mtcars[c("mpg","disp","hp")]summary(data) mpg disp hp Min. :10.40 Min. : 71.1 Min. : 52.0 1st Qu.:15.43 1st Qu.:120.8 1st Qu.: 96.5 Median :19.20 Median :196.3 Median :123.0 Mean :20.09 Mean :230.7 Mean :146.7 3rd Qu.:22.80 3rd Qu.:326.0 3rd Qu.:180.0 Max. :33.90 Max. :472.0 Max. :335.0
2 psych包中describe()函數(shù)
可得到非缺失值的個(gè)數(shù)、均值、標(biāo)準(zhǔn)差、中位數(shù)、截尾平均數(shù)、絕對(duì)中位差、最小值、最大值、極差、偏度、豐度和平均值的標(biāo)準(zhǔn)誤
#install.packages("psych")library(psych)describe(data) vars n mean sd median trimmed mad min max range skew kurtosis sempg 1 32 20.1 6.03 19.2 19.7 5.41 10.4 33.9 23.5 0.61 -0.37 1.07disp 2 32 230.7 123.94 196.3 222.5 140.48 71.1 472.0 400.9 0.38 -1.21 21.91hp 3 32 146.7 68.56 123.0 141.2 77.10 52.0 335.0 283.0 0.73 -0.14 12.12
3 pastecs包中stat.desc()函數(shù)
當(dāng)設(shè)置norm=TRUE(非默認(rèn))時(shí),可以返回偏度和豐度(統(tǒng)計(jì)顯著程度)和Shapiro-Wilk正態(tài)檢驗(yàn)的結(jié)果。
其中p=0.05表示計(jì)算平均數(shù)的置信區(qū)間默認(rèn)置信度為0.95.
#install.packages("pastecs")library(pastecs)options(digits=3) #設(shè)定三位小數(shù)stat.desc(data,norm = TRUE) mpg disp hpnbr.val 32.000 3.20e+01 32.0000nbr.null 0.000 0.00e+00 0.0000nbr.na 0.000 0.00e+00 0.0000min 10.400 7.11e+01 52.0000max 33.900 4.72e+02 335.0000range 23.500 4.01e+02 283.0000sum 642.900 7.38e+03 4694.0000median 19.200 1.96e+02 123.0000mean 20.091 2.31e+02 146.6875SE.mean 1.065 2.19e+01 12.1203CI.mean.0.95 2.173 4.47e+01 24.7196var 36.324 1.54e+04 4700.8669std.dev 6.027 1.24e+02 68.5629coef.var 0.300 5.37e-01 0.4674skewness 0.611 3.82e-01 0.7260skew.2SE 0.737 4.60e-01 0.8759kurtosis -0.373 -1.21e+00 -0.1356kurt.2SE -0.230 -7.46e-01 -0.0837normtest.W 0.948 9.20e-01 0.9334normtest.p 0.123 2.08e-02 0.0488
4 自定義函數(shù)
除了上述函數(shù)包外,還可以自定義函數(shù)可以只返回需要的值。
my_describe <- function(x){ options(digits = 3) N = length(x); Nmiss = sum(is.na(x)); Min = min(x, na.rm = TRUE); Q1 = quantile(x, probs = 0.25, na.rm = TRUE); Median = median(x, na.rm = TRUE); Q3 = quantile(x, probs = 0.75, na.rm = TRUE); Max = max(x, na.rm = TRUE); Mean = mean(x, na.rm = TRUE); Sd = sd(x, na.rm = TRUE); Range = abs(diff(range(x))); skew <- sum((x-Mean)^3/Sd^3)/N kurt <- sum((x-Mean)^4/Sd^4)/N-3 #返回結(jié)果 return(data.frame(N = N, Nmiss = Nmiss, Min = Min, Q1 = Q1, Median = Median, Q3 = Q3, Max = Max, Mean = Mean, Sd = Sd, Range = Range, Skewness = skew, Kurtosis = kurt))}sapply(data, my_describe) mpg disp hp N 32 32 32 Nmiss 0 0 0 Min 10.4 71.1 52 Q1 15.4 121 96.5 Median 19.2 196 123 Q3 22.8 326 180 Max 33.9 472 335 Mean 20.1 231 147 Sd 6.03 124 68.6 Range 23.5 401 283 Skewness 0.611 0.382 0.726 Kurtosis -0.373 -1.21 -0.136
可以看出自定義函數(shù)的結(jié)果與上述R包的結(jié)果一致,而且可以根據(jù)自己的需求選擇返回值。
看完上述內(nèi)容是否對(duì)您有幫助呢?如果還想對(duì)相關(guān)知識(shí)有進(jìn)一步的了解或閱讀更多相關(guān)文章,請(qǐng)關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝您對(duì)創(chuàng)新互聯(lián)的支持。