R語言數(shù)據(jù)挖掘?qū)崙?zhàn)系列(3)
成都創(chuàng)新互聯(lián)公司服務(wù)項目包括臨海網(wǎng)站建設(shè)、臨海網(wǎng)站制作、臨海網(wǎng)頁制作以及臨海網(wǎng)絡(luò)營銷策劃等。多年來,我們專注于互聯(lián)網(wǎng)行業(yè),利用自身積累的技術(shù)優(yōu)勢、行業(yè)經(jīng)驗、深度合作伙伴關(guān)系等,向廣大中小型企業(yè)、政府機構(gòu)等提供互聯(lián)網(wǎng)行業(yè)的解決方案,臨海網(wǎng)站推廣取得了明顯的社會效益與經(jīng)濟效益。目前,我們服務(wù)的客戶以成都為中心已經(jīng)輻射到臨海省份的部分城市,未來相信會繼續(xù)擴大服務(wù)區(qū)域并繼續(xù)獲得客戶的支持與信任!三、數(shù)據(jù)探索
通過檢驗數(shù)據(jù)集的數(shù)據(jù)質(zhì)量、繪制圖表、計算某些特征量等手段,對樣本數(shù)據(jù)集的結(jié)構(gòu)和規(guī)律進行分析的過程就是數(shù)據(jù)探索。
數(shù)據(jù)質(zhì)量分析
數(shù)據(jù)質(zhì)量分析的主要任務(wù)是檢查原始數(shù)據(jù)中是否存在臟數(shù)據(jù),臟數(shù)據(jù)一般是指不符合要求,以及不能直接進行相應(yīng)分析的數(shù)據(jù)。常見的臟數(shù)據(jù)包括:缺失值、異常值、不一致的值、重復(fù)數(shù)據(jù)及含有特殊符號的數(shù)據(jù)。
缺失值分析
數(shù)據(jù)的缺失主要包括記錄的缺失和記錄中某個字段信息的缺失。產(chǎn)生的原因有(1)有些信息暫時無法獲取,或者獲取信息的代價太大;(2)有些信息是被遺漏的;(3)屬性不存在。缺失值的影響有(1)數(shù)據(jù)挖掘建模將丟失大量的有用信息;(2)數(shù)據(jù)挖掘模型所表現(xiàn)出的不確定性更加顯著,模型中蘊含的規(guī)律更難把握;(3)包含空值的數(shù)據(jù)會使建模過程陷入混亂,導(dǎo)致不可靠的輸出。缺失值分析:使用簡單的統(tǒng)計分析,可以得到含有缺失值的屬性的個數(shù)、以及每個屬性的未缺失數(shù)、缺失數(shù)與缺失率等。缺失值處理,從總體上來說分為刪除存在缺失值的記錄、對可能值進行插補和不處理三種情況。
異常值分析
異常值分析是檢驗數(shù)據(jù)是否有錄入錯誤以及含有不合常理的數(shù)據(jù)。異常值是指樣本中的個別值,其數(shù)值明顯偏離其余的觀測值。異常值又稱為離群點,異常值分析也成為離群點分析。
(1)簡單統(tǒng)計量分析。對變量做一個描述性統(tǒng)計,進而查看哪些數(shù)據(jù)是不合理的。最常用的統(tǒng)計量是大值和最小值,用來判斷這個變量的取值是否超出了合理的范圍。
(2)3σ原則。如果數(shù)據(jù)服從正態(tài)分布,在3σ原則下,異常值被定義為一組測定值中與平均值的偏差超過三倍標準差的值。如果數(shù)據(jù)不服從正態(tài)分布,也可以用遠離平均值的多少倍標準差來描述。
(3)箱型圖分析。箱型圖提供了識別異常值的一個標準:異常值通常被定義為小于QL-1.5IQR或大于QU+1.5IQR的值。QL稱為下四分位數(shù),表示全部觀察值中有四分之一的數(shù)據(jù)取值比它??;QU稱為上四分位數(shù),表示全部觀察值中有四分之一的數(shù)據(jù)取值比它大;IQR稱為四分位數(shù)間距,是上四分位數(shù)QU與下四分位數(shù)QL之差,其間包含了全部觀察值的一半。
一致性分析
數(shù)據(jù)的不一致是指數(shù)據(jù)的矛盾性、不相容性。在數(shù)據(jù)挖掘過程中,不一致數(shù)據(jù)的產(chǎn)生主要發(fā)生在數(shù)據(jù)集成的過程中,可能是由被挖掘數(shù)據(jù)來自于不同的數(shù)據(jù)源、對于重復(fù)存放的數(shù)據(jù)未能進行一致性更新造成的。
數(shù)據(jù)特征分析
分布分析
分布分析能揭示數(shù)據(jù)的分布特征和分布類型。
1.定量數(shù)據(jù)的分布分析
對于定量變量,選擇“組數(shù)”和“組寬”是做頻率分布分析時最主要的問題,一般按照以下步驟:(1)求極差;(2)決定組距與組數(shù);(3)決定分點;(4)列出頻率分布表;(5)繪制頻率分布直方圖。遵循的主要原則有:各組之間必須是相互排斥;各組必須將所有的數(shù)據(jù)包含在內(nèi);各組的組寬最好相等。
2.定性數(shù)據(jù)的分布分析
對于定性變量,通常根據(jù)變量的分類類型來分組,可以采用餅形圖和條形圖來描述定性變量的分布。
對比分析
對比分析是指把兩個相互聯(lián)系的指標進行比較,從數(shù)量上展示和說明研究對象規(guī)模的大小,水平的高低,速度的快慢,以及各種關(guān)系是否協(xié)調(diào)。特別適用于指標間的橫縱向比較、時間序列的比較分析。對比分析的關(guān)鍵在于選擇合適的對比標準。對比分析主要有兩種形式:絕對數(shù)比較,相對數(shù)比較(由兩個有聯(lián)系的指標對比計算的,用以反映客觀現(xiàn)象之間數(shù)量聯(lián)系程度的綜合指標,其數(shù)值表現(xiàn)為相對數(shù)。相對數(shù)可以分為結(jié)構(gòu)相對數(shù)、比例相對數(shù)、比較相對數(shù)、強度相對數(shù)、計劃完成程度相對數(shù)和動態(tài)相對數(shù)。)
統(tǒng)計量分析
用統(tǒng)計指標對定量數(shù)據(jù)進行統(tǒng)計描述,通常從集中趨勢和離中趨勢兩個方面進行分析。平均水平的指標是對個體集中趨勢的度量,使用最廣泛的是均值和中位數(shù);反應(yīng)變異程度的指標則是對個體離開平均水平的度量,使用較廣泛的是標準差(方差)、四分位數(shù)間距。
1.集中趨勢度量
均值、中位數(shù)、眾數(shù)
2.離中趨勢分析
極差、標準差、變異系數(shù)(度量標準差相對于均值的離中趨勢,計算公式為:CV=標準差/均值×100%)、四分位數(shù)間距(四分位數(shù)間距是上四分位數(shù)QU與下四分位數(shù)QL之差,其間包含了全部觀察值的一半。其值越大,說明數(shù)據(jù)的變異程度越大,反之,說明變異程度越小。)
周期性分析
周期性分析是探索某個變量是否隨時間變化而呈現(xiàn)某種周期變化趨勢。
貢獻度分析
貢獻度分析又稱帕累托分析,它的原理是帕累托法則又稱20/80定律。
相關(guān)性分析
分析連續(xù)變量之間線性相關(guān)程度的強弱,并用適當(dāng)?shù)慕y(tǒng)計指標表示出來的過程稱為相關(guān)分析。
1.直接繪制散點圖
判斷兩個變量是否具有線性相關(guān)關(guān)系最直觀的方法是直接繪制散點圖。
2.繪制散點圖矩陣
需要同時考察多個變量間的相關(guān)關(guān)系時,可利用散點圖矩陣來同時繪制各變量間的散點圖,從而快速發(fā)現(xiàn)多個變量間的主要相關(guān)性。
3.計算相關(guān)系數(shù)
在二元變量的相關(guān)分析過程中比較常用的有Pearson相關(guān)系數(shù)、Spearman秩相關(guān)系數(shù)和判定系數(shù)。Pearson相關(guān)系數(shù)一般用于分析兩個連續(xù)性變量之間的關(guān)系,并且要求連續(xù)變量的取值服從正態(tài)分布。不服從正態(tài)分布的變量,分類或等級變量之間的關(guān)聯(lián)性可采用Spearman秩相關(guān)系數(shù)來描述。
易知,只要兩個變量具有嚴格單調(diào)的函數(shù)關(guān)系,那么它們就是完全Spearman相關(guān)的,然而,Pearson相關(guān)只有在變量具有線性關(guān)系時才是完全相關(guān)的。研究表明,在正態(tài)分布假定下,Spearman秩相關(guān)系數(shù)與Pearson相關(guān)系數(shù)在效率上是等價的,而對于連續(xù)測量數(shù)據(jù),更適合用Pearson相關(guān)系數(shù)進行分析。
判定系數(shù)。判定系數(shù)是相關(guān)系數(shù)的平方,用r2表示;用來衡量回歸方程對y的解釋程度。判定系數(shù)取值范圍:0≤r2≤1。r2越接近于1,表明x與y之間的相關(guān)性越強;r2越接近于0,表明兩個變量之間幾乎沒有線性相關(guān)關(guān)系。
R語言主要數(shù)據(jù)探索函數(shù)
統(tǒng)計特征函數(shù)
統(tǒng)計特征函數(shù)用于計算數(shù)據(jù)的均值、方差、標準差、分位數(shù)、相關(guān)系數(shù)、協(xié)方差等,這些統(tǒng)計特征能反映出數(shù)據(jù)的整體分布。
函數(shù)名 | 函數(shù)功能 |
mean() | 計算數(shù)據(jù)樣本的算術(shù)平均數(shù) |
exp(mean(log())) | 計算數(shù)據(jù)樣本的幾何平均數(shù) |
var() | 計算數(shù)據(jù)樣本的方差 |
sd() | 計算數(shù)據(jù)樣本的標準差 |
cor() | 計算數(shù)據(jù)樣本的相關(guān)系數(shù)矩陣 |
cov() | 計算數(shù)據(jù)樣本的協(xié)方差矩陣 |
moment() | 計算數(shù)據(jù)樣本的指定階中心距 |
summary() | 計算數(shù)據(jù)樣本的均值、大值、最小值、中位數(shù)、四分位數(shù) |
統(tǒng)計作圖函數(shù)
通過統(tǒng)計作圖函數(shù)繪制的圖表可以直觀地反映出數(shù)據(jù)及統(tǒng)計量的性質(zhì)及其內(nèi)在規(guī)律,如盒圖可以表示多個樣本的均值,誤差條形圖能同時顯示下限誤差和上限誤差,最小二乘擬合曲線圖能分析兩變量間的關(guān)系。
作圖函數(shù)名 | 作圖函數(shù)功能 |
barplot() | 繪制簡單條形圖 |
pie() | 繪制餅形圖 |
hist() | 繪制二維條形直方圖,可顯示數(shù)據(jù)的分配情形 |
boxplot() | 繪制樣本數(shù)據(jù)的箱型圖 |
plot() | 繪制線性二維圖、折線圖、散點圖 |
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)cdcxhl.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機、免備案服務(wù)器”等云主機租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。