真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

R語(yǔ)言數(shù)據(jù)挖掘?qū)崙?zhàn)系列(3)

R語(yǔ)言數(shù)據(jù)挖掘?qū)崙?zhàn)系列(3)

創(chuàng)新互聯(lián)2013年至今,是專(zhuān)業(yè)互聯(lián)網(wǎng)技術(shù)服務(wù)公司,擁有項(xiàng)目網(wǎng)站設(shè)計(jì)制作、網(wǎng)站建設(shè)網(wǎng)站策劃,項(xiàng)目實(shí)施與項(xiàng)目整合能力。我們以讓每一個(gè)夢(mèng)想脫穎而出為使命,1280元錦江做網(wǎng)站,已為上家服務(wù),為錦江各地企業(yè)和個(gè)人服務(wù),聯(lián)系電話:13518219792

三、數(shù)據(jù)探索

        通過(guò)檢驗(yàn)數(shù)據(jù)集的數(shù)據(jù)質(zhì)量、繪制圖表、計(jì)算某些特征量等手段,對(duì)樣本數(shù)據(jù)集的結(jié)構(gòu)和規(guī)律進(jìn)行分析的過(guò)程就是數(shù)據(jù)探索。

數(shù)據(jù)質(zhì)量分析

        數(shù)據(jù)質(zhì)量分析的主要任務(wù)是檢查原始數(shù)據(jù)中是否存在臟數(shù)據(jù),臟數(shù)據(jù)一般是指不符合要求,以及不能直接進(jìn)行相應(yīng)分析的數(shù)據(jù)。常見(jiàn)的臟數(shù)據(jù)包括:缺失值、異常值、不一致的值、重復(fù)數(shù)據(jù)及含有特殊符號(hào)的數(shù)據(jù)。

        缺失值分析

        數(shù)據(jù)的缺失主要包括記錄的缺失和記錄中某個(gè)字段信息的缺失。產(chǎn)生的原因有(1)有些信息暫時(shí)無(wú)法獲取,或者獲取信息的代價(jià)太大;(2)有些信息是被遺漏的;(3)屬性不存在。缺失值的影響有(1)數(shù)據(jù)挖掘建模將丟失大量的有用信息;(2)數(shù)據(jù)挖掘模型所表現(xiàn)出的不確定性更加顯著,模型中蘊(yùn)含的規(guī)律更難把握;(3)包含空值的數(shù)據(jù)會(huì)使建模過(guò)程陷入混亂,導(dǎo)致不可靠的輸出。缺失值分析:使用簡(jiǎn)單的統(tǒng)計(jì)分析,可以得到含有缺失值的屬性的個(gè)數(shù)、以及每個(gè)屬性的未缺失數(shù)、缺失數(shù)與缺失率等。缺失值處理,從總體上來(lái)說(shuō)分為刪除存在缺失值的記錄、對(duì)可能值進(jìn)行插補(bǔ)和不處理三種情況。

        異常值分析

        異常值分析是檢驗(yàn)數(shù)據(jù)是否有錄入錯(cuò)誤以及含有不合常理的數(shù)據(jù)。異常值是指樣本中的個(gè)別值,其數(shù)值明顯偏離其余的觀測(cè)值。異常值又稱(chēng)為離群點(diǎn),異常值分析也成為離群點(diǎn)分析。

        (1)簡(jiǎn)單統(tǒng)計(jì)量分析。對(duì)變量做一個(gè)描述性統(tǒng)計(jì),進(jìn)而查看哪些數(shù)據(jù)是不合理的。最常用的統(tǒng)計(jì)量是最大值和最小值,用來(lái)判斷這個(gè)變量的取值是否超出了合理的范圍。

        (2)3σ原則。如果數(shù)據(jù)服從正態(tài)分布,在3σ原則下,異常值被定義為一組測(cè)定值中與平均值的偏差超過(guò)三倍標(biāo)準(zhǔn)差的值。如果數(shù)據(jù)不服從正態(tài)分布,也可以用遠(yuǎn)離平均值的多少倍標(biāo)準(zhǔn)差來(lái)描述。

        (3)箱型圖分析。箱型圖提供了識(shí)別異常值的一個(gè)標(biāo)準(zhǔn):異常值通常被定義為小于QL-1.5IQR或大于QU+1.5IQR的值。QL稱(chēng)為下四分位數(shù),表示全部觀察值中有四分之一的數(shù)據(jù)取值比它??;QU稱(chēng)為上四分位數(shù),表示全部觀察值中有四分之一的數(shù)據(jù)取值比它大;IQR稱(chēng)為四分位數(shù)間距,是上四分位數(shù)QU與下四分位數(shù)QL之差,其間包含了全部觀察值的一半。

        一致性分析

        數(shù)據(jù)的不一致是指數(shù)據(jù)的矛盾性、不相容性。在數(shù)據(jù)挖掘過(guò)程中,不一致數(shù)據(jù)的產(chǎn)生主要發(fā)生在數(shù)據(jù)集成的過(guò)程中,可能是由被挖掘數(shù)據(jù)來(lái)自于不同的數(shù)據(jù)源、對(duì)于重復(fù)存放的數(shù)據(jù)未能進(jìn)行一致性更新造成的。

數(shù)據(jù)特征分析

        分布分析

        分布分析能揭示數(shù)據(jù)的分布特征和分布類(lèi)型。

        1.定量數(shù)據(jù)的分布分析

        對(duì)于定量變量,選擇“組數(shù)”和“組寬”是做頻率分布分析時(shí)最主要的問(wèn)題,一般按照以下步驟:(1)求極差;(2)決定組距與組數(shù);(3)決定分點(diǎn);(4)列出頻率分布表;(5)繪制頻率分布直方圖。遵循的主要原則有:各組之間必須是相互排斥;各組必須將所有的數(shù)據(jù)包含在內(nèi);各組的組寬最好相等。

        2.定性數(shù)據(jù)的分布分析

        對(duì)于定性變量,通常根據(jù)變量的分類(lèi)類(lèi)型來(lái)分組,可以采用餅形圖和條形圖來(lái)描述定性變量的分布。

        對(duì)比分析

        對(duì)比分析是指把兩個(gè)相互聯(lián)系的指標(biāo)進(jìn)行比較,從數(shù)量上展示和說(shuō)明研究對(duì)象規(guī)模的大小,水平的高低,速度的快慢,以及各種關(guān)系是否協(xié)調(diào)。特別適用于指標(biāo)間的橫縱向比較、時(shí)間序列的比較分析。對(duì)比分析的關(guān)鍵在于選擇合適的對(duì)比標(biāo)準(zhǔn)。對(duì)比分析主要有兩種形式:絕對(duì)數(shù)比較,相對(duì)數(shù)比較(由兩個(gè)有聯(lián)系的指標(biāo)對(duì)比計(jì)算的,用以反映客觀現(xiàn)象之間數(shù)量聯(lián)系程度的綜合指標(biāo),其數(shù)值表現(xiàn)為相對(duì)數(shù)。相對(duì)數(shù)可以分為結(jié)構(gòu)相對(duì)數(shù)、比例相對(duì)數(shù)、比較相對(duì)數(shù)、強(qiáng)度相對(duì)數(shù)、計(jì)劃完成程度相對(duì)數(shù)和動(dòng)態(tài)相對(duì)數(shù)。)

        統(tǒng)計(jì)量分析

        用統(tǒng)計(jì)指標(biāo)對(duì)定量數(shù)據(jù)進(jìn)行統(tǒng)計(jì)描述,通常從集中趨勢(shì)和離中趨勢(shì)兩個(gè)方面進(jìn)行分析。平均水平的指標(biāo)是對(duì)個(gè)體集中趨勢(shì)的度量,使用最廣泛的是均值和中位數(shù);反應(yīng)變異程度的指標(biāo)則是對(duì)個(gè)體離開(kāi)平均水平的度量,使用較廣泛的是標(biāo)準(zhǔn)差(方差)、四分位數(shù)間距。

        1.集中趨勢(shì)度量

        均值、中位數(shù)、眾數(shù)

        2.離中趨勢(shì)分析

        極差、標(biāo)準(zhǔn)差、變異系數(shù)(度量標(biāo)準(zhǔn)差相對(duì)于均值的離中趨勢(shì),計(jì)算公式為:CV=標(biāo)準(zhǔn)差/均值×100%)、四分位數(shù)間距(四分位數(shù)間距是上四分位數(shù)QU與下四分位數(shù)QL之差,其間包含了全部觀察值的一半。其值越大,說(shuō)明數(shù)據(jù)的變異程度越大,反之,說(shuō)明變異程度越小。)

        周期性分析

        周期性分析是探索某個(gè)變量是否隨時(shí)間變化而呈現(xiàn)某種周期變化趨勢(shì)。

        貢獻(xiàn)度分析

        貢獻(xiàn)度分析又稱(chēng)帕累托分析,它的原理是帕累托法則又稱(chēng)20/80定律。

        相關(guān)性分析

        分析連續(xù)變量之間線性相關(guān)程度的強(qiáng)弱,并用適當(dāng)?shù)慕y(tǒng)計(jì)指標(biāo)表示出來(lái)的過(guò)程稱(chēng)為相關(guān)分析。

        1.直接繪制散點(diǎn)圖

        判斷兩個(gè)變量是否具有線性相關(guān)關(guān)系最直觀的方法是直接繪制散點(diǎn)圖。

        2.繪制散點(diǎn)圖矩陣

        需要同時(shí)考察多個(gè)變量間的相關(guān)關(guān)系時(shí),可利用散點(diǎn)圖矩陣來(lái)同時(shí)繪制各變量間的散點(diǎn)圖,從而快速發(fā)現(xiàn)多個(gè)變量間的主要相關(guān)性。

        3.計(jì)算相關(guān)系數(shù)

        在二元變量的相關(guān)分析過(guò)程中比較常用的有Pearson相關(guān)系數(shù)、Spearman秩相關(guān)系數(shù)和判定系數(shù)。Pearson相關(guān)系數(shù)一般用于分析兩個(gè)連續(xù)性變量之間的關(guān)系,并且要求連續(xù)變量的取值服從正態(tài)分布。不服從正態(tài)分布的變量,分類(lèi)或等級(jí)變量之間的關(guān)聯(lián)性可采用Spearman秩相關(guān)系數(shù)來(lái)描述。

        易知,只要兩個(gè)變量具有嚴(yán)格單調(diào)的函數(shù)關(guān)系,那么它們就是完全Spearman相關(guān)的,然而,Pearson相關(guān)只有在變量具有線性關(guān)系時(shí)才是完全相關(guān)的。研究表明,在正態(tài)分布假定下,Spearman秩相關(guān)系數(shù)與Pearson相關(guān)系數(shù)在效率上是等價(jià)的,而對(duì)于連續(xù)測(cè)量數(shù)據(jù),更適合用Pearson相關(guān)系數(shù)進(jìn)行分析。

        判定系數(shù)。判定系數(shù)是相關(guān)系數(shù)的平方,用r2表示;用來(lái)衡量回歸方程對(duì)y的解釋程度。判定系數(shù)取值范圍:0≤r2≤1。r2越接近于1,表明x與y之間的相關(guān)性越強(qiáng);r2越接近于0,表明兩個(gè)變量之間幾乎沒(méi)有線性相關(guān)關(guān)系。

R語(yǔ)言主要數(shù)據(jù)探索函數(shù)

        統(tǒng)計(jì)特征函數(shù)

        統(tǒng)計(jì)特征函數(shù)用于計(jì)算數(shù)據(jù)的均值、方差、標(biāo)準(zhǔn)差、分位數(shù)、相關(guān)系數(shù)、協(xié)方差等,這些統(tǒng)計(jì)特征能反映出數(shù)據(jù)的整體分布。

函數(shù)名函數(shù)功能
mean()計(jì)算數(shù)據(jù)樣本的算術(shù)平均數(shù)
exp(mean(log()))計(jì)算數(shù)據(jù)樣本的幾何平均數(shù)
var()計(jì)算數(shù)據(jù)樣本的方差
sd()計(jì)算數(shù)據(jù)樣本的標(biāo)準(zhǔn)差
cor()計(jì)算數(shù)據(jù)樣本的相關(guān)系數(shù)矩陣
cov()計(jì)算數(shù)據(jù)樣本的協(xié)方差矩陣
moment()計(jì)算數(shù)據(jù)樣本的指定階中心距
summary()計(jì)算數(shù)據(jù)樣本的均值、最大值、最小值、中位數(shù)、四分位數(shù)

        統(tǒng)計(jì)作圖函數(shù)

        通過(guò)統(tǒng)計(jì)作圖函數(shù)繪制的圖表可以直觀地反映出數(shù)據(jù)及統(tǒng)計(jì)量的性質(zhì)及其內(nèi)在規(guī)律,如盒圖可以表示多個(gè)樣本的均值,誤差條形圖能同時(shí)顯示下限誤差和上限誤差,最小二乘擬合曲線圖能分析兩變量間的關(guān)系。

作圖函數(shù)名作圖函數(shù)功能
barplot()繪制簡(jiǎn)單條形圖
pie()繪制餅形圖
hist()繪制二維條形直方圖,可顯示數(shù)據(jù)的分配情形
boxplot()繪制樣本數(shù)據(jù)的箱型圖
plot()繪制線性二維圖、折線圖、散點(diǎn)圖

本文名稱(chēng):R語(yǔ)言數(shù)據(jù)挖掘?qū)崙?zhàn)系列(3)
鏈接分享:http://weahome.cn/article/pdjdhj.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部