真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

Python數(shù)據(jù)處理及可視化的示例分析

這篇文章主要介紹Python數(shù)據(jù)處理及可視化的示例分析,文中介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們一定要看完!

成都創(chuàng)新互聯(lián)公司成立于2013年,先為高坪等服務(wù)建站,高坪等地企業(yè),進(jìn)行企業(yè)商務(wù)咨詢服務(wù)。為高坪企業(yè)網(wǎng)站制作PC+手機(jī)+微官網(wǎng)三網(wǎng)同步一站式服務(wù)解決您的所有建站問(wèn)題。

一、NumPy的初步使用

表格是數(shù)據(jù)的一般表示形式,但對(duì)于機(jī)器來(lái)說(shuō)是不可理解的,也就是無(wú)法辨識(shí)的數(shù)據(jù),所以我們需要對(duì)表格的形式進(jìn)行調(diào)整。
常用的機(jī)器學(xué)習(xí)表示形式為數(shù)據(jù)矩陣。
Python數(shù)據(jù)處理及可視化的示例分析
我們觀察這個(gè)表格,發(fā)現(xiàn),矩陣中的屬性有兩種,一種是數(shù)值型,一種是布爾型。那么我們現(xiàn)在就建立模型描述這個(gè)表格:

#  數(shù)據(jù)的矩陣化import numpy as np
data = np.mat([[1,200,105,3,False],[2,165,80,2,False],[3,184.5,120,2,False],
              [4,116,70.8,1,False],[5,270,150,4,True]])row = 0for line in data:
    row += 1print( row )print(data.size)print(data)

這里第一行代碼的意思就是引入NumPy將其重命名為np。第二行我們使用NumPy中的mat()方法建立一個(gè)數(shù)據(jù)矩陣,row是引入的計(jì)算行數(shù)的變量。
這里的size意思就是5*5的一個(gè)表格,直接打印data就可以看到數(shù)據(jù)了:
Python數(shù)據(jù)處理及可視化的示例分析

二、Matplotlib包的使用–圖形化數(shù)據(jù)處理

我們還是看最上面的表格,第二列是房?jī)r(jià)的差異,我們想直觀的看出差別是不容易的(因?yàn)橹挥袛?shù)字),所以我們希望能夠把它畫出來(lái)(研究數(shù)值差異和異常的方法就是繪制數(shù)據(jù)的分布程度):

import numpy as npimport scipy.stats as statsimport pylab
data =  np.mat([[1,200,105,3,False],[2,165,80,2,False],[3,184.5,120,2,False],
              [4,116,70.8,1,False],[5,270,150,4,True]])coll = []for row in data:
    coll.append(row[0,1])stats.probplot(coll,plot=pylab)pylab.show()

這個(gè)代碼的結(jié)果就是生成一個(gè)圖:
Python數(shù)據(jù)處理及可視化的示例分析
這樣我們就能清晰的看出來(lái)差異了。

一個(gè)坐標(biāo)圖的要求,就是通過(guò)不同的行和列表現(xiàn)出數(shù)據(jù)的具體值。
當(dāng)然,坐標(biāo)圖我們一樣可以展示:
Python數(shù)據(jù)處理及可視化的示例分析Python數(shù)據(jù)處理及可視化的示例分析

三、深度學(xué)習(xí)理論方法–相似度計(jì)算(可以跳過(guò))

相似度的計(jì)算方法有很多,我們選用最常用的兩種,即歐幾里得相似度和余弦相似度計(jì)算。

1、基于歐幾里得距離的相似度計(jì)算

歐幾里得距離,用來(lái)表示三維空間中兩個(gè)點(diǎn)的真實(shí)距離。公式我們其實(shí)都知道,只是名字聽的少:
Python數(shù)據(jù)處理及可視化的示例分析
那么我們來(lái)看一看它的實(shí)際應(yīng)用:
這個(gè)表格是3個(gè)用戶對(duì)物品的打分:
Python數(shù)據(jù)處理及可視化的示例分析
d12表示用戶1和用戶2的相似度,那么就有:
Python數(shù)據(jù)處理及可視化的示例分析
同理,d13:
Python數(shù)據(jù)處理及可視化的示例分析
可見,用戶2更加相似于用戶1(距離越小,相似度越大)。

2、基于余弦角度的相似度計(jì)算

余弦角度的計(jì)算出發(fā)點(diǎn)是夾角的不同。
Python數(shù)據(jù)處理及可視化的示例分析
Python數(shù)據(jù)處理及可視化的示例分析
可見相對(duì)于用戶3,用戶2與用戶1更為相似(兩個(gè)目標(biāo)越相似,其線段形成的夾角越?。?/mark>

四、數(shù)據(jù)統(tǒng)計(jì)的可視化展示(以我們亳州市降水為例)

數(shù)據(jù)的四分位

四分位數(shù),是統(tǒng)計(jì)學(xué)中分位數(shù)的一種,也就是把數(shù)據(jù)由小到大排列,之后分成四等份,處于三個(gè)分割點(diǎn)位置的數(shù)據(jù),就是四分位數(shù)。
第一四分位數(shù)(Q1),也稱下四分位數(shù);
第二四分位數(shù)(Q1),也稱中位數(shù);
第三四分位數(shù)(Q1),也稱下四分位數(shù);

第三四分位數(shù)與第一四分位數(shù)的差距又稱為四分差距(IQR)。

若n為項(xiàng)數(shù),則:
Q1的位置 = (n+1)*0.25
Q2的位置 = (n+1)*0.50
Q3的位置 = (n+1)*0.75

四分位示例:
關(guān)于這個(gè)rain.csv,有需要的可以私我要文件,我使用的是亳州市2010-2019年的月份降水情況。

from pylab import *import pandas as pdimport matplotlib.pyplot as plot
filepath = ("C:\\Users\\AWAITXM\\Desktop\\rain.csv")# "C:\Users\AWAITXM\Desktop\rain.csv"dataFile = pd.read_csv(filepath)summary = dataFile.describe()print(summary)array = dataFile.iloc[:,:].values
boxplot(array)plot.xlabel("year")plot.ylabel("rain")show()

以下是plot運(yùn)行結(jié)果:
Python數(shù)據(jù)處理及可視化的示例分析
這個(gè)是pandas的運(yùn)行
Python數(shù)據(jù)處理及可視化的示例分析
這里就可以很清晰的看出來(lái)數(shù)據(jù)的波動(dòng)范圍。
可以看出,不同月份的降水量有很大差距,8月最多,1-4月和10-12月最少。

那么每月的降水增減程度如何比較?

from pylab import *import pandas as pdimport matplotlib.pyplot as plot
filepath = ("C:\\Users\\AWAITXM\\Desktop\\rain.csv")# "C:\Users\AWAITXM\Desktop\rain.csv"dataFile = pd.read_csv(filepath)summary = dataFile.describe()minRings = -1maxRings = 99nrows = 11for i in range(nrows):
    dataRow = dataFile.iloc[i,1:13]
    labelColor = ( (dataFile.iloc[i,12] - minRings ) / (maxRings - minRings) )
    dataRow.plot(color = plot.cm.RdYlBu(labelColor),alpha = 0.5)plot.xlabel("Attribute")plot.ylabel(("Score"))show()

結(jié)果如圖:
Python數(shù)據(jù)處理及可視化的示例分析
可以看出來(lái)降水月份并不規(guī)律的上漲或下跌。

那么每月降水是否相關(guān)?

from pylab import *import pandas as pdimport matplotlib.pyplot as plot
filepath = ("C:\\Users\\AWAITXM\\Desktop\\rain.csv")# "C:\Users\AWAITXM\Desktop\rain.csv"dataFile = pd.read_csv(filepath)summary = dataFile.describe()corMat = pd.DataFrame(dataFile.iloc[1:20,1:20].corr())plot.pcolor(corMat)plot.show()

結(jié)果如圖:
Python數(shù)據(jù)處理及可視化的示例分析
可以看出,顏色分布十分均勻,表示沒(méi)有多大的相關(guān)性,因此可以認(rèn)為每月的降水是獨(dú)立行為。

以上是“Python數(shù)據(jù)處理及可視化的示例分析”這篇文章的所有內(nèi)容,感謝各位的閱讀!希望分享的內(nèi)容對(duì)大家有幫助,更多相關(guān)知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!


分享名稱:Python數(shù)據(jù)處理及可視化的示例分析
網(wǎng)站地址:http://weahome.cn/article/pjeico.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部