這篇文章將為大家詳細(xì)講解有關(guān)Python中多元線性回歸的示例分析,小編覺得挺實(shí)用的,因此分享給大家做個(gè)參考,希望大家閱讀完這篇文章后可以有所收獲。
成都創(chuàng)新互聯(lián)制作網(wǎng)站網(wǎng)頁找三站合一網(wǎng)站制作公司,專注于網(wǎng)頁設(shè)計(jì),網(wǎng)站建設(shè)、成都網(wǎng)站建設(shè),網(wǎng)站設(shè)計(jì),企業(yè)網(wǎng)站搭建,網(wǎng)站開發(fā),建網(wǎng)站業(yè)務(wù),680元做網(wǎng)站,已為數(shù)千家服務(wù),成都創(chuàng)新互聯(lián)網(wǎng)站建設(shè)將一如既往的為我們的客戶提供最優(yōu)質(zhì)的網(wǎng)站建設(shè)、網(wǎng)絡(luò)營(yíng)銷推廣服務(wù)!1.觀察數(shù)據(jù)
首先,用Pandas打開數(shù)據(jù),并進(jìn)行觀察。
import numpy import pandas as pd import matplotlib.pyplot as plt %matplotlib inline data = pd.read_csv('Folds5x2_pp.csv') data.head()
會(huì)看到數(shù)據(jù)如下所示:
這份數(shù)據(jù)代表了一個(gè)循環(huán)發(fā)電廠,每個(gè)數(shù)據(jù)有5列,分別是:AT(溫度), V(壓力), AP(濕度), RH(壓強(qiáng)), PE(輸出電力)。我們不用糾結(jié)于每項(xiàng)具體的意思。
我們的問題是得到一個(gè)線性的關(guān)系,對(duì)應(yīng)PE是樣本輸出,而AT/V/AP/RH這4個(gè)是樣本特征, 機(jī)器學(xué)習(xí)的目的就是得到一個(gè)線性回歸模型,即: PE=θ0+θ1?AT+θ2?V+θ3?AP+θ4?RH 而需要學(xué)習(xí)的,就是θ0,θ1,θ2,θ3,θ4這5個(gè)參數(shù)。
接下來對(duì)數(shù)據(jù)進(jìn)行歸一化處理:
data = (data - data.mean())/data.std()
因?yàn)榛貧w線的截距θ0是不受樣本特征影響的,因此我們?cè)诖丝梢栽O(shè)立一個(gè)X0=1,使得回歸模型為:
PE=θ0*X0+θ1?AT+θ2?V+θ3?AP+θ4?RH
將方程向量化可得:
PE = hθ(x) = θx (θ應(yīng)轉(zhuǎn)置)
2.線性回歸
在線性回歸中,首先應(yīng)建立 cost function,當(dāng) cost function 的值最小時(shí)所取得θ值為所求的θ。
在線性回歸中,Cost function如下所示:
因此,可以在Python中建立函數(shù)求損失方程:
def CostFunction(X,y,theta): inner = np.power((X*theta.T)-y,2) return np.sum(inner)/(2*len(X))
然后,設(shè)初始θ為=[0,0,0,0,0],可得到最初的J(θ)值為0.49994774247491858,代碼如下所示
col = data.shape[1] X = data.iloc[:,0:col-1] y = data.iloc[:,col-1:col] X = np.matrix(X.values) y = np.matrix(y.values) theta = np.matrix(np.array([0,0,0,0,0])) temp = np.matrix(np.zeros(theta.shape)) CostFunction(X,y,theta)
接下來,有兩種方法可以使用。1.梯度下降法(gradient descent)和 2.最小二乘法(normal equation)。在此我們使用梯度下降法來求解。
梯度下降法是求得J對(duì)θ的偏導(dǎo)數(shù),通過設(shè)置步長(zhǎng),迭代使J(θ)逐步下降,從而求得局部最優(yōu)解。
公式如下所示:
j:特征編號(hào)
m:樣本編號(hào)
我們可以在Python中寫出計(jì)算迭代后的θ和J(θ)
def gradientDescent(X,y,theta,alpha,iters): temp = np.matrix(np.zeros(theta.shape)) parameters = int(theta.ravel().shape[1]) cost = np.zeros(iters) for i in range(iters): error = (X*theta.T)-y for j in range(parameters): term = np.multiply(error,X[:,j]) temp[0,j] = theta[0,j] - (alpha/len(X))*np.sum(term) theta = temp cost[i] = CostFunction(X,y,theta) return theta,cost
在此,我設(shè)置初始的α為0.1,可求得迭代1000次后θ0,θ1,θ2,θ3,θ4的值分別是:
-5.22080706e-14,-8.63485491e-01,-1.74182863e-01,2.16058120e-02,-1.35205248e-01
此時(shí) J(θ)的值為0.0379648。
通過,可視化J(θ)和迭代次數(shù)可以發(fā)現(xiàn),J(θ)收斂的非常快。
畫圖觀察預(yù)測(cè)值和損失值,距離直線約近說明損失越?。?/p>
predicted = X*g.T predicted = predicted.flatten().A[0] y_f= y.flatten().A[0] fig, ax = plt.subplots() ax.scatter(y_f,predicted) ax.plot([y.min(), y.max()], [y.min(), y.max()], 'k--', lw=4) ax.set_xlabel('Measured') ax.set_ylabel('Predicted') plt.show()
3.sckit-learn
因?yàn)镴(θ)收斂的太快了…所以我又用sckit-learn和SPSS驗(yàn)證了一下。
先看sckit-learn,在sklearn中,線性回歸是使用的最小二乘法而不是梯度下降法,用起來也十分的簡(jiǎn)單。
代碼如下:
from sklearn import linear_model model = linear_model.LinearRegression() model.fit(X, y)
打印出θ值后發(fā)現(xiàn)和梯度下降法算出來的相差無幾,θ0,θ1,θ2,θ3,θ4的值分別是:
0,-0.86350078,-0.17417154,0.02160293,-0.13521023
4.SPSS
在看看SPSS
同樣先將數(shù)據(jù)標(biāo)準(zhǔn)化后進(jìn)行線
然后進(jìn)行線性回歸分析得到結(jié)果:
關(guān)于“Python中多元線性回歸的示例分析”這篇文章就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,使各位可以學(xué)到更多知識(shí),如果覺得文章不錯(cuò),請(qǐng)把它分享出去讓更多的人看到。
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國(guó)服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡(jiǎn)單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢(shì),專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場(chǎng)景需求。