這篇文章主要講解了“如何在Python中編程線性回歸模型”,文中的講解內(nèi)容簡單清晰,易于學(xué)習(xí)與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學(xué)習(xí)“如何在Python中編程線性回歸模型”吧!
為江北等地區(qū)用戶提供了全套網(wǎng)頁設(shè)計制作服務(wù),及江北網(wǎng)站建設(shè)行業(yè)解決方案。主營業(yè)務(wù)為成都網(wǎng)站設(shè)計、做網(wǎng)站、江北網(wǎng)站設(shè)計,以傳統(tǒng)方式定制建設(shè)網(wǎng)站,并提供域名空間備案等一條龍服務(wù),秉承以專業(yè)、用心的態(tài)度為用戶提供真誠的服務(wù)。我們深信只要達(dá)到每一位用戶的要求,就會得到認(rèn)可,從而選擇與我們長期合作。這樣,我們也可以走得更遠(yuǎn)!
可解釋性是機(jī)器學(xué)習(xí)中最大的挑戰(zhàn)之一。如果一個模型的決策更容易讓人理解,那么它的解釋性就會比另一個模型高。有些模型是如此復(fù)雜,并且內(nèi)部結(jié)構(gòu)如此復(fù)雜,以至于幾乎無法理解它們是如何達(dá)到最終結(jié)果的。這些黑匣子似乎打破了原始數(shù)據(jù)和最終輸出之間的關(guān)聯(lián),因為它們之間發(fā)生了多個過程。
但是在機(jī)器學(xué)習(xí)算法領(lǐng)域,某些模型比其他模型更透明。 決策樹 絕對是其中之一,而線性回歸模型又是其中之一。它們的簡單和直接的方法使它們成為解決不同問題的理想工具。讓我們看看如何。
您可以使用線性回歸模型來分析給定地點(diǎn)的薪水如何取決于經(jīng)驗,學(xué)歷,職位,所工作的城市等特征。同樣,您可以分析房地產(chǎn)價格是否取決于面積,臥室數(shù)量或距市中心的距離等因素。
當(dāng)輸出變量(目標(biāo))只有一個輸入變量(預(yù)測變量)時,這是最簡單的線性回歸形式:
輸入 或 預(yù)測變量 是變量,可幫助預(yù)測輸出變量的值。它通常被稱為 X。
輸出 或 目標(biāo)變量 是我們要預(yù)測的變量。通常稱為 y。
β0的值( 也稱為截距)顯示估算的回歸線與y 軸交叉的點(diǎn) ,而β1 的值 確定 估算的回歸線的斜率。的 隨機(jī)誤差 描述因變量和自變量(該模型的擾動,部分之間的線性關(guān)系的隨機(jī)分量 ? 該 X 無法解釋)。真正的回歸模型通常是未知的(因為我們無法捕獲影響因變量的所有影響),因此與觀察到的數(shù)據(jù)點(diǎn)相對應(yīng)的隨機(jī)誤差項的值仍然未知。但是,可以通過為觀察到的數(shù)據(jù)集計算模型的參數(shù)來估計回歸模型。
回歸背后的想法是 從樣本中估計參數(shù) β0 和 β1。如果我們能夠確定這兩個參數(shù)的最佳值,則在給定X的值的情況下,我們將具有 最佳擬合線, 可用于預(yù)測 y的值 。換句話說,我們嘗試擬合一條線以觀察輸入變量和輸出變量之間的關(guān)系,然后進(jìn)一步使用它來預(yù)測未見輸入的輸出。
我們?nèi)绾喂烙?nbsp;β0 和 β1?我們可以使用一種稱為 普通最小二乘(OLS)的方法。 這樣做的目的是使黑點(diǎn)到紅線的距離盡可能接近零,這是通過最小化實(shí)際結(jié)果與預(yù)測結(jié)果之間的平方差來實(shí)現(xiàn)的。
實(shí)際值和預(yù)測值之間的差異稱為 殘差(e) ,取決于模型是高估還是低估了結(jié)果,可以是負(fù)值或正值。因此,為了計算凈誤差,直接將所有殘差相加會導(dǎo)致項的抵消和凈效應(yīng)的減小。為了避免這種情況,我們采用這些誤差項的平方和,稱為 殘差平方和(RSS)。
普通最小二乘法(OLS)方法最小化的平方的總和殘留,其目的在于以適合的回歸直線,將最小化來自觀測值的距離(以二次值測量)到預(yù)測者(回歸線)。
是 存在兩個或多個預(yù)測變量或輸入變量時使用的線性回歸形式。與之前描述的SLR模型類似,它包含其他預(yù)測變量:
注意,該方程只是簡單線性回歸方程的一種擴(kuò)展,其中每個輸入/預(yù)測變量都有其對應(yīng)的斜率系數(shù) (β )。第一個 β 項 (β0) 是截距常數(shù),是 在沒有所有預(yù)測變量的情況下(即,當(dāng)所有 X 項均為0時)的y值 。
隨著功能部件數(shù)量的增加,我們模型的復(fù)雜性也隨之增加,并且更加難以可視化甚至理解我們的數(shù)據(jù)。由于與SLR相比,這些模型中的參數(shù)更多,因此需要更多注意。與他們一起工作時。添加更多術(shù)語會從本質(zhì)上改善數(shù)據(jù)的擬合度,但是新術(shù)語可能沒有任何實(shí)際意義。這很危險,因為它可能會導(dǎo)致模型適合該數(shù)據(jù),但實(shí)際上并不意味著有用。
廣告數(shù)據(jù)集包括產(chǎn)品在200個不同市場中的銷售以及三種不同媒體(電視,廣播和報紙)的廣告預(yù)算。我們將使用數(shù)據(jù)集根據(jù)電視,廣播和報紙的廣告預(yù)算(自變量)來預(yù)測銷售量(自變量)。
在數(shù)學(xué)上,我們將嘗試解決的公式是:
通過最小化誤差函數(shù)并擬合最佳直線或超平面(取決于輸入變量的數(shù)量),回歸模型可以找到這些常數(shù)(β)的值 。讓我們編碼。
在加載數(shù)據(jù)之前,我們將導(dǎo)入必要的庫:
import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt from sklearn.model_selection import train_test_split from sklearn.linear_model import LinearRegression from sklearn import metrics from sklearn.metrics import r2_score import statsmodels.api as sm
現(xiàn)在我們加載數(shù)據(jù)集:
df = pd.read_csv(“Advertising.csv”)
讓我們了解數(shù)據(jù)集并對其進(jìn)行描述:
df.head()
由于不需要它,我們將刪除第一列(“未命名”):
df = df.drop([‘Unnamed: 0’], axis=1) df.info()
現(xiàn)在,我們的數(shù)據(jù)集包含4列(包括目標(biāo)變量“ sales”),200個寄存器,并且沒有缺失值。讓我們可視化自變量和目標(biāo)變量之間的關(guān)系。
sns.pairplot(df)
電視與銷售之間的關(guān)系似乎很牢固,雖然廣播與銷售之間似乎存在某種趨勢,但報紙與銷售之間的關(guān)系似乎不存在。我們也可以通過相關(guān)圖來數(shù)值驗證:
mask = np.tril(df.corr()) sns.heatmap(df.corr(), fmt=’.1g’, annot=True, cmap= ‘cool’, mask=mask)
正如我們預(yù)期的那樣,最強(qiáng)的正相關(guān)關(guān)系發(fā)生在銷售和電視之間,而銷售和報紙之間的關(guān)系則接近于0。
接下來,我們將變量分為兩組:因變量(或目標(biāo)變量“ y”)和獨(dú)立變量(或特征變量“ X”)
X = df.drop([‘sales’], axis=1) y = df[‘sales’]
為了了解模型的性能,將數(shù)據(jù)集分為訓(xùn)練集和測試集是一個很好的策略。通過將數(shù)據(jù)集分為兩個單獨(dú)的集合,我們可以使用一個集合進(jìn)行訓(xùn)練,而使用另一集合中的看不見的數(shù)據(jù)來測試模型的性能。
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)
我們將數(shù)據(jù)集分為70%訓(xùn)練和30%測試。random_state參數(shù)用于初始化內(nèi)部隨機(jī)數(shù)生成器,它將根據(jù)您的情況決定將數(shù)據(jù)拆分為訓(xùn)練索引和測試索引。我將隨機(jī)狀態(tài)設(shè)置為0,以便您可以使用同一參數(shù)在多個代碼運(yùn)行中比較輸出。
print(X_train.shape,y_train.shape,X_test.shape,y_test.shape)
通過打印分割集的形狀,我們看到我們創(chuàng)建了:
2個數(shù)據(jù)集,每個140個寄存器(占總寄存器的70%),一個包含3個獨(dú)立變量,一個僅包含目標(biāo)變量的數(shù)據(jù)集,將用于 訓(xùn)練 和生成線性回歸模型。
2個數(shù)據(jù)集,每個數(shù)據(jù)集60個寄存器(占總寄存器的30%),一個數(shù)據(jù)集包含3個獨(dú)立變量,一個僅包含目標(biāo)變量,這些數(shù)據(jù)集將用于 測試 線性回歸模型的性能。
建立模型非常簡單:
mlr = LinearRegression()
使模型適合訓(xùn)練數(shù)據(jù)代表了建模過程中的訓(xùn)練部分。訓(xùn)練后,可以使用預(yù)測方法調(diào)用該模型來進(jìn)行預(yù)測:
mlr.fit(X_train, y_train)coeff_df = pd.DataFrame(mlr.coef_, X.columns, columns =[‘Coefficient’]) coeff_df
讓我們看一下訓(xùn)練后模型的輸出,并看一下β0的值 (截距):
mlr.intercept_
我們還可以打印系數(shù)(β)的值 :
coeff_df = pd.DataFrame(mlr.coef_, X.columns, columns =[‘Coefficient’]) coeff_df
這樣,我們現(xiàn)在可以根據(jù)電視,廣播和報紙的不同預(yù)算值來估算“銷售”的價值:
例如,如果我們確定電視的預(yù)算值為50,廣播的預(yù)算值為30,報紙的預(yù)算值為10,則“銷售”的估算值將為:
example = [50, 30, 10] output = mlr.intercept_ + sum(example*mlr.coef_) output
測試數(shù)據(jù)集是獨(dú)立于訓(xùn)練數(shù)據(jù)集的數(shù)據(jù)集。該測試數(shù)據(jù)集是您模型的看不見的數(shù)據(jù)集,有助于您更好地了解其概括能力:
y_pred = mlr.predict(X_test)
模型的質(zhì)量與預(yù)測與測試數(shù)據(jù)集的實(shí)際值的匹配程度有關(guān):
print(‘Mean Absolute Error:’, metrics.mean_absolute_error(y_test, y_pred)) print(‘Mean Squared Error:’, metrics.mean_squared_error(y_test, y_pred)) print(‘Root Mean Squared Error:’, np.sqrt(metrics.mean_squared_error(y_test, y_pred))) print(‘R Squared Score is:’, r2_score(y_test, y_pred))
在根據(jù)測試集驗證我們的模型后,我們得到的R2為0.86,這似乎是相當(dāng)不錯的性能得分。但是,盡管較高的R2表示更適合該模型,但并非總是如此。我們將在下面看到一些解釋和改進(jìn)回歸模型的方法。
好的,我們創(chuàng)建了模型,現(xiàn)在呢?讓我們看一下訓(xùn)練數(shù)據(jù)上的模型統(tǒng)計信息,以獲得一些答案:
X2 = sm.add_constant(X_train) model_stats = sm.OLS(y_train.values.reshape(-1,1), X2).fit() model_stats.summary()
下面讓我們看看這些數(shù)字的含義。
運(yùn)行MLR模型時,您應(yīng)該回答的基本問題之一是, 至少有一個預(yù)測變量對預(yù)測輸出有用。如果自變量和目標(biāo)之間的關(guān)系僅僅是偶然的,并且由于任何預(yù)測因素而對銷售沒有實(shí)際影響,該怎么辦?
我們需要執(zhí)行假設(shè)檢驗來回答這個問題并檢查我們的假設(shè)。這一切都始于形成一個 零假設(shè)(H0),該假設(shè)指出所有系數(shù)都等于零,并且預(yù)測變量和目標(biāo)變量之間沒有關(guān)系(這意味著沒有自變量的模型既適合數(shù)據(jù)又適合您的模型):
另一方面,我們需要定義 替代假設(shè)(Ha),該假設(shè)指出至少一個系數(shù)不為零,并且預(yù)測變量和目標(biāo)之間存在關(guān)系(這意味著模型比截距更適合數(shù)據(jù)僅限型號):
如果我們想拒絕零假設(shè)并對我們的回歸模型有信心,我們需要找到有力的統(tǒng)計證據(jù)。為此,我們執(zhí)行假設(shè)檢驗,為此我們使用 F統(tǒng)計量。
如果F統(tǒng)計量的值等于或非常接近1,則結(jié)果支持零假設(shè),我們無法拒絕它。
正如我們在上表中看到的(以黃色標(biāo)記),F(xiàn)統(tǒng)計量為439.9,因此有力地證明了零假設(shè)(所有系數(shù)均為零)。接下來,我們還需要 在原假設(shè)為真(8.76e-70)(小于1%的極小的數(shù)字)的假設(shè)下,檢查 F統(tǒng)計量(也用黃色標(biāo)記)的發(fā)生概率。這意味著在有效的Null假設(shè)的假設(shè)下,偶然發(fā)生F統(tǒng)計量439.9的可能性要小于1%。
話雖如此,我們可以否定零假設(shè),并相信至少有一個預(yù)測變量可用于預(yù)測輸出。
運(yùn)行包含許多不相關(guān)變量的線性回歸模型將導(dǎo)致不必要的復(fù)雜模型。哪些預(yù)測指標(biāo)很重要?它們對我們的模型都重要嗎?為了找出答案,我們需要執(zhí)行一個稱為功能選擇的過程 。 特征選擇的2種主要方法是:
正向選擇: 從與變量相關(guān)性最高的預(yù)測變量開始,一次添加一個預(yù)測變量。然后,將具有更大理論重要性的變量順序合并到模型中,直到達(dá)到停止規(guī)則為止。
向后消除: 從模型中的所有變量開始,然后刪除統(tǒng)計上意義最小的變量(較大的p值),直到達(dá)到停止規(guī)則為止。
盡管兩種方法都可以使用,但是除非預(yù)測變量的數(shù)量大于樣本大?。ɑ蚴录臄?shù)量),否則通常首選使用向后消除方法。
由于線性回歸模型是任何事件的長期序列的近似,因此它們需要對它們表示的數(shù)據(jù)進(jìn)行一些假設(shè)才能保持適當(dāng)。大多數(shù)統(tǒng)計檢驗都依賴于有關(guān)分析中使用的變量的某些假設(shè),如果不滿足這些假設(shè),則結(jié)果可能不可信(例如,導(dǎo)致I型或II型錯誤)。
從輸出是輸入變量的線性組合的意義上講,線性回歸模型是線性的,并且僅適用于對線性可分離數(shù)據(jù)進(jìn)行建模。線性回歸模型在各種假設(shè)下工作,這些假設(shè)必須存在才能產(chǎn)生適當(dāng)?shù)墓烙嫞粌H僅是依賴于準(zhǔn)確性得分:
線性:特征與目標(biāo)之間的關(guān)系必須是線性的。檢查線性關(guān)系的一種方法是目視檢查散點(diǎn)圖的線性。如果散點(diǎn)圖中顯示的關(guān)系不是線性的,那么我們需要運(yùn)行非線性回歸或轉(zhuǎn)換數(shù)據(jù)。
均方差:對于任何x值,殘差的方差必須相同。多元線性回歸假設(shè)殘差的誤差量在線性模型的每個點(diǎn)都相似。這種情況稱為同調(diào)。散點(diǎn)圖是檢查數(shù)據(jù)是否為同方差的好方法,并且還存在一些測試以數(shù)值驗證該假設(shè)(例如,Goldfeld-Quandt,Breusch-Pagan,White)
無多重共線性: 數(shù)據(jù)不應(yīng)顯示多重共線性,當(dāng)自變量(解釋變量)彼此高度相關(guān)時,就會發(fā)生多重共線性。如果發(fā)生這種情況,將很難找出導(dǎo)致因變量/目標(biāo)變量差異的特定變量??梢允褂梅讲钆蛎浺蜃樱╒IF)方法或通過相關(guān)矩陣來檢驗此假設(shè)。解決此問題的替代方法可能是將數(shù)據(jù)居中(扣除平均得分),或進(jìn)行因子分析并旋轉(zhuǎn)因子以確保線性回歸分析中因子的獨(dú)立性。
無自相關(guān):殘差的值應(yīng)彼此獨(dú)立。殘差中存在相關(guān)性會大大降低模型的準(zhǔn)確性。如果誤差項相關(guān),則估計的標(biāo)準(zhǔn)誤差往往會低估真實(shí)的標(biāo)準(zhǔn)誤差。要測試此假設(shè),可以使用Durbin-Watson統(tǒng)計信息。
殘差的正態(tài)性:殘差必須正態(tài)分布??梢允褂脭M合優(yōu)度檢驗(例如Kolmogorov-Smirnov或Shapiro-Wilk檢驗)來檢查正態(tài)性,如果數(shù)據(jù)不是正態(tài)分布的,則非線性轉(zhuǎn)換(例如對數(shù)轉(zhuǎn)換)可以解決此問題。
假設(shè)是至關(guān)重要的,因為如果假設(shè)無效,那么分析過程將被認(rèn)為是不可靠,不可預(yù)測且不受控制的。不符合這些假設(shè)會導(dǎo)致得出無效的結(jié)論或數(shù)據(jù)在科學(xué)上沒有依據(jù)。
盡管MLR模型擴(kuò)展了SLR模型的范圍,但它們?nèi)匀皇蔷€性模型,這意味著模型中包含的術(shù)語無法顯示彼此之間的任何非線性關(guān)系或表示任何種類的非線性趨勢。在預(yù)測要素的觀察范圍之外的點(diǎn)時也應(yīng)小心,因為變量之間的關(guān)系可能會隨著您移出觀察范圍而改變(這是您沒有數(shù)據(jù)的原因而無法知道的事實(shí))。
觀察到的關(guān)系可能是局部線性的,但是在數(shù)據(jù)的外部范圍上可能存在未觀察到的非線性關(guān)系。
線性模型還可以 通過包含非線性變量(例如多項式)和變換指數(shù)函數(shù)來對曲率建模。線性回歸方程的參數(shù)是 線性的 ,這意味著您可以通過指數(shù)增加自變量以擬合曲線,但仍保留在“線性世界”中。線性回歸模型可以包含對數(shù)項和逆項,以遵循不同類型的曲線,但參數(shù)仍保持線性。
盡管自變量是平方的,但是模型的參數(shù)仍然是線性的
諸如多項式回歸之類的 回歸 可以對非線性關(guān)系進(jìn)行建模 ,而線性方程式具有一種基本形式,而非線性方程式可以采用許多不同形式。您可能會考慮使用 非線性回歸模型的原因 是,盡管線性回歸可以對曲線進(jìn)行建模,但它可能無法對數(shù)據(jù)中存在的特定曲線進(jìn)行建模。
您還應(yīng)該知道,OLS并不是擬合線性回歸模型的唯一方法,而其他優(yōu)化方法(如 Gradient Descent) 更適合于大型數(shù)據(jù)集。將OLS應(yīng)用于復(fù)雜和非線性算法可能無法擴(kuò)展,并且Gradient Descent在計算上可能更便宜(更快)以找到解決方案。 梯度下降(Gradient Descent)是一種使函數(shù)最小化的算法,并且在給定由一組參數(shù)定義的函數(shù)的情況下,該算法從一組初始參數(shù)值開始,然后逐步向一組參數(shù)值最小化該函數(shù)。這個 迭代最小化 是使用衍生物來實(shí)現(xiàn),以在功能梯度的負(fù)方向的步驟。
使用梯度下降的線性回歸
要考慮的另一項關(guān)鍵是, 離群值會對回歸線和相關(guān)系數(shù)產(chǎn)生巨大影響 。為了識別它們,執(zhí)行 探索性數(shù)據(jù)分析(EDA),檢查數(shù)據(jù)以檢測異常觀察非常重要,因為它們會以極大的方式影響我們的分析和統(tǒng)計建模的結(jié)果。如果您識別出任何異常,則可以對異常值進(jìn)行估算(例如,使用均值/中位數(shù)/眾數(shù)),設(shè)置上限(替換超出某些限制的那些值)或替換為缺失值并進(jìn)行預(yù)測。
最后,線性回歸模型的一些 局限性 是:
省略的變量。必須有一個良好的理論模型來提出解釋因變量的變量。在簡單的二變量回歸的情況下,必須考慮可能解釋因變量的其他因素,因為可能會有其他“未觀察到的”變量解釋輸出。
反向因果關(guān)系。許多理論模型都預(yù)測雙向因果關(guān)系-即因變量可能導(dǎo)致一個或多個解釋變量發(fā)生變化。例如,更高的收入可能使人們能夠?qū)ψ约旱慕逃M(jìn)行更多的投資,從而增加了他們的收入。這使估計回歸的方式變得復(fù)雜,需要特殊的技術(shù)。
測量錯誤。可能會錯誤地評估因素。例如,能力很難測量,并且智商測試存在眾所周知的問題。結(jié)果,使用智商的回歸可能無法適當(dāng)?shù)乜刂撇拍?,?dǎo)致教育和收入等變量之間的關(guān)系不準(zhǔn)確或有偏見。
焦點(diǎn)太有限了?;貧w系數(shù)僅提供有關(guān)一個變量中的微小變化(而不是大變化)與另一變量中的變化之間的關(guān)系的信息。它會顯示出教育的微小變化可能會如何影響收入,但不會使研究人員對較大變化的影響進(jìn)行概括。如果每個人都同時接受大學(xué)教育,那么剛畢業(yè)的大學(xué)畢業(yè)生就不太可能賺更多的錢,因為大學(xué)畢業(yè)生的總供應(yīng)量將大大增加。
感謝各位的閱讀,以上就是“如何在Python中編程線性回歸模型”的內(nèi)容了,經(jīng)過本文的學(xué)習(xí)后,相信大家對如何在Python中編程線性回歸模型這一問題有了更深刻的體會,具體使用情況還需要大家實(shí)踐驗證。這里是創(chuàng)新互聯(lián),小編將為大家推送更多相關(guān)知識點(diǎn)的文章,歡迎關(guān)注!