真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

知否,知否,線性回歸基礎(chǔ)教程值得擁有

1. 介紹

創(chuàng)新互聯(lián)建站專注于中大型企業(yè)的網(wǎng)站設(shè)計(jì)制作、做網(wǎng)站和網(wǎng)站改版、網(wǎng)站營銷服務(wù),追求商業(yè)策劃與數(shù)據(jù)分析、創(chuàng)意藝術(shù)與技術(shù)開發(fā)的融合,累計(jì)客戶成百上千家,服務(wù)滿意度達(dá)97%。幫助廣大客戶順利對接上互聯(lián)網(wǎng)浪潮,準(zhǔn)確優(yōu)選出符合自己需要的互聯(lián)網(wǎng)運(yùn)用,我們將一直專注高端網(wǎng)站設(shè)計(jì)和互聯(lián)網(wǎng)程序開發(fā),在前進(jìn)的路上,與客戶一起成長!

回歸分析是監(jiān)督學(xué)習(xí)的一個(gè)子領(lǐng)域。它的目的是模擬一定數(shù)量的特征與連續(xù)的多個(gè)目標(biāo)變量之間的關(guān)系。

知否,知否,線性回歸基礎(chǔ)教程值得擁有

在回歸問題中,我們試圖給出一個(gè)定量的答案,用來預(yù)測房價(jià)或某人看視頻的時(shí)長。

2. 簡單線性回歸:通過數(shù)據(jù)擬合直線

回歸算法將通過一組"點(diǎn)",來模擬單個(gè)特征(解釋變量x)和其對應(yīng)值(目標(biāo)變量y)之間的關(guān)系。

它將通過設(shè)置任意一條直線并計(jì)算這條直線到數(shù)據(jù)點(diǎn)的距離來實(shí)現(xiàn)。這個(gè)距離,就是垂直線,也是數(shù)據(jù)的殘差或預(yù)測誤差。

回歸算法在每次迭代過程中都會(huì)不斷"挑選"直線,以尋找最優(yōu)擬合直線,即誤差最小的直線。

我們可以通過以下幾種技術(shù)來完成這項(xiàng)任務(wù)。

2.1移動(dòng)線條

知否,知否,線性回歸基礎(chǔ)教程值得擁有

2.1.1技巧一

當(dāng)有一個(gè)點(diǎn)和一條線時(shí),我們的目標(biāo)是讓這條線更接近這一點(diǎn)。在這里我們將使用一個(gè)名為"學(xué)習(xí)率"的參數(shù)。使用學(xué)習(xí)率的目的是讓直線更好的逼近該點(diǎn)。

換句話說,學(xué)習(xí)率將決定每次迭代中直線與該點(diǎn)的距離的長度。它通常用α表示。

知否,知否,線性回歸基礎(chǔ)教程值得擁有

2.1.2技巧二

使用技巧二要基于這樣的前提:如果有一個(gè)點(diǎn)(與現(xiàn)在的點(diǎn)相比)離直線更近,且距離更小,直線就會(huì)向那個(gè)點(diǎn)移動(dòng)。

知否,知否,線性回歸基礎(chǔ)教程值得擁有

3.梯度下降

假設(shè)我們有一組點(diǎn),我們想開發(fā)一個(gè)算法來找到最適合這組點(diǎn)的直線。如前所述,誤差是直線到點(diǎn)的距離。

我們要設(shè)計(jì)不同的直線并計(jì)算誤差。這個(gè)過程重復(fù)了一遍又一遍,不斷減少錯(cuò)誤,直到得到完美的直線。這條完美的直線誤差最小。

為了讓誤差最小化,我們將使用梯度下降法。通過梯度下降法,我們可以在每一步中,觀察直線移動(dòng)的不同方向以減少誤差。

注:梯度(f)為矢量場。當(dāng)它在f域的一個(gè)泛型點(diǎn)上求值時(shí),它表示f域更快變化的方向。

所以梯度下降會(huì)向負(fù)梯度的方向移動(dòng)一步。

知否,知否,線性回歸基礎(chǔ)教程值得擁有

當(dāng)該算法經(jīng)過足夠多的步驟后,它最終將達(dá)到局部或全局的最小值。需要強(qiáng)調(diào)的是,如果學(xué)習(xí)率的值太大,算法就會(huì)丟失最小值,因?yàn)樗牟介L太大。當(dāng)然,如果學(xué)習(xí)率太低,就需要無限長的時(shí)間才能到找到這最小值。

知否,知否,線性回歸基礎(chǔ)教程值得擁有

4. 小批量梯度下降

4.1批量梯度下降

我們對所有數(shù)據(jù)點(diǎn)進(jìn)行平方,會(huì)得到一些要添加到模型權(quán)重中的值,將它們相加,然后用這些值的和更新權(quán)重。

4.2隨機(jī)梯度下降

我們可以一個(gè)點(diǎn)一個(gè)點(diǎn)的進(jìn)行梯度下降。

4.3實(shí)際應(yīng)用中的梯度下降

在實(shí)踐中,這兩種方法都沒有被使用,因?yàn)樗鼈冊谟?jì)算上都很慢。進(jìn)行線性回歸的最佳方法是將數(shù)據(jù)分成許多小批。每個(gè)批次,大約有相同的點(diǎn)數(shù)。然后使用每個(gè)批來更新權(quán)重。這種方法稱為小批量梯度下降法。

5.   高維度

當(dāng)我們有一個(gè)輸入列和一個(gè)輸出列時(shí),我們面對的是一個(gè)二維問題,回歸是一條直線。預(yù)測將是一個(gè)由自變量和常數(shù)組成的值。

如果我們有更多的輸入列,這意味著有更多的維度,而輸出將不再是直線,而是超越二維的一個(gè)"值"(這取決于維度的數(shù)量)。

知否,知否,線性回歸基礎(chǔ)教程值得擁有

6.   多元線性回歸

自變量是我們用來預(yù)測其他變量的變量。我們試圖預(yù)測的變量稱為因變量。

當(dāng)我們發(fā)現(xiàn),我們試圖預(yù)測的結(jié)果不僅僅依賴于變量時(shí),我們可以建立一個(gè)更復(fù)雜的模型來考慮這個(gè)問題。前提是它們與所面臨的問題相關(guān)??偠灾褂酶嗟念A(yù)測變量可以幫助我們獲得更好的結(jié)果。

如下圖所示,這是一個(gè)簡單的線性回歸:

知否,知否,線性回歸基礎(chǔ)教程值得擁有

下圖是一個(gè)具有兩個(gè)特征的多元線性回歸圖。

知否,知否,線性回歸基礎(chǔ)教程值得擁有

隨著我們添加更多的自變量,我們的問題也不再僅僅局限于一個(gè)二維的平面。但問題也暴露了出來,即可視化更加困難。但是這里面的核心思想并未發(fā)生根本性的改變。

7. 關(guān)于線性回歸的幾點(diǎn)建議

不是任何情況都適合用線性回歸。

a)線性回歸在數(shù)據(jù)為線性時(shí)效果最好:

它從訓(xùn)練數(shù)據(jù)中產(chǎn)生一條直線。如果訓(xùn)練數(shù)據(jù)中的關(guān)系不是真正的線性關(guān)系,你將需要進(jìn)行調(diào)整(轉(zhuǎn)換訓(xùn)練數(shù)據(jù))、添加特性或使用其他模型。

b)線性回歸對異常值很敏感:

線性回歸試圖在訓(xùn)練數(shù)據(jù)中找到一條最佳直線。如果數(shù)據(jù)集有一些不符合一般模式的值,線性回歸模型就會(huì)受到離群值的嚴(yán)重影響。我們必須小心對待這些異常值,通過合理的方法剔除它們。

處理異常值,我建議大家使用隨機(jī)抽樣一致算法(RNASAC),它將模型擬合到數(shù)據(jù)的離群值子集中。算法執(zhí)行以下步驟:

  1. 選擇隨機(jī)數(shù)目的樣本作為離群值,并對模型進(jìn)行擬合。
  2. 根據(jù)擬合模型測試所有其他數(shù)據(jù)點(diǎn),并添加屬于用戶所選值的數(shù)據(jù)點(diǎn)。
  3. 用新的點(diǎn)重復(fù)模型的擬合。
  4. 計(jì)算擬合模型對異常值的誤差。
  5. 如果性能滿足用戶的要求或達(dá)到一定的迭代次數(shù)后,則結(jié)束算法。否則,就回到第一步。重復(fù)上述步驟。

8. 多項(xiàng)式回歸

多項(xiàng)式回歸是多元線性回歸分析的一種特殊情況,其中獨(dú)立變量x與因變量y之間的關(guān)系被模擬為x的第n次多項(xiàng)式。換句話說,當(dāng)我們的線性數(shù)據(jù)分布比較復(fù)雜時(shí),我們使用線性模型生成一個(gè)曲線來擬合非線性數(shù)據(jù)。

由預(yù)測變量多項(xiàng)式展開而得到的獨(dú)立(或解釋性)變量已被用來描述非線性現(xiàn)象,如組織成員的增長率和疾病流行的進(jìn)展。

知否,知否,線性回歸基礎(chǔ)教程值得擁有

9. 正則化

正則化是處理過度擬合的一種常用方法。主要通過以下技術(shù)實(shí)現(xiàn):

減少模型的大小:減少模型中可學(xué)習(xí)參數(shù)的數(shù)量,以及它們的學(xué)習(xí)能力。我們的目標(biāo)是在學(xué)習(xí)能力過多和不足之間找到一個(gè)平衡點(diǎn)。不幸的是,沒有任何神奇的公式來確定這種平衡,必須通過設(shè)置不同數(shù)量的參數(shù)并觀察其性能來測試和評估。

添加權(quán)重正則化:一般情況下,模型越簡單越好。因?yàn)橐粋€(gè)簡單的模型過度擬合可能性很低。我們通常使用的方法是,通過強(qiáng)制其權(quán)值只取較小的值來約束網(wǎng)絡(luò)的復(fù)雜性,并對權(quán)值的分布進(jìn)行正則化。這是通過在網(wǎng)絡(luò)的損失函數(shù)中加入與具有較大權(quán)重相關(guān)的成本來實(shí)現(xiàn)的。成本有兩種方式:

L1正則化:成本與權(quán)重系數(shù)值的平方成正比。

L2正則化:成本正比于權(quán)重系數(shù)值的平方。

知否,知否,線性回歸基礎(chǔ)教程值得擁有

為決定其中哪項(xiàng)適用于我們的模型,我們建議你留意以下幾點(diǎn),并考慮問題的具體性質(zhì):

知否,知否,線性回歸基礎(chǔ)教程值得擁有

λ參數(shù):它是通過正則化計(jì)算的誤差。如果我們有一個(gè)很大的λ,那么我們就是在"懲罰"復(fù)雜性,最終會(huì)得到一個(gè)更簡單的模型。如果我們有一個(gè)小的λ,我們最終會(huì)得到一個(gè)復(fù)雜的模型。

10. 評價(jià)指標(biāo)

為了跟蹤模型的執(zhí)行情況,我們需要設(shè)置一些評估指標(biāo)。對評估指標(biāo)的度量是從生成的線到實(shí)點(diǎn)的誤差,它是通過梯度下降來使函數(shù)最小化。

處理線性回歸時(shí),你可能會(huì)面臨以下幾點(diǎn)問題:

10.1平均絕對誤差:

知否,知否,線性回歸基礎(chǔ)教程值得擁有

平均絕對誤差,即真實(shí)數(shù)據(jù)點(diǎn)與預(yù)測結(jié)果的絕對差的平均值。如果我們這樣做,梯度下降的每一步都會(huì)減少平均絕對誤差值。

知否,知否,線性回歸基礎(chǔ)教程值得擁有

10.2均方誤差:

知否,知否,線性回歸基礎(chǔ)教程值得擁有

均方誤差(MSE)是實(shí)際數(shù)據(jù)點(diǎn)與預(yù)測結(jié)果之間平方差的平均值。這種方法的懲罰越大,距離越大。

如果我們將此作為策略遵循,梯度下降的每一步將減少M(fèi)SE。這將是計(jì)算最佳擬合線的首選方法,也稱為普通最小二乘法。

知否,知否,線性回歸基礎(chǔ)教程值得擁有

10.3確定系數(shù)或R平方

確定系數(shù)可以理解為MSE的標(biāo)準(zhǔn)化版本,它提供了對模型性能的更好解釋。

從技術(shù)上講,R平方是模型捕捉到的方差的一部分,換句話說,它就是方差。它的定義是:

知否,知否,線性回歸基礎(chǔ)教程值得擁有

11.其他的算法

盡管本文主要關(guān)注線性和多元回歸模型,但在流行的機(jī)器學(xué)習(xí)庫Sci-kit learn中,幾乎每種算法都適用。其中一些甚至產(chǎn)生了非常好的結(jié)果。

一些例子:

  • 決策樹回歸
  • 隨機(jī)森林回歸
  • 支持向量回歸
  • 套索算法
  • 彈性網(wǎng)絡(luò)
  • 梯度提升回歸
  • Ada Boost回歸

12. 結(jié)論

在本文中,我們已經(jīng)介紹了回歸模型的基礎(chǔ)知識(shí),了解了它們的工作原理、常見問題以及如何處理它們。我們還了解了什么是最常見的評估指標(biāo)。

作者——Victor Roman

來源:https://towardsdatascience.com/supervised-learning-basics-of-linear-regression-1cbab48d0eba


網(wǎng)頁題目:知否,知否,線性回歸基礎(chǔ)教程值得擁有
轉(zhuǎn)載來源:http://weahome.cn/article/iedpgc.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部