變量之間存在著相關(guān)關(guān)系,比如,人的身高和體重之間存在著關(guān)系,一般來說,人高一些,體重要重一些,身高和體重之間存在的是不確定性的相關(guān)關(guān)系?;貧w分析是研究相關(guān)關(guān)系的一種數(shù)學(xué)工具,它能幫助我們從一個變量的取值區(qū)估計另一個變量的取值。
OLS(最小二乘法)主要用于線性回歸的參數(shù)估計,它的思路很簡單,就是求一些使得實際值和模型估值之差的平方和達(dá)到最小的值,將其作為參數(shù)估計值。就是說,通過最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配。利用最小二乘法可以簡便地求得未知的數(shù)據(jù),并使得這些求得的數(shù)據(jù)與實際數(shù)據(jù)之間誤差的平方和為最小。最小二乘法可用于曲線擬合,其他一些優(yōu)化問題也可通過最小化能量或大化熵用最小二乘法來表達(dá)。
一,OLS回歸
OLS法通過一系列的預(yù)測變量來預(yù)測響應(yīng)變量(也可以說是在預(yù)測變量上回歸響應(yīng)變量)。線性回歸是指對參數(shù)β為線性的一種回歸(即參數(shù)只以一次方的形式出現(xiàn))模型:
Yt=α+βxt+μt (t=1……n)表示觀測數(shù)
Yt 被稱作因變量
xt 被稱作自變量
α、β 為需要最小二乘法去確定的參數(shù),或稱回歸系數(shù)
μt 為隨機誤差項
OLS線性回歸的基本原則:最優(yōu)擬合曲線應(yīng)該使各點到直線的距離的平方和(即殘差平方和,簡稱RSS)最?。?/p>
OLS線性回歸的目標(biāo)是通過減少響應(yīng)變量的真實值與預(yù)測值的差值來獲得模型參數(shù)(截距項和斜率),就是使RSS最小。
為了能夠恰當(dāng)?shù)亟忉孫LS模型的系數(shù),數(shù)據(jù)必須滿足以下統(tǒng)計假設(shè):
正態(tài)性:對于固定的自變量值,因變量值成正太分布
獨立性:個體之間相互獨立
線性相關(guān):因變量和自變量之間為線性相關(guān)
同方差性:因變量的方差不隨自變量的水平不同而變化,即因變量的方差是不變的
二,用lm()擬合回歸模型
在R中,擬合回歸模型最基本的函數(shù)是lm(),格式為:
lm(formula, data)
formula中的符號注釋:
~ 分割符號,左邊為因變量,右邊為自變量,例如, z~x+y,表示通過x和y來預(yù)測z
+ 分割預(yù)測變量
: 表示預(yù)測變量的交互項,例如,z~x+y+x:y
* 表示所有可能的交互項,例如,z~x*y 展開為 z~x+y+x:y
^ 表示交互項的次數(shù),例如,z ~ (x+y)^2,展開為z~x+y+x:y
. 表示包含除因變量之外的所有變量,例如,如果只有三個變量x,y和z,那么代碼 z~. 展開為z~x+y+x:y
-1 刪除截距項,強制回歸的直線通過原點
I() 從算術(shù)的角度來解釋括號中的表達(dá)式,例如,z~y+I(x^2) 表示的擬合公式是 z=a+by+cx2
function 可以在表達(dá)式中應(yīng)用數(shù)學(xué)函數(shù),例如,log(z) ~x+y
對于擬合后的模型(lm函數(shù)返回的對象),可以應(yīng)用下面的函數(shù),得到模型的更多額外的信息。
summary() 展示擬合模型的詳細(xì)結(jié)果
coefficients() 列出捏模型的參數(shù)(截距項intercept和斜率)
confint() 提供模型參數(shù)的置信區(qū)間
residuals() 列出擬合模型的殘差值
fitted() 列出擬合模型的預(yù)測值
anova() 生成一個擬合模型的方差分析表
predict() 用擬合模型對新的數(shù)據(jù)預(yù)測響應(yīng)變量
學(xué)習(xí)交流群483787113;進(jìn)群暗號櫻桃