本篇文章給大家分享的是有關(guān)大數(shù)據(jù)多重共線性問題該如何解決,小編覺得挺實(shí)用的,因此分享給大家學(xué)習(xí),希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。
成都創(chuàng)新互聯(lián)公司公司2013年成立,公司以成都做網(wǎng)站、網(wǎng)站建設(shè)、外貿(mào)營銷網(wǎng)站建設(shè)、系統(tǒng)開發(fā)、網(wǎng)絡(luò)推廣、文化傳媒、企業(yè)宣傳、平面廣告設(shè)計(jì)等為主要業(yè)務(wù),適用行業(yè)近百種。服務(wù)企業(yè)客戶上1000家,涉及國內(nèi)多個(gè)省份客戶。擁有多年網(wǎng)站建設(shè)開發(fā)經(jīng)驗(yàn)。為企業(yè)提供專業(yè)的網(wǎng)站建設(shè)、創(chuàng)意設(shè)計(jì)、宣傳推廣等服務(wù)。 通過專業(yè)的設(shè)計(jì)、獨(dú)特的風(fēng)格,為不同客戶提供各種風(fēng)格的特色服務(wù)。
在進(jìn)行線性回歸分析時(shí),容易出現(xiàn)自變量(解釋變量)之間彼此相關(guān),這種情況被稱作多重共線性問題。
適度的多重共線性不成問題,但當(dāng)出現(xiàn)嚴(yán)重共線性問題時(shí),可能導(dǎo)致分析結(jié)果不穩(wěn)定,出現(xiàn)回歸系數(shù)的符號與實(shí)際情況完全相反的情況。
本應(yīng)該顯著的自變量不顯著,本不顯著的自變量卻呈現(xiàn)出顯著性,這種情況下就需要消除多重共線性的影響。
共線性出現(xiàn)的原因
多重共線性問題就是說一個(gè)解釋變量的變化引起另一個(gè)解釋變量地變化。
原本自變量應(yīng)該是各自獨(dú)立的變量,這樣根據(jù)檢驗(yàn)結(jié)果,就能得知哪些因素對因變量Y有顯著影響,哪些沒有影響。如果各個(gè)自變量x之間有很強(qiáng)的線性關(guān)系,就無法固定其他變量,也就找不到x和y之間真實(shí)的關(guān)系了。
除此以外,多重共線性的原因還可能包括:
數(shù)據(jù)不足。在某些情況下,收集更多數(shù)據(jù)可以解決問題。
錯(cuò)誤地使用虛擬變量。(比如,同時(shí)將男、女兩個(gè)虛擬變量都放入模型,此時(shí)必定出現(xiàn)共線性,稱為完全共線性)
共線性的判別指標(biāo)
1.vif值
有多種方法可以檢測多重共線性,較常使用的是回歸分析中的VIF值,VIF值越大,多重共線性越嚴(yán)重。一般認(rèn)為VIF大于10時(shí)(嚴(yán)格是5),代表模型存在嚴(yán)重的共線性問題。
2.容差值
也有時(shí)候會(huì)以容差值作為標(biāo)準(zhǔn),容差值=1/VIF,所以容差值大于0.1則說明沒有共線性(嚴(yán)格是大于0.2),VIF和容差值有邏輯對應(yīng)關(guān)系,兩個(gè)指標(biāo)任選其一即可。
3.相關(guān)系數(shù)
除此之外,直接對自變量進(jìn)行相關(guān)分析,查看相關(guān)系數(shù)和顯著性也是一種判斷方法。如果一個(gè)自變量和其他自變量之間的相關(guān)系數(shù)顯著,則代表可能存在多重共線性問題。
多重共線性處理方法
多重共線性是普遍存在的,通常情況下,如果共線性情況不嚴(yán)重(VIF<5),不需要做特別的處理。如存在嚴(yán)重的多重共線性問題,可以考慮使用以下幾種方法處理:
1. 手動(dòng)移除出共線性的變量
先做下相關(guān)分析,如果發(fā)現(xiàn)某兩個(gè)自變量X(解釋變量)的相關(guān)系數(shù)值大于0.7,則移除掉一個(gè)自變量(解釋變量),然后再做回歸分析。此方法是最直接的方法,但有的時(shí)候我們不希望把某個(gè)自變量從模型中剔除,這樣就要考慮使用其他方法。
2. 逐步回歸法
讓軟件自動(dòng)進(jìn)行自變量的選擇剔除,逐步回歸會(huì)將共線性的自變量自動(dòng)剔除出去。此種解決辦法有個(gè)問題是,可能算法會(huì)剔除掉本不想剔除的自變量,如果有此類情況產(chǎn)生,此時(shí)最好是使用嶺回歸進(jìn)行分析。
使用路徑:進(jìn)階方法>逐步回歸
3. 增加樣本容量
增加樣本容量是解釋共線性問題的一種辦法,但在實(shí)際操作中可能并不太適合,原因是樣本量的收集需要成本時(shí)間等。
4. 嶺回歸
上述第1和第2種解決辦法在實(shí)際研究中使用較多,但問題在于,如果實(shí)際研究中并不想剔除掉某些自變量,某些自變量很重要,不能剔除。此時(shí)可能只有嶺回歸最為適合了。嶺回歸是當(dāng)前解決共線性問題最有效的解釋辦法。
使用路徑:進(jìn)階方法>嶺回歸
其他說明
1. 多重共線性是普遍存在的,輕微的多重共線性問題可不采取措施,如果VIF值大于10說明共線性很嚴(yán)重,這種情況需要處理,如果VIF值在5以下不需要處理,如果VIF介于5~10之間視情況而定。
2. 如果模型僅用于預(yù)測,則只要擬合程度好,可不處理多重共線性問題,存在多重共線性的模型用于預(yù)測時(shí),往往不影響預(yù)測結(jié)果。
以上就是大數(shù)據(jù)多重共線性問題該如何解決,小編相信有部分知識(shí)點(diǎn)可能是我們?nèi)粘9ぷ鲿?huì)見到或用到的。希望你能通過這篇文章學(xué)到更多知識(shí)。更多詳情敬請關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。