本篇內(nèi)容介紹了“機(jī)器學(xué)習(xí)的中心極限定律怎么理解”的有關(guān)知識,在實(shí)際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!
成都網(wǎng)絡(luò)公司-成都網(wǎng)站建設(shè)公司創(chuàng)新互聯(lián)十多年經(jīng)驗(yàn)成就非凡,專業(yè)從事網(wǎng)站設(shè)計(jì)制作、成都網(wǎng)站建設(shè),成都網(wǎng)頁設(shè)計(jì),成都網(wǎng)頁制作,軟文平臺,1元廣告等。十多年來已成功提供全面的成都網(wǎng)站建設(shè)方案,打造行業(yè)特色的成都網(wǎng)站建設(shè)案例,建站熱線:18980820575,我們期待您的來電!
大數(shù)定律
當(dāng)數(shù)據(jù)量很大的時候可以用頻率表示概率,
在試驗(yàn)不變的條件下,重復(fù)試驗(yàn)多次,隨機(jī)事件的頻率近似于它的概率。偶然中包含著某種必然。
中心極限定理
樣本的平均值約等于總體的平均值。
不管總體是什么分布,任意一個總體的樣本平均值都會圍繞在總體的整體平均值周圍,并且呈正態(tài)分布。
除以n和n-1 中心極限定理
一.中心極限定理
下圖形象的說明了中心極限定理
當(dāng)樣本量N逐漸趨于無窮大時,N個抽樣樣本的均值的頻數(shù)逐漸趨于正態(tài)分布,其對原總體的分布不做任何要求,意味著無論總體是什么分布,其抽樣樣本的均值的頻數(shù)的分布都隨著抽樣數(shù)的增多而趨于正態(tài)分布,如上圖,這個正態(tài)分布的u會越來越逼近總體均值,并且其方差滿足a^2/n,a為總體的標(biāo)準(zhǔn)差,注意抽樣樣本要多次抽取,一個容量為N的抽樣樣本是無法構(gòu)成分布的。
二.中心極限定理和大數(shù)定律的區(qū)別
下面援引一段知乎上的回答:https://www.zhihu.com/question/48256489/answer/110106016
大數(shù)定律是說,n只要越來越大,我把這n個獨(dú)立同分布的數(shù)加起來去除以n得到的這個樣本均值(也是一個隨機(jī)變量)會依概率收斂到真值u,但是樣本均值的分布是怎樣的我們不知道。
中心極限定理是說,n只要越來越大,這n個數(shù)的樣本均值會趨近于正態(tài)分布,并且這個正態(tài)分布以u為均值,sigma^2/n為方差。
綜上所述,這兩個定律都是在說樣本均值性質(zhì)。隨著n增大,大數(shù)定律說樣本均值幾乎必然等于均值。中心極限定律說,他越來越趨近于正態(tài)分布。并且這個正態(tài)分布的方差越來越小。
直觀上來講,想到大數(shù)定律的時候,你腦海里浮現(xiàn)的應(yīng)該是一個樣本,而想到中心極限定理的時候腦海里應(yīng)該浮現(xiàn)出很多個樣本。
中心極限定理是說一定條件下,當(dāng)變量的個數(shù)趨向于無窮大時,變量總體趨向于正態(tài)分布。而大數(shù)定律是當(dāng)重復(fù)獨(dú)立試驗(yàn)次數(shù)趨于無窮大時,平均值(包括頻率)具有穩(wěn)定性。兩者是完全不同的
最大似然估計(jì): 是利用已知的樣本的結(jié)果,在使用某個模型的基礎(chǔ)上,反推最有可能導(dǎo)致這樣結(jié)果的模型參數(shù)值。
舉個通俗的例子:假設(shè)一個袋子裝有白球與紅球,比例未知,現(xiàn)在抽取10次(每次抽完都放回,保證事件獨(dú)立性),假設(shè)抽到了7次白球和3次紅球,在此數(shù)據(jù)樣本條件下,可以采用最大似然估計(jì)法求解袋子中白球的比例(最大似然估計(jì)是一種“模型已定,參數(shù)未知”的方法)。當(dāng)然,這種數(shù)據(jù)情況下很明顯,白球的比例是70%。
說的通俗一點(diǎn)啊,最大似然估計(jì),就是 利用已知的樣本結(jié)果, 反推最有可能(最大概率)導(dǎo)致這樣結(jié)果的參數(shù)值(模型已知,參數(shù)未知)。
當(dāng)從模型總體隨機(jī)抽取n組樣本觀測值后,最合理的參數(shù)估計(jì)量應(yīng)該使得從模型中抽取該n組樣本觀測值的概率最大,而不是像最小二乘估計(jì)法旨在得到使得模型能最好地?cái)M合樣本數(shù)據(jù)的參數(shù)估計(jì)量。
當(dāng)樣本為獨(dú)立同分布時,似然函數(shù)可簡寫為L(α)=Πp(xi;α),牽涉到乘法不好往下處理,于是對其取對數(shù)研究,得到對數(shù)似然函數(shù)l(α)=ln L(α)=Σln p(xi;α)
同樣使用多元函數(shù)求極值的方法。
例如:一個麻袋里有白球與黑球,但是我不知道它們之間的比例,那我就有放回的抽取10次,結(jié)果我發(fā)現(xiàn)我抽到了8次黑球2次白球,我要求最有可能的黑白球之間的比例時,就采取最大似然估計(jì)法: 我假設(shè)我抽到黑球的概率為p,那得出8次黑球2次白球這個結(jié)果的概率為:
P(黑=8)=p^8*(1-p)^2,
現(xiàn)在我想要得出p是多少啊,很簡單,使得P(黑=8)最大的p就是我要求的結(jié)果,接下來求導(dǎo)的的過程就是求極值的過程啦。
可能你會有疑問,為什么要ln一下呢,這是因?yàn)閘n把乘法變成加法了,且不會改變極值的位置(單調(diào)性保持一致嘛)這樣求導(dǎo)會方便很多~
同樣,這樣一道題:設(shè)總體 X 的概率密度為
已知: X1,X2..Xn是樣本觀測值,
求:θ的極大似然估計(jì)
這也一樣啊,要得到 X1,X2..Xn這樣一組樣本觀測值的概率是
P{x1=X1,x2=X2,...xn=Xn}= f(X1,θ)f(X2,θ)…f(Xn,θ)
然后我們就求使得P最大的θ就好啦,一樣是求極值的過程,不再贅述。
“機(jī)器學(xué)習(xí)的中心極限定律怎么理解”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識可以關(guān)注創(chuàng)新互聯(lián)網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!