真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網站制作重慶分公司

卡方的原理及python代碼實現(xiàn)

本篇內容主要講解“卡方的原理及python代碼實現(xiàn)”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學習“卡方的原理及python代碼實現(xiàn)”吧!

公司主營業(yè)務:網站設計制作、成都網站建設、移動網站開發(fā)等業(yè)務。幫助企業(yè)客戶真正實現(xiàn)互聯(lián)網宣傳,提高企業(yè)的競爭能力。創(chuàng)新互聯(lián)建站是一支青春激揚、勤奮敬業(yè)、活力青春激揚、勤奮敬業(yè)、活力澎湃、和諧高效的團隊。公司秉承以“開放、自由、嚴謹、自律”為核心的企業(yè)文化,感謝他們對我們的高要求,感謝他們從不同領域給我們帶來的挑戰(zhàn),讓我們激情的團隊有機會用頭腦與智慧不斷的給客戶帶來驚喜。創(chuàng)新互聯(lián)建站推出黔西南州免費做網站回饋大家。

卡方檢驗的原理:
      卡方檢驗就是統(tǒng)計樣本的實際觀測值與理論推斷值之間的偏離程度,實際觀測值與理論推斷值之間的偏離程度就決定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若兩個值完全相等時,卡方值就為0,表明理論值完全符合,也就是不相關。也就是:偏離越大,相關性越大。

注意:卡方檢驗針對分類變量。
檢驗方法(獨立樣本四格表):

假設有兩個分類變量X和Y,它們的值域分別為{x1, x2}和{y1, y2},其樣本頻數(shù)列聯(lián)表為

卡方的原理及python代碼實現(xiàn)


若要推斷的論述為H1:“X與Y有關系”,可以利用獨立性檢驗來考察兩個變量是否有關系,并且能較精確地給出這種判斷的可靠程度。具體的做法是,由表中的數(shù)據(jù)算出檢驗統(tǒng)計量

卡方的原理及python代碼實現(xiàn)

的值。
其中A為實際值,也就是第一個四格表里的4個數(shù)據(jù),T為理論值,也就是理論值四格表里的4個數(shù)據(jù)。

x2用于衡量實際值與理論值的差異程度(也就是卡方檢驗的核心思想),包含了以下兩個信息:

實際值與理論值偏差的絕對大?。ㄓ捎谄椒降拇嬖冢町愂潜环糯蟮模?br/>差異程度與理論值的相對大小

卡方分布的臨界值
既然已經得到了x2值,我們又怎么知道x2值是否合理?也就是說,怎么知道無關性假設是否可靠?答案是,通過查詢卡方分布的臨界值表。

這里需要用到一個自由度的概念,自由度等于V = (行數(shù) - 1) * (列數(shù) - 1),對四格表,自由度V = 1

對V = 1,卡方分布的臨界概率是:

卡方的原理及python代碼實現(xiàn)

如果一個類別特征有多個分類,那么自由度就會變,同樣對應的卡方分布的臨界值和臨界概率也要做出調整。

舉例1:類別特征相關關系檢驗

這個實例你可以理解為目標變量屬于或者不屬于娛樂與自變量是否包含吳亦凡是否是相關,輔助做類別性特征的變量篩選,或者對于兩個類別特征只是單純的看一下兩個特征是否相關。

舉個例子,假設我們有一堆新聞標題,需要判斷標題中包含某個詞(比如吳亦凡)是否與該條新聞的類別歸屬(比如娛樂)是否有關,我們只需要簡單統(tǒng)計就可以獲得這樣的一個四格表:

卡方的原理及python代碼實現(xiàn)

通過這個四格表我們得到的第一個信息是:標題是否包含吳亦凡確實對新聞是否屬于娛樂有統(tǒng)計上的差別,包含吳亦凡的新聞屬于娛樂的比例更高,但我們還無法排除這個差別是否由于抽樣誤差導致。那么首先假設標題是否包含吳亦凡與新聞是否屬于娛樂是獨立無關的,隨機抽取一條新聞標題,屬于娛樂類別的概率是:(19 + 34) / (19 + 34 + 24 +10) = 60.9%

卡方的原理及python代碼實現(xiàn)

def Chi2(df, total_col, bad_col):
   
   #:param df: 包含全部樣本總計與壞樣本總計的數(shù)據(jù)框
   #:param total_col: 全部樣本的個數(shù)
   #:param bad_col: 壞樣本的個數(shù)
   #:return: 卡方值
   
   df2 = df.copy()
   # 求出df中,總體的壞樣本率和好樣本率
   badRate = sum(df2[bad_col])*1.0/sum(df2[total_col])
   # 當全部樣本只有好或者壞樣本時,卡方值為0
   if badRate in [0,1]:
       return 0
   df2['good'] = df2.apply(lambda x: x[total_col] - x[bad_col], axis = 1)
   goodRate = sum(df2['good']) * 1.0 / sum(df2[total_col])
   # 期望壞(好)樣本個數(shù)=全部樣本個數(shù)*平均壞(好)樣本占比
   df2['badExpected'] = df[total_col].apply(lambda x: x*badRate)
   df2['goodExpected'] = df[total_col].apply(lambda x: x * goodRate)
   badCombined = zip(df2['badExpected'], df2[bad_col])
   goodCombined = zip(df2['goodExpected'], df2['good'])
   badChi = [(i[0]-i[1])**2/i[0] for i in badCombined]
   goodChi = [(i[0] - i[1]) ** 2 / i[0] for i in goodCombined]
   chi2 = sum(badChi) + sum(goodChi)
   return chi2

到此,相信大家對“卡方的原理及python代碼實現(xiàn)”有了更深的了解,不妨來實際操作一番吧!這里是創(chuàng)新互聯(lián)網站,更多相關內容可以進入相關頻道進行查詢,關注我們,繼續(xù)學習!


新聞標題:卡方的原理及python代碼實現(xiàn)
分享URL:http://weahome.cn/article/ihigod.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部