這篇文章給大家介紹大數(shù)據(jù)中的貝葉斯法則是怎樣的,內(nèi)容非常詳細(xì),感興趣的小伙伴們可以參考借鑒,希望對(duì)大家能有所幫助。
創(chuàng)新互聯(lián)擁有一支富有激情的企業(yè)網(wǎng)站制作團(tuán)隊(duì),在互聯(lián)網(wǎng)網(wǎng)站建設(shè)行業(yè)深耕10年,專業(yè)且經(jīng)驗(yàn)豐富。10年網(wǎng)站優(yōu)化營銷經(jīng)驗(yàn),我們已為近千家中小企業(yè)提供了成都網(wǎng)站制作、做網(wǎng)站、外貿(mào)營銷網(wǎng)站建設(shè)解決方案,按需制作,設(shè)計(jì)滿意,售后服務(wù)無憂。所有客戶皆提供一年免費(fèi)網(wǎng)站維護(hù)!
貝葉斯法則可能是概率論中最有生命力的一個(gè)公式。它可以用來計(jì)算條件概率或者主觀概率。
貝葉斯法則的思想非常簡單:隨機(jī)事件發(fā)生的概率隨著相關(guān)條件的發(fā)生而改變,一個(gè)命題真假的信念即主觀概率隨著相關(guān)證據(jù)的發(fā)現(xiàn)而改變。當(dāng)正相關(guān)條件發(fā)生時(shí),條件概率上調(diào),當(dāng)負(fù)相關(guān)條件發(fā)生時(shí),條件概率下調(diào)。當(dāng)有利證據(jù)發(fā)現(xiàn)時(shí),主觀概率上調(diào),當(dāng)不利證據(jù)發(fā)現(xiàn)時(shí),主觀概率下調(diào)。
然而,貝葉斯法則具有非常深刻的哲學(xué)意義和廣泛的應(yīng)用價(jià)值。哲學(xué)家們用它來解決休謨歸納問題;生命科學(xué)家用它來研究基因是如何被控制的;教育學(xué)家突然意識(shí)到,學(xué)生的學(xué)習(xí)過程正是貝葉斯法則的運(yùn)用;基金經(jīng)理用貝葉斯法則找到投資策略;Google用貝葉斯法則改進(jìn)搜索功能;人工智能,機(jī)器翻譯中大量用到貝葉斯法則……
小編將通過公式推演和3個(gè)簡單的范例,帶領(lǐng)大家讀懂貝葉斯法則并領(lǐng)略其獨(dú)特的魅力。
條件概率P(A|B)表示隨機(jī)事件B發(fā)生的前提下隨機(jī)事件A發(fā)生的概率。條件概率P(A|B)也被稱為后驗(yàn)概率,P(A)是其對(duì)應(yīng)的先驗(yàn)概率。
以下為第1個(gè)應(yīng)用舉例:
HIV攜帶檢測
假設(shè)艾滋病毒HIV在人群中的攜帶比率為0.01%,目前檢測它的醫(yī)學(xué)技術(shù)非常高超,如果一個(gè)人真的攜帶有HIV,那么血液檢測有99.9%的概率為陽性,即檢測出來的概率很高。如果一個(gè)人不攜帶有HIV,那么血液檢測只有0.01%的概率為陽性,即冤枉一個(gè)正常人的概率很低?,F(xiàn)在從街頭上隨機(jī)找個(gè)人給他做檢查,發(fā)現(xiàn)檢測結(jié)果不妙,是HIV陽性,那么他真的攜帶有HIV病毒的概率為多大?
從這個(gè)例子中,我們發(fā)現(xiàn)如果一個(gè)事件發(fā)生的先驗(yàn)概率很低,那么即使出現(xiàn)了非常有力的證據(jù),這個(gè)事件發(fā)生的后驗(yàn)概率也不一定會(huì)很高。
在實(shí)際應(yīng)用貝葉斯法則的時(shí)候,通常會(huì)存在許多的條件,而不是單個(gè)條件。此時(shí)為了簡化問題,我們有時(shí)候會(huì)做一個(gè)非常天真的假設(shè),即這些條件事件之間是相互獨(dú)立的,這時(shí)候我們會(huì)得到樸素貝葉斯方法。
以下是第2個(gè)應(yīng)用范例:
垃圾郵件識(shí)別
假設(shè)現(xiàn)在收到一封郵件,內(nèi)容如下:
"東南亞7日游,只要6999。"
那么這封郵件是否是一封垃圾郵件呢?為了用算法對(duì)垃圾郵件進(jìn)行分類,我們對(duì)100000封郵件進(jìn)行了標(biāo)注,其中正常郵件有80000封,垃圾郵件有20000封。我們把收到的這封郵件進(jìn)行分詞處理,得到"東南亞"、"7日游","只要","6999"這4個(gè)詞。統(tǒng)計(jì)它們在已標(biāo)注郵件中出現(xiàn)的次數(shù)如下。
現(xiàn)在利用樸素貝葉斯方法,我們可以計(jì)算這封郵件是否為垃圾郵件的概率了。
于是,這封郵件有0.96的概率是一封垃圾郵件。
在對(duì)多條件下的后驗(yàn)概率進(jìn)行展開時(shí),除了運(yùn)用樸素貝葉斯假設(shè)外,我們還可以使用另外一種迭代的方法。
當(dāng)存在更多的條件時(shí),可以繼續(xù)按照這個(gè)模式展開。以上展開表達(dá)式和各個(gè)條件事件的迭代順序無關(guān)。下面是一個(gè)簡單的證明。
利用這種迭代展開式,我們可以構(gòu)造一種貝葉斯排序模型,對(duì)諸多信息進(jìn)行加工,生成主觀概率。
以下為第3個(gè)應(yīng)用范例:
貝葉斯排序模型
有兩個(gè)同類別商品A和B,A有1個(gè)五星好評(píng),B有5個(gè)五星好評(píng)和1個(gè)四星好評(píng),那么你覺得這兩個(gè)商品哪個(gè)更好一些呢?
有的同學(xué)會(huì)覺得商品A更好一些,因?yàn)锳的平均星級(jí)就是5,而B的平均星級(jí)為4.83。
另外一些同學(xué)會(huì)覺得B更好一些,因?yàn)锽有更多的五星好評(píng),可靠性更大。
實(shí)際上我們在對(duì)商品的諸多評(píng)論信息加工出一個(gè)對(duì)商品的整體評(píng)價(jià)時(shí),使用的就是貝葉斯公式。
在沒有任何信息的前提下,我們假設(shè)一個(gè)商品為非常棒的商品的概率為0.5。
并且我們假設(shè),一個(gè)非常棒的商品獲得各個(gè)星級(jí)的評(píng)價(jià)的概率分別如下,即我們假設(shè)非常棒的商品傾向于獲得較高的評(píng)級(jí)。
一個(gè)不是非常棒的商品獲得各個(gè)星級(jí)的評(píng)價(jià)的概率分別如下,即我們假設(shè)不是非常棒的商品傾向于獲得較低的評(píng)級(jí)。
迭代計(jì)算如下。
于是我們得出結(jié)論:B商品更好。
關(guān)于大數(shù)據(jù)中的貝葉斯法則是怎樣的就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,可以學(xué)到更多知識(shí)。如果覺得文章不錯(cuò),可以把它分享出去讓更多的人看到。