>>CRF詳細(xì)的介紹和公式推導(dǎo)推薦這個(gè)PPT教程:http://wenku.baidu.com/view/f32a35d2240c844769eaee55.html。
作為一家“創(chuàng)意+整合+營(yíng)銷(xiāo)”的成都網(wǎng)站建設(shè)機(jī)構(gòu),我們?cè)跇I(yè)內(nèi)良好的客戶口碑。創(chuàng)新互聯(lián)提供從前期的網(wǎng)站品牌分析策劃、網(wǎng)站設(shè)計(jì)、成都網(wǎng)站建設(shè)、做網(wǎng)站、創(chuàng)意表現(xiàn)、網(wǎng)頁(yè)制作、系統(tǒng)開(kāi)發(fā)以及后續(xù)網(wǎng)站營(yíng)銷(xiāo)運(yùn)營(yíng)等一系列服務(wù),幫助企業(yè)打造創(chuàng)新的互聯(lián)網(wǎng)品牌經(jīng)營(yíng)模式與有效的網(wǎng)絡(luò)營(yíng)銷(xiāo)方法,創(chuàng)造更大的價(jià)值。>>另外推薦一篇HMM應(yīng)用于中文分詞的一篇易讀的入門(mén)教程,非常形象:http://blog.sina.com.cn/s/blog_68ffc7a40100uebv.html
下文僅針對(duì)專(zhuān)門(mén)做自然語(yǔ)言處理的同學(xué)做一個(gè)快速形象的上手簡(jiǎn)介,并指出最重要的特征。這里假設(shè)你已經(jīng)有基本的自然語(yǔ)言處理概念和馬爾科夫鏈的基本知識(shí)。CRF本質(zhì)上是隱含變量的馬爾科夫鏈+可觀測(cè)狀態(tài)到隱含變量的條件概率。說(shuō)隱含變量和可觀測(cè)狀態(tài)很抽象,我們以詞性標(biāo)注為例(如果你不知道什么是詞性標(biāo)注,請(qǐng)百度一下),在詞性標(biāo)注中詞性標(biāo)簽就是隱含變量,具體的詞語(yǔ)就是可觀測(cè)狀態(tài),詞性標(biāo)注的目的是通過(guò)可觀測(cè)到的一個(gè)個(gè)單詞推斷出來(lái)每個(gè)單詞應(yīng)該被賦予的詞性標(biāo)簽。下文將用詞性標(biāo)簽和詞語(yǔ)代替上述兩個(gè)名詞。
先說(shuō)馬爾科夫鏈,這里體現(xiàn)了CRF的隨機(jī)場(chǎng)特征(準(zhǔn)確的說(shuō)是馬爾科夫隨機(jī)場(chǎng))。這里CRF和HMM都假設(shè)詞性標(biāo)簽是滿足馬爾科夫性的,即當(dāng)前詞性僅和上一個(gè)詞性有概率轉(zhuǎn)移關(guān)系而與其它位置的詞性無(wú)關(guān),比如形容詞后面跟形容詞的概率是0.5,跟修飾性“的”的概率為0.5,跟動(dòng)詞的概率為0。因此,通過(guò)在一個(gè)標(biāo)注集上進(jìn)行統(tǒng)計(jì),我們很容易得到一個(gè)概率轉(zhuǎn)移矩陣,即任意詞性A后緊鄰任意詞性B的概率都可以被統(tǒng)計(jì)出來(lái)。對(duì)HMM來(lái)說(shuō)這部分就結(jié)束了,對(duì)CRF來(lái)說(shuō),可以在二維條件轉(zhuǎn)移矩陣基礎(chǔ)上再增加一維詞語(yǔ)特征,如“當(dāng)AB相鄰,A是動(dòng)詞且B單詞長(zhǎng)度超過(guò)3時(shí),B是名詞的概率是xx"。大家可能注意到了馬爾科夫鏈的窗口為1,即它僅考慮上1個(gè)詞,這不見(jiàn)得是最合理的。這其實(shí)是一個(gè)對(duì)特征稀疏問(wèn)題的折中,可以想象僅對(duì)兩個(gè)詞性AB統(tǒng)計(jì)P(B|A)能夠得到很多數(shù)據(jù)的反饋,而如果統(tǒng)計(jì)長(zhǎng)度為6的窗口,如P(G | ABCDEF)就會(huì)遇到數(shù)據(jù)稀疏的問(wèn)題,因?yàn)楹芸赡苄蛄蠥BCDEF根本就沒(méi)有在數(shù)據(jù)集中出現(xiàn)過(guò).數(shù)據(jù)稀疏對(duì)機(jī)器學(xué)習(xí)的影響是巨大的,因此馬爾科夫鏈實(shí)際以損失一定全局信息的基礎(chǔ)上換來(lái)了更飽滿的數(shù)據(jù),實(shí)驗(yàn)證明這筆交易在詞性標(biāo)注時(shí)是賺的。
再說(shuō)詞性與詞語(yǔ)直接的映射概率,這里體現(xiàn)了CRF的條件特征。如果是HMM,這里會(huì)直接統(tǒng)計(jì)詞性-->單詞的條件概率矩陣,比如 ”動(dòng)詞“ 生成 ”發(fā)射“ 的概率可能為1.5%,而生成”微軟“ 的概率為0. 然后對(duì)于每一種可能的詞性序列結(jié)合與條件概率相乘就能得到每一個(gè)候選序列的生成概率,然而取概率高的作為標(biāo)注結(jié)果即可。而CRF正好反過(guò)來(lái),CRF通過(guò)發(fā)掘詞語(yǔ)本身的特征(如長(zhǎng)度,大小寫(xiě),匹配特定詞表等,也可以包括詞語(yǔ)本身),把每個(gè)詞語(yǔ)轉(zhuǎn)化成為一個(gè)一維特征向量(vector),然后對(duì)于每個(gè)特征計(jì)算特征到詞性的條件概率,這樣每個(gè)詞語(yǔ)對(duì)候選詞性的條件概率即為所有特征條件概率的加和。比如我們假設(shè)特征向量只有兩個(gè),且P ( ”詞語(yǔ)長(zhǎng)度>3" --> 名詞詞性)的概率為0.9, P("詞語(yǔ)位于句子末尾“ --> 名詞詞性)概率為0.4,且一個(gè)詞恰好滿足這兩個(gè)特征,則其為名詞的條件概率為 (0.9 + 0.4) / 2 = 0.65. 這樣,CRF根據(jù)這個(gè)條件轉(zhuǎn)移數(shù)值再結(jié)合詞性的馬爾科夫特性,就可以使用與HMM類(lèi)似的方法尋找最優(yōu)的詞性標(biāo)注序列了。
為了裝得更學(xué)術(shù)一點(diǎn)本想再貼一個(gè)公式搞了半天沒(méi)貼成功還是算了不過(guò)在上面的PPT鏈接中大家可以找到所以就不寫(xiě)了??偟膩?lái)說(shuō)CRF優(yōu)于HMM的地方在于,它可以引入更多的特征,包括詞語(yǔ)本身特征和詞語(yǔ)所在上下文的特征,而非單詞本身。從某種角度講,它結(jié)合了HMM和大熵方法。本人也剛剛接觸CRF,因此都是從最淺顯的角度來(lái)介紹的,如果有什么說(shuō)錯(cuò)的地方歡迎指正啊~ 寫(xiě)這么多不容易,有大牛路過(guò)的話請(qǐng)輕拍哈~