基于語(yǔ)義特征的網(wǎng)絡(luò)輿情正負(fù)面監(jiān)測(cè)
創(chuàng)新互聯(lián)公司主要從事網(wǎng)頁(yè)設(shè)計(jì)、PC網(wǎng)站建設(shè)(電腦版網(wǎng)站建設(shè))、wap網(wǎng)站建設(shè)(手機(jī)版網(wǎng)站建設(shè))、響應(yīng)式網(wǎng)站開(kāi)發(fā)、程序開(kāi)發(fā)、網(wǎng)站優(yōu)化、微網(wǎng)站、微信小程序開(kāi)發(fā)等,憑借多年來(lái)在互聯(lián)網(wǎng)的打拼,我們?cè)诨ヂ?lián)網(wǎng)網(wǎng)站建設(shè)行業(yè)積累了豐富的成都網(wǎng)站建設(shè)、網(wǎng)站建設(shè)、網(wǎng)站設(shè)計(jì)、網(wǎng)絡(luò)營(yíng)銷(xiāo)經(jīng)驗(yàn),集策劃、開(kāi)發(fā)、設(shè)計(jì)、營(yíng)銷(xiāo)、管理等多方位專(zhuān)業(yè)化運(yùn)作于一體。
Annie Qi
優(yōu)捷信達(dá)科技研究員
在上一篇《網(wǎng)絡(luò)輿情正負(fù)面信息識(shí)別的方法》(詳見(jiàn):http://www.eucita.com/blog)文章中,結(jié)合本人在優(yōu)捷信達(dá)科技(http://www.eucita.com)研究工作,為您詳細(xì)介紹情感分析中與輿情正負(fù)面密切相關(guān)的“極性分類(lèi)”。本文將延續(xù)上一篇文章的主題,詳細(xì)描述具體的正負(fù)面辨別方式,并分析優(yōu)缺點(diǎn),幫助您了解市場(chǎng)上流行“輿情監(jiān)測(cè)”,”口碑監(jiān)測(cè)“,“消費(fèi)者調(diào)研”等信息處理系統(tǒng)的工作原理。
首先回顧上一章的介紹,網(wǎng)絡(luò)評(píng)價(jià)和信息的正負(fù)面識(shí)別,包括優(yōu)捷信達(dá)科技在內(nèi)的技術(shù)領(lǐng)先型輿情口碑監(jiān)測(cè)公司,都是通過(guò)極性分類(lèi)(polarity classification)這一步驟來(lái)實(shí)現(xiàn),極性分類(lèi)首先將具有情感傾向的相關(guān)詞語(yǔ)提取出來(lái),叫做“特征提取”(feature extraction)。簡(jiǎn)單來(lái)說(shuō),如何通過(guò)計(jì)算機(jī)判別正負(fù)面,就是通過(guò)提取句子中的正負(fù)面詞語(yǔ),通過(guò)詞語(yǔ)的正負(fù)面來(lái)判斷文章的正負(fù)面傾向。
到目前為止,基于優(yōu)捷信達(dá)科技的研究調(diào)查,目前業(yè)內(nèi)主要特征提取技術(shù)分別是“基于語(yǔ)義”和“基于詞出現(xiàn)及頻率”兩種模式。本文將重點(diǎn)討論基于語(yǔ)義特征的模式,下一章將介紹基于詞的出現(xiàn)及其頻率的模式,并分別討論它們的優(yōu)缺點(diǎn)。
基于語(yǔ)義特征的特征提取模式,也就是根據(jù)詞語(yǔ)表達(dá)的意思,即根據(jù)字面意思來(lái)辨析句子所表達(dá)的正負(fù)面。這一方式有三個(gè)重要的代表性方法。分別是:人工建構(gòu)情感詞條的方法;PMI-IR算法(PMI-IR Algorithm)和同義詞與反義詞方法。
1. 人工建構(gòu)情感詞條
Tetsuya Nasukawa和Jeonghee Yi在2003年提出的特征提取的方法就是基于語(yǔ)義分析方法的原型之一。他們通過(guò)識(shí)別特定主題詞和語(yǔ)氣表達(dá)式之間的語(yǔ)義關(guān)系進(jìn)行傾向性分析,采用自然語(yǔ)言處理技術(shù)分析特定主題和語(yǔ)氣詞之間的語(yǔ)義關(guān)聯(lián)。具體方法如下:
第一步,他們首先手動(dòng)構(gòu)建了一個(gè)有3513個(gè)詞條的情感詞匯表。字典中每個(gè)詞語(yǔ)都包括情感,詞性標(biāo)記和規(guī)范形式的情感詞,比如(好,詞性標(biāo)記為正面,惡劣,詞性標(biāo)記為負(fù)面)。如果收錄的情感詞是一個(gè)動(dòng)詞,只要通過(guò)這一動(dòng)詞產(chǎn)生了情感,該動(dòng)詞的賓語(yǔ)也將會(huì)被收錄(比如:優(yōu)捷信達(dá)科技致力于以高科技產(chǎn)品滿(mǎn)足客戶(hù)需求。如果“致力于”作為一個(gè)收錄的情感詞并標(biāo)記為正面,那么它所描述的“以高科技產(chǎn)品滿(mǎn)足客戶(hù)需求”就被認(rèn)定為正面信息)。
第二步,他們使用了一些計(jì)算機(jī)工具(兩個(gè)PoS-tags和一個(gè)句子結(jié)構(gòu)解析器),可以識(shí)別短語(yǔ)邊界和局部依賴(lài)性,比如:針對(duì)“我喜歡打球!”這個(gè)句子,通過(guò)工具可以識(shí)別短語(yǔ)邊界為“打球”,“喜歡打球“,”我喜歡打球“,并且還可以分析出“打”的對(duì)象是“球”,”喜歡”的對(duì)象是”打球”這種短語(yǔ)之間的依賴(lài)關(guān)系,針對(duì)每一個(gè)句子他們只提取一個(gè)代表性的情感詞,當(dāng)一個(gè)句子中存在多個(gè)情感詞時(shí),這種方式就不夠好用。
第三步,將提取出來(lái)的情感詞,放到之前人工構(gòu)建的情感詞典里檢索,找到情感詞典中對(duì)應(yīng)的詞語(yǔ)以及它的正負(fù)面極性。這樣就完成了一個(gè)文本片段的情感極性判斷。
通過(guò)以上方法,他們實(shí)驗(yàn)的準(zhǔn)確率(精度)大約是75% - 95%,但相對(duì)檢索內(nèi)容的查全率(召回率)較低,只有20% - 25%。也就是說(shuō),實(shí)驗(yàn)檢索結(jié)果整體是非常準(zhǔn)確的,但是也有大量的數(shù)據(jù)沒(méi)有抓取到,查全率較低。
因?yàn)橛衼?lái)自于手工設(shè)定的情感詞匯表,這種算法可以分析形容詞、副詞、名詞和動(dòng)詞的情感極性。此外,他們還能理解否定句和被動(dòng)句。而且,這種方法不僅可以分析情感正負(fù)面,還可以提取出正負(fù)面所對(duì)應(yīng)的主題。
然而,這個(gè)系統(tǒng)也有幾個(gè)較為明顯的弱點(diǎn)。首先,這個(gè)系統(tǒng)需要大量的人工操作,當(dāng)需要針對(duì)海量數(shù)據(jù)進(jìn)行分析時(shí),人工設(shè)定詞庫(kù)的工作量將會(huì)非常巨大。第二,盡管它可以解決否定句和被動(dòng)句,但是在處理更復(fù)雜的句法結(jié)構(gòu),比如雙重否定句時(shí),就有可能發(fā)生誤判。第三,因?yàn)椴槿瘦^低,該系統(tǒng)不能有效地區(qū)分哪些是對(duì)客觀(guān)事物的描述,哪些是主觀(guān)情感的抒發(fā)。導(dǎo)致查全率低的原因是系統(tǒng)的情感詞庫(kù)是由人工輸入,而讓人工輸入全部的情感詞是一件不太可能的事情。
2. PMI-IR 算法(PMI-IR Algorithm)
PMI-IR算法是特尼在2002年設(shè)計(jì)的,與第一種人工建構(gòu)情感詞條的方法相比,它們特征選取方法基本相同,但是它不涉及太多人工手動(dòng)工作,并且這一方法可以針對(duì)整個(gè)篇章進(jìn)行分類(lèi),而不是僅僅針對(duì)一小段文字,來(lái)提取相關(guān)主題的正負(fù)面信息。
特尼將PMI-IR算法用于測(cè)定詞匯的正負(fù)面傾向性。他評(píng)估了410篇評(píng)論,獲得了74%的平均精度。他的算法的基本思路是,把情感極性待定的主觀(guān)詞提取出來(lái),拿它和兩個(gè)情感極性計(jì)算“詞條距離”。一篇文章最終被歸類(lèi)為哪個(gè)情感極性,取決于該文章里面所有形容詞性短語(yǔ)和副詞性短語(yǔ)的平均“情感傾向分值SO”(semantic orientation)。
具體步驟如下:
首先,特尼對(duì)每篇評(píng)論文章,都進(jìn)行詞性標(biāo)注。然后匹配兩個(gè)相鄰詞的詞性標(biāo)簽,如果他們的詞性標(biāo)簽符合一定的規(guī)則(詳細(xì)的規(guī)則表格過(guò)于復(fù)雜,在此不進(jìn)行詳細(xì)描述),則提取為一個(gè)情感短語(yǔ)。
第二步,將其中的每個(gè)情感詞都看做一個(gè)可統(tǒng)計(jì)互信息的點(diǎn),然后通過(guò)點(diǎn)式互信息的計(jì)算公式計(jì)算出各個(gè)情感詞和參考詞之間的互信息。點(diǎn)式互信息的計(jì)算公式如下所示:
第三步,通過(guò)下面公式計(jì)算,可以得出一個(gè)詞組”w“的情感傾向分值SO,通過(guò)不同的分值,可以判斷為正面或者是負(fù)面,這樣,自動(dòng)分類(lèi)過(guò)程就做完了。
特尼的這種算法并不需要任何人工標(biāo)注操作,更為重要的是,由于情感傾向分值SO(w)是一個(gè)數(shù)值,這個(gè)算法不僅能通過(guò)數(shù)值的正負(fù)數(shù)來(lái)分辨出情感的正負(fù)面,而且可以計(jì)算出情感強(qiáng)度,數(shù)值越高,代表正面情感越強(qiáng)烈。這能很好的幫助客戶(hù)評(píng)估網(wǎng)絡(luò)輿情正負(fù)面信息的強(qiáng)度。優(yōu)捷信達(dá)科技的網(wǎng)絡(luò)輿情和口碑監(jiān)測(cè)采用這一算法進(jìn)行輔助評(píng)估輿情強(qiáng)度。
然而,由于這種算法需要計(jì)算機(jī)進(jìn)行大量計(jì)算,需要投入大量的服務(wù)器資源。在特尼論文的結(jié)論部分,他還指出對(duì)電影評(píng)論的準(zhǔn)確度低于汽車(chē)評(píng)論。主要原因是,在電影評(píng)論中出現(xiàn)的情感表述未必全是針對(duì)影片好壞的評(píng)價(jià),還有可能是影片情節(jié)中的情感,比如喜劇,悲劇帶來(lái)的不同情緒。這其實(shí)是一個(gè)評(píng)述對(duì)象選擇的問(wèn)題,特尼的這種方法不能很好的處理評(píng)論對(duì)象的選擇問(wèn)題。
3. 同義詞與反義詞
同義詞和反義詞方法是Minqing Hu和Bing Liu在2004年提出的算法,這種方法會(huì)給每一個(gè)通過(guò)系統(tǒng)提取出來(lái)的主觀(guān)評(píng)價(jià)句子或者段落賦予一個(gè)情感極性。這種方法將有效地解決了網(wǎng)絡(luò)負(fù)擔(dān)過(guò)重的問(wèn)題。
首先,當(dāng)他們?cè)谀骋痪湓?huà)中發(fā)現(xiàn)了情感詞,將會(huì)通過(guò)檢查情感詞數(shù)據(jù)庫(kù)(WordNet)來(lái)對(duì)這個(gè)情感詞進(jìn)行分類(lèi),尋找這個(gè)詞的同義詞和反義詞,直到他們找到一個(gè)詞(可能是這個(gè)待定情感詞的同義詞或者反義詞)和這個(gè)詞已知的情感關(guān)系。這樣,新發(fā)現(xiàn)的情感詞就被標(biāo)注為與同義詞相同的情感趨勢(shì)、與反義詞相反的情感趨勢(shì)。比如,通過(guò)系統(tǒng)發(fā)現(xiàn)一個(gè)情感詞“溺愛(ài)”,通過(guò)數(shù)據(jù)庫(kù)尋找,發(fā)現(xiàn)“喜愛(ài)”是“溺愛(ài)“的同義詞,而數(shù)據(jù)庫(kù)中又標(biāo)注了“喜愛(ài)”的情感是正面的,那么可得“溺愛(ài)”的情感也是正面的。
第二,與之前描述的兩種方法類(lèi)似,他們還基于句子中出現(xiàn)的情感詞所表達(dá)的情感傾向性,對(duì)每一個(gè)句子的極性進(jìn)行分類(lèi)。整個(gè)句子的語(yǔ)義傾向性是通過(guò)簡(jiǎn)單的加權(quán)平均,將整個(gè)句子里出現(xiàn)的每一個(gè)情感詞的語(yǔ)義傾向性進(jìn)行計(jì)算而得出。同上例,句子中出現(xiàn)了“溺愛(ài)”,沒(méi)有出現(xiàn)其他情感詞,那么可以認(rèn)定這個(gè)句子從網(wǎng)絡(luò)輿情來(lái)看是正面的。
這種方法的準(zhǔn)確率達(dá)到56% - 79%,查全率(召回率)能達(dá)到67% - 80%。盡管他們只是改進(jìn)了情感詞的抓取算法,而不是情感傾向分值SO的計(jì)算方法,但是他們這種方式不需要完整搜索準(zhǔn)確的詞,而只是通過(guò)同義詞和反義詞來(lái)判斷正負(fù)面,極大地減輕了網(wǎng)絡(luò)的負(fù)擔(dān)。
以上三種方式的運(yùn)行原理很簡(jiǎn)單,就是通過(guò)計(jì)算機(jī)來(lái)辨析相關(guān)詞語(yǔ)的正負(fù)面,然后進(jìn)行統(tǒng)計(jì)。但是這種基于語(yǔ)義的方式存在很多無(wú)法徹底解決的問(wèn)題,且工作量較大、實(shí)驗(yàn)精度和查全率不夠高?;诖?,科學(xué)界研究出另外一種特征提取方法——基于詞條出現(xiàn)規(guī)律的特征提取方法。這種特征提取方法忽視了詞的語(yǔ)義,而是重點(diǎn)評(píng)估出現(xiàn)更高頻率的詞語(yǔ)的情感極性。盡管這種統(tǒng)計(jì)方法看起來(lái)不符合我們的直覺(jué),但卻由于在處理復(fù)雜的句法結(jié)構(gòu)甚至復(fù)雜的表達(dá)結(jié)構(gòu)的上佳表現(xiàn),得到了業(yè)界越來(lái)越多的關(guān)注。
對(duì)于這種不太容易理解但卻表現(xiàn)優(yōu)異的方法,優(yōu)捷信達(dá)科技將在下一章進(jìn)行詳細(xì)描述。您也可以通過(guò)訪(fǎng)問(wèn)網(wǎng)站Http://www.eucita.com了解詳情。