如何進(jìn)行NLP基本工具jieba的關(guān)鍵詞提取及詞性標(biāo)注

如何進(jìn)行NLP基本工具jieba的關(guān)鍵詞提取及詞性標(biāo)注，相信很多沒有經(jīng)驗(yàn)的人對(duì)此束手無策，為此本文總結(jié)了問題出現(xiàn)的原因和解決方法，通過這篇文章希望你能解決這個(gè)問題。

為武侯等地區(qū)用戶提供了全套網(wǎng)頁設(shè)計(jì)制作服務(wù)，及武侯網(wǎng)站建設(shè)行業(yè)解決方案。主營業(yè)務(wù)為成都網(wǎng)站建設(shè)、做網(wǎng)站、武侯網(wǎng)站設(shè)計(jì)，以傳統(tǒng)方式定制建設(shè)網(wǎng)站，并提供域名空間備案等一條龍服務(wù)，秉承以專業(yè)、用心的態(tài)度為用戶提供真誠的服務(wù)。我們深信只要達(dá)到每一位用戶的要求，就會(huì)得到認(rèn)可，從而選擇與我們長期合作。這樣，我們也可以走得更遠(yuǎn)！

jieba還可以進(jìn)行關(guān)鍵詞提取以及詞性標(biāo)注。

使用：

importjieba # 導(dǎo)入 jieba

importjieba.analyse as anls #關(guān)鍵詞提取

importjieba.posseg as pseg #詞性標(biāo)注

其中，關(guān)鍵詞提取有兩種算法：

第一種是TF-IDF算法（Term Frequency-Inverse Document Frequency, 詞頻-逆文件頻率），其基本思想為：一個(gè)詞語在一篇文章中出現(xiàn)次數(shù)越多，同時(shí)在所有文檔中出現(xiàn)次數(shù)越少，越說明該詞語能夠代表該文章。

第二種是TextRank算法，基本思想：

將待抽取關(guān)鍵詞的文本進(jìn)行分詞
以固定窗口大小(默認(rèn)為5，通過span屬性調(diào)整)，詞之間的共現(xiàn)關(guān)系，構(gòu)建圖
計(jì)算圖中節(jié)點(diǎn)的PageRank，無向帶權(quán)圖

代碼：

TF-IDF: jieba.analyse.extract_tags(sentence,topK=20, withWeight=True, allowPOS=())

TextRank:jieba.analyse.textrank(sentence, topK=20, withWeight=True)

其中，topK是輸出多少個(gè)關(guān)鍵詞，withWeight是否輸出每個(gè)關(guān)鍵詞的權(quán)重。

輸入語句“jieba除了最重要的功能--分詞之外，還可以進(jìn)行關(guān)鍵詞提取以及詞性標(biāo)注”：

TF-IDF輸出的關(guān)鍵詞:

詞性 0.91

jieba0.85

-- 0.85

分詞 0.84

標(biāo)注 0.66

關(guān)鍵詞 0.64

提取 0.54

之外 0.42

功能 0.39

除了 0.37

重要 0.29

以及 0.29

進(jìn)行 0.27

可以 0.25

TextRank輸出的關(guān)鍵詞:

詞性 1.00

提取 0.99

關(guān)鍵詞 0.99

功能 0.90

分詞 0.90

進(jìn)行 0.76

標(biāo)注 0.75

相對(duì)而言，TextRank輸出的關(guān)鍵詞更規(guī)整一些。

詞性標(biāo)注

使用jieba.posseg進(jìn)行詞性的標(biāo)注。

代碼：

importjieba.posseg

words =jieba.posseg.cut("我來到北京清華大學(xué)")

for x, win words:

print('%s %s' % (x, w))

輸出：

我 r

來到 v

北京 ns

清華大學(xué) nt

如何進(jìn)行NLP基本工具jieba的關(guān)鍵詞提取及詞性標(biāo)注

看完上述內(nèi)容，你們掌握如何進(jìn)行NLP基本工具jieba的關(guān)鍵詞提取及詞性標(biāo)注的方法了嗎？如果還想學(xué)到更多技能或想了解更多相關(guān)內(nèi)容，歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道，感謝各位的閱讀！

分享名稱：如何進(jìn)行NLP基本工具jieba的關(guān)鍵詞提取及詞性標(biāo)注
網(wǎng)站鏈接：http://weahome.cn/article/jhipeh.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

如何進(jìn)行NLP基本工具jieba的關(guān)鍵詞提取及詞性標(biāo)注

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管