真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

NLP基本工具jieba怎么用

今天就跟大家聊聊有關(guān)NLP基本工具jieba怎么用,可能很多人都不太了解,為了讓大家更加了解,小編給大家總結(jié)了以下內(nèi)容,希望大家根據(jù)這篇文章可以有所收獲。

創(chuàng)新互聯(lián)建站專注為客戶提供全方位的互聯(lián)網(wǎng)綜合服務(wù),包含不限于網(wǎng)站建設(shè)、成都網(wǎng)站建設(shè)、千陽網(wǎng)絡(luò)推廣、小程序定制開發(fā)、千陽網(wǎng)絡(luò)營銷、千陽企業(yè)策劃、千陽品牌公關(guān)、搜索引擎seo、人物專訪、企業(yè)宣傳片、企業(yè)代運(yùn)營等,從售前售中售后,我們都將竭誠為您服務(wù),您的肯定,是我們最大的嘉獎;創(chuàng)新互聯(lián)建站為所有大學(xué)生創(chuàng)業(yè)者提供千陽建站搭建服務(wù),24小時服務(wù)熱線:18982081108,官方網(wǎng)址:www.cdcxhl.com

jieba是百度工程師Sun Junyi開發(fā)的一個開源庫,在GitHub上很受歡迎,使用頻率也很高。

GitHub鏈接:https://github.com/fxsjy/jieba

NLP基本工具jieba怎么用

jieba最流行的應(yīng)用是分詞,包括介紹頁面上也稱之為“結(jié)巴中文分詞”,但除了分詞之外,jieba還可以做關(guān)鍵詞抽取、詞頻統(tǒng)計等。

jieba支持四種分詞模式:

-       精確模式:試圖將句子最精確地切開,只輸出最大概率組合;

-       搜索引擎模式:在精確模式基礎(chǔ)上,對長詞再次切分,提高召回率,適用于搜索引擎分詞;

-       全模式:把句子中所有的可以成詞的詞語都掃描出來;

-       paddle模式,利用PaddlePaddle深度學(xué)習(xí)框架,訓(xùn)練序列標(biāo)注(雙向GRU)網(wǎng)絡(luò)模型實(shí)現(xiàn)分詞。同時支持詞性標(biāo)注。

代碼:

NLP基本工具jieba怎么用

輸出:

NLP基本工具jieba怎么用

代碼:

NLP基本工具jieba怎么用

輸出

NLP基本工具jieba怎么用

從上面的例子可以看出:

-       精確模式是比較常見的分詞方式,也是默認(rèn)的方式;

-       搜索引擎模式切分更細(xì)一些,包含了清華、華大、大學(xué)、中國、科學(xué)、學(xué)院等等;

-       全模式相對于搜索引擎模式更全,列出了所有可能;

-       paddle模式接近于精確模式。

另外,jieba還支持:

-       繁體分詞

-       自定義詞典

安裝:

pip/pip3/easy_installinstall jieba

使用:

importjieba  # 導(dǎo)入 jieba

importjieba.posseg as pseg  #詞性標(biāo)注

importjieba.analyse as anls  #關(guān)鍵詞提取

算法

基于前綴詞典實(shí)現(xiàn)高效的詞圖掃描,生成句子中漢字所有可能成詞情況所構(gòu)成的有向無環(huán)圖 (DAG)

采用了動態(tài)規(guī)劃查找最大概率路徑, 找出基于詞頻的最大切分組合

對于未登錄詞,采用了基于漢字成詞能力的 HMM 模型,使用了 Viterbi 算法

看完上述內(nèi)容,你們對NLP基本工具jieba怎么用有進(jìn)一步的了解嗎?如果還想了解更多知識或者相關(guān)內(nèi)容,請關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝大家的支持。


網(wǎng)頁題目:NLP基本工具jieba怎么用
標(biāo)題URL:http://weahome.cn/article/jhicgg.html

其他資訊

在線咨詢

微信咨詢

電話咨詢

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部