怎么使用Python分詞工具jieba

本篇文章給大家分享的是有關(guān)怎么使用Python分詞工具jieba，小編覺(jué)得挺實(shí)用的，因此分享給大家學(xué)習(xí)，希望大家閱讀完這篇文章后可以有所收獲，話不多說(shuō)，跟著小編一起來(lái)看看吧。

成都創(chuàng)新互聯(lián)公司是專業(yè)的準(zhǔn)格爾網(wǎng)站建設(shè)公司，準(zhǔn)格爾接單;提供成都網(wǎng)站制作、網(wǎng)站設(shè)計(jì),網(wǎng)頁(yè)設(shè)計(jì),網(wǎng)站設(shè)計(jì),建網(wǎng)站,PHP網(wǎng)站建設(shè)等專業(yè)做網(wǎng)站服務(wù);采用PHP框架,可快速的進(jìn)行準(zhǔn)格爾網(wǎng)站開(kāi)發(fā)網(wǎng)頁(yè)制作和功能擴(kuò)展;專業(yè)做搜索引擎喜愛(ài)的網(wǎng)站,專業(yè)的做網(wǎng)站團(tuán)隊(duì),希望更多企業(yè)前來(lái)合作!

結(jié)巴分詞是Python語(yǔ)言中最流行的一個(gè)分詞工具，在自然語(yǔ)言處理等場(chǎng)景被廣泛使用。

因?yàn)镚itHub寫的文檔太啰嗦，所以整理了一個(gè)簡(jiǎn)版的入門使用指南，看完可直接上手

安裝

pip install jieba

簡(jiǎn)單分詞

import jieba

result = jieba.cut("我愛(ài)中國(guó)北京大學(xué)")
for word in result:
   print(word)

輸出

我
愛(ài)
中國(guó)
北京大學(xué)

句子切分成了5個(gè)詞組。

全模式分詞

result = jieba.cut("我愛(ài)中國(guó)北京大學(xué)", cut_all=True)
for word in result:
   print(word)

輸出

我
愛(ài)
中國(guó)
北京
北京大學(xué)
大學(xué)

全模式分出來(lái)的詞覆蓋面更廣。

提取關(guān)鍵詞

從一個(gè)句子或者一個(gè)段落中提取前k個(gè)關(guān)鍵詞

import jieba.analyse

result = jieba.analyse.extract_tags("機(jī)器學(xué)習(xí)，需要一定的數(shù)學(xué)基礎(chǔ)，需要掌握的數(shù)學(xué)基礎(chǔ)知識(shí)特別多，"
                                   "如果從頭到尾開(kāi)始學(xué)，估計(jì)大部分人來(lái)不及，我建議先學(xué)習(xí)最基礎(chǔ)的數(shù)學(xué)知識(shí)",
                                   topK=5,
                                   withWeight=False)
import pprint

pprint.pprint(result)

輸出

['數(shù)學(xué)', '學(xué)習(xí)', '數(shù)學(xué)知識(shí)', '基礎(chǔ)知識(shí)', '從頭到尾']

topK 為返回前topk個(gè)權(quán)重最大的關(guān)鍵詞
withWeight 返回每個(gè)關(guān)鍵字的權(quán)重值

去掉停止詞

停止詞是指在句子中無(wú)關(guān)緊要的詞語(yǔ)，例如標(biāo)點(diǎn)符號(hào)、指示代詞等等，做分詞前要先將這些詞去掉。分詞方法cut不支持直接過(guò)濾停止詞，需要手動(dòng)處理。提取關(guān)鍵字的方法 extract_tags 支持停止詞過(guò)濾

# 先過(guò)濾停止詞
jieba.analyse.set_stop_words(file_name)
result = jieba.analyse.extract_tags(content, tokK)

file_name 的文件格式是文本文件，每行一個(gè)詞語(yǔ)

以上就是怎么使用Python分詞工具jieba，小編相信有部分知識(shí)點(diǎn)可能是我們?nèi)粘９ぷ鲿?huì)見(jiàn)到或用到的。希望你能通過(guò)這篇文章學(xué)到更多知識(shí)。更多詳情敬請(qǐng)關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。

網(wǎng)站題目：怎么使用Python分詞工具jieba
分享URL：http://weahome.cn/article/jehcsi.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

怎么使用Python分詞工具jieba

安裝

簡(jiǎn)單分詞

全模式分詞

提取關(guān)鍵詞

去掉停止詞

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管