本篇文章為大家展示了jieba庫如何在Python中使用,內(nèi)容簡明扼要并且容易理解,絕對能使你眼前一亮,通過這篇文章的詳細(xì)介紹希望你能有所收獲。
創(chuàng)新互聯(lián)建站-專業(yè)網(wǎng)站定制、快速模板網(wǎng)站建設(shè)、高性價比連城網(wǎng)站開發(fā)、企業(yè)建站全套包干低至880元,成熟完善的模板庫,直接使用。一站式連城網(wǎng)站制作公司更省心,省錢,快速模板網(wǎng)站建設(shè)找我們,業(yè)務(wù)覆蓋連城地區(qū)。費用合理售后完善,10余年實體公司更值得信賴。1、jieba庫基本介紹
(1)、jieba庫概述
jieba是優(yōu)秀的中文分詞第三方庫
- 中文文本需要通過分詞獲得單個的詞語
- jieba是優(yōu)秀的中文分詞第三方庫,需要額外安裝
- jieba庫提供三種分詞模式,最簡單只需掌握一個函數(shù)
(2)、jieba分詞的原理
Jieba分詞依靠中文詞庫
- 利用一個中文詞庫,確定漢字之間的關(guān)聯(lián)概率
- 漢字間概率大的組成詞組,形成分詞結(jié)果
- 除了分詞,用戶還可以添加自定義的詞組
jieba庫使用說明
(1)、jieba分詞的三種模式
精確模式、全模式、搜索引擎模式
- 精確模式:把文本精確的切分開,不存在冗余單詞
- 全模式:把文本中所有可能的詞語都掃描出來,有冗余
- 搜索引擎模式:在精確模式基礎(chǔ)上,對長詞再次切分
(2)、jieba庫常用函數(shù)
2.jieba應(yīng)用實例
3.利用jieba庫統(tǒng)計三國演義中任務(wù)的出場次數(shù)
import jieba txt = open("D:\\三國演義.txt", "r", encoding='utf-8').read() words = jieba.lcut(txt) # 使用精確模式對文本進(jìn)行分詞 counts = {} # 通過鍵值對的形式存儲詞語及其出現(xiàn)的次數(shù) for word in words: if len(word) == 1: # 單個詞語不計算在內(nèi) continue else: counts[word] = counts.get(word, 0) + 1 # 遍歷所有詞語,每出現(xiàn)一次其對應(yīng)的值加 1 items = list(counts.items())#將鍵值對轉(zhuǎn)換成列表 items.sort(key=lambda x: x[1], reverse=True) # 根據(jù)詞語出現(xiàn)的次數(shù)進(jìn)行從大到小排序 for i in range(15): word, count = items[i] print("{0:<5}{1:>5}".format(word, count))
上述內(nèi)容就是jieba庫如何在Python中使用,你們學(xué)到知識或技能了嗎?如果還想學(xué)到更多技能或者豐富自己的知識儲備,歡迎關(guān)注創(chuàng)新互聯(lián)成都網(wǎng)站設(shè)計公司行業(yè)資訊頻道。
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。