深入淺析Python中的 jieba分詞的原理?相信很多沒有經(jīng)驗的人對此束手無策,為此本文總結(jié)了問題出現(xiàn)的原因和解決方法,通過這篇文章希望你能解決這個問題。
創(chuàng)新互聯(lián)建站堅持“要么做到,要么別承諾”的工作理念,服務(wù)領(lǐng)域包括:成都網(wǎng)站設(shè)計、網(wǎng)站制作、企業(yè)官網(wǎng)、英文網(wǎng)站、手機(jī)端網(wǎng)站、網(wǎng)站推廣等服務(wù),滿足客戶于互聯(lián)網(wǎng)時代的嫩江網(wǎng)站設(shè)計、移動媒體設(shè)計的需求,幫助企業(yè)找到有效的互聯(lián)網(wǎng)解決方案。努力成為您成熟可靠的網(wǎng)絡(luò)建設(shè)合作伙伴!1、簡要說明
結(jié)巴分詞支持三種分詞模式,支持繁體字,支持自定義詞典
2、三種分詞模式
全模式:把句子中所有的可以成詞的詞語都掃描出來, 速度非常快,但是不能解決歧義
精簡模式:把句子最精確的分開,不會添加多余單詞,看起來就像是把句子分割一下
搜索引擎模式:在精簡模式下,對長詞再度切分
# -*- encoding=utf-8 -*- import jieba if __name__ == '__main__': str1 = '我去北京天安門廣場跳舞' a = jieba.lcut(str1, cut_all=True) # 全模式 print('全模式:{}'.format(a)) b = jieba.lcut(str1, cut_all=False) # 精簡模式 print('精簡模式:{}'.format(b)) c = jieba.lcut_for_search(str1) # 搜索引擎模式 print('搜索引擎模式:{}'.format(c))