深入淺析Python中的 jieba分詞的原理?相信很多沒有經(jīng)驗的人對此束手無策,為此本文總結(jié)了問題出現(xiàn)的原因和解決方法,通過這篇文章希望你能解決這個問題。
1、簡要說明
結(jié)巴分詞支持三種分詞模式,支持繁體字,支持自定義詞典
2、三種分詞模式
全模式:把句子中所有的可以成詞的詞語都掃描出來, 速度非常快,但是不能解決歧義
精簡模式:把句子最精確的分開,不會添加多余單詞,看起來就像是把句子分割一下
搜索引擎模式:在精簡模式下,對長詞再度切分
# -*- encoding=utf-8 -*- import jieba if __name__ == '__main__': str1 = '我去北京天安門廣場跳舞' a = jieba.lcut(str1, cut_all=True) # 全模式 print('全模式:{}'.format(a)) b = jieba.lcut(str1, cut_all=False) # 精簡模式 print('精簡模式:{}'.format(b)) c = jieba.lcut_for_search(str1) # 搜索引擎模式 print('搜索引擎模式:{}'.format(c))