jieba庫:
利用一個中文詞庫,確定中文字符之間的關(guān)聯(lián)概率
中文字符間概率大的組成詞組,形成分詞結(jié)果
jieba庫分詞的三種模式:精確模式、全模式、搜索引擎模式
精確模式:把文本精確的切分開,不存在冗余單詞
全模式:把文本中所有可能的詞語都掃描出來,有冗余
搜索引擎模式:在精確模式的基礎(chǔ)上,對長詞再次切分
常用函數(shù):
jieba.lcut(s):精確模式,返回一個列表類型的分詞結(jié)果
jieba.lcut(s,cut_all=True):全模式,返回一個列表類型的分詞結(jié)果,存在冗余
jieba.lcut_for_search(s):搜索引擎模式,返回一個列表類型的分詞結(jié)果,存在冗余
jieba.add_word(w):向分詞詞典增加新詞w
另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點(diǎn)與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。