小編給大家分享一下python怎么實(shí)現(xiàn)中文文本分句,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!
城區(qū)網(wǎng)站建設(shè)公司創(chuàng)新互聯(lián)建站,城區(qū)網(wǎng)站設(shè)計(jì)制作,有大型網(wǎng)站制作公司豐富經(jīng)驗(yàn)。已為城區(qū)成百上千提供企業(yè)網(wǎng)站建設(shè)服務(wù)。企業(yè)網(wǎng)站搭建\成都外貿(mào)網(wǎng)站建設(shè)要多少錢,請(qǐng)找那個(gè)售后服務(wù)好的城區(qū)做網(wǎng)站的公司定做!對(duì)于英文文本分句比較簡單,只要根據(jù)終結(jié)符"."劃分就好,中文文本分句看似很簡單,但是實(shí)現(xiàn)時(shí)會(huì)遇到很多麻煩,尤其是處理社交媒體數(shù)據(jù)時(shí),會(huì)遇到文本格式不規(guī)范等問題。
下面代碼針對(duì)一段一段的短文本組成了文檔分句
import re def cut_sent(infile, outfile): cutLineFlag = ["?", "!", "。","…"] #本文使用的終結(jié)符,可以修改 sentenceList = [] with open(infile, "r", encoding="UTF-8") as file: oneSentence = "" for line in file: if len(oneSentence)!=0: sentenceList.append(oneSentence.strip() + "\r") oneSentence="" # oneSentence = "" for word in words: if word not in cutLineFlag: oneSentence = oneSentence + word else: oneSentence = oneSentence + word if oneSentence.__len__() > 4: sentenceList.append(oneSentence.strip() + "\r") oneSentence = "" with open(outfile, "w", encoding="UTF-8") as resultFile: print(sentenceList.__len__()) resultFile.writelines(sentenceList)
如果段尾3沒有終結(jié)符但是換行了,這句話可能會(huì)丟失,所有加入如下代碼:
if len(oneSentence)!=0: sentenceList.append(oneSentence.strip() + "\r") oneSentence=""
會(huì)得到比較好的處理結(jié)果
要處理的文本:
自從微信出了三天可見功能,我的朋友圈就越來越冷清越來越冷清越來越冷清,點(diǎn)開都沒什么可看的了。今天我把屏蔽的代購一個(gè)一個(gè)一個(gè)都放出來了,快過年了,熱鬧點(diǎn) 一女性,想DIY矯正門牙縫隙,在家自己制取模型,結(jié)果悲劇了,因?yàn)橛玫氖鞘?,自己無法取出,來我院求助,醫(yī)生廢了九牛二虎之力才搞定……DIY有風(fēng)險(xiǎn),操作需謹(jǐn)慎! 閨女同學(xué)家養(yǎng)了一只鸚鵡,兩只珍珠鳥,一只貓,兩只倉鼠。鸚鵡是老大,珍珠鳥怕它,貓是后進(jìn)家的,也怕鸚鵡。倉鼠經(jīng)常溜出籠子,據(jù)說貓會(huì)把它逮住塞回籠子。
處理后的文本:
自從微信出了三天可見功能,我的朋友圈就越來越冷清越來越冷清越來越冷清,點(diǎn)開都沒什么可看的了。 今天我把屏蔽的代購一個(gè)一個(gè)一個(gè)都放出來了,快過年了,熱鬧點(diǎn) 一女性,想DIY矯正門牙縫隙,在家自己制取模型,結(jié)果悲劇了,因?yàn)橛玫氖鞘啵约簾o法取出,來我院求助,醫(yī)生廢了九牛二虎之力才搞定… DIY有風(fēng)險(xiǎn),操作需謹(jǐn)慎! 閨女同學(xué)家養(yǎng)了一只鸚鵡,兩只珍珠鳥,一只貓,兩只倉鼠。 鸚鵡是老大,珍珠鳥怕它,貓是后進(jìn)家的,也怕鸚鵡。 倉鼠經(jīng)常溜出籠子,據(jù)說貓會(huì)把它逮住塞回籠子。
得到了比較好的分句結(jié)果,也不會(huì)丟失信息。
以上是“python怎么實(shí)現(xiàn)中文文本分句”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對(duì)大家有所幫助,如果還想學(xué)習(xí)更多知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道!