在python中分句的方法-創(chuàng)新互聯(lián)

創(chuàng)新互聯(lián)www.cdcxhl.cn八線動態(tài)BGP香港云服務器提供商，新人活動買多久送多久，劃算不套路！

創(chuàng)新互聯(lián)致力于互聯(lián)網(wǎng)品牌建設與網(wǎng)絡營銷，包括成都網(wǎng)站制作、網(wǎng)站建設、外貿網(wǎng)站建設、SEO優(yōu)化、網(wǎng)絡推廣、整站優(yōu)化營銷策劃推廣、電子商務、移動互聯(lián)網(wǎng)營銷等。創(chuàng)新互聯(lián)為不同類型的客戶提供良好的互聯(lián)網(wǎng)應用定制及解決方案，創(chuàng)新互聯(lián)核心團隊10年專注互聯(lián)網(wǎng)開發(fā)，積累了豐富的網(wǎng)站經驗，為廣大企業(yè)客戶提供一站式企業(yè)網(wǎng)站建設服務，在網(wǎng)站建設行業(yè)內樹立了良好口碑。

這篇文章將為大家詳細講解有關在python中分句的方法，小編覺得挺實用的，因此分享給大家做個參考，希望大家閱讀完這篇文章后可以有所收獲。

在處理文本時，會遇到需要將文本以句子為單位進行切分（分句）的場景，而文本又可以分為中文文本和英文文本，處理的方法會略有不同。本文會介紹 Python 是如何處理分句的。

分句的關鍵是找到合適的結束符號，比如：中文里的。，英文里的 . 等，而且，在這一點上中英也是有很大區(qū)分的。

這里介紹一種純用 Python 實現(xiàn)的分句函數(shù)。

def cut_sentences(content):
	# 結束符號，包含中文和英文的
	end_flag = ['?', '!', '.', '？', '！', '。', '…']
	
	content_len = len(content)
	sentences = []
	tmp_char = ''
	for idx, char in enumerate(content):
		# 拼接字符
		tmp_char += char

		# 判斷是否已經到了最后一位
		if (idx + 1) == content_len:
			sentences.append(tmp_char)
			break
			
		# 判斷此字符是否為結束符號
		if char in end_flag:
			# 再判斷下一個字符是否為結束符號，如果不是結束符號，則切分句子
			next_idx = idx + 1
			if not content[next_idx] in end_flag:
				sentences.append(tmp_char)
				tmp_char = ''
				
	return sentences

content = '在處理文本時，會遇到需要將文本以 句子 為單位進行切分（分句）的場景，而文本又可以分為 中文文本 和 英文文本 ，處理的方法會略有不同。本文會介紹 Python 是如何處理 分句 的。'
sentences = cut_sentences(content)
print('\n\n'.join(sentences))

在處理文本時，會遇到需要將文本以 句子 為單位進行切分（分句）的場景，而文本又可以分為 中文文本 和 英文文本 ，處理的方法會略有不同。

本文會介紹 Python 是如何處理 分句 的。

這個函數(shù)可以通過修改 end_flag （結束符號），來自定義特定的句子切分方式，比如加入；等符號。

當然，也可以用正則表達式來完成分句，使用 re.split 的方法。

import re

def cut_sentences(content):
	sentences = re.split(r'(\.|\!|\?|。|！|？|\.{6})', content)
	return sentences

content = content = '在處理文本時，會遇到需要將文本以 句子 為單位進行切分（分句）的場景，而文本又可以分為 中文文本 和 英文文本 ，處理的方法會略有不同。本文會介紹 Python 是如何處理 分句 的。'
sentences = cut_sentences(content)
print('\n\n'.join(sentences))

在處理文本時，會遇到需要將文本以 句子 為單位進行切分（分句）的場景，而文本又可以分為 中文文本 和 英文文本 ，處理的方法會略有不同。

本文會介紹 Python 是如何處理 分句 的。

關于在python中分句的方法就分享到這里了，希望以上內容可以對大家有一定的幫助，可以學到更多知識。如果覺得文章不錯，可以把它分享出去讓更多的人看到。

分享名稱：在python中分句的方法-創(chuàng)新互聯(lián)
轉載來源：http://weahome.cn/article/djecej.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

在python中分句的方法-創(chuàng)新互聯(lián)

其他資訊

網(wǎng)站制作

企業(yè)服務

網(wǎng)站建設

服務器托管