在日常項目中,我們經(jīng)常會使用python從字符串中提取我們想要的信息,以下是各種提取信息方法的總結(jié)。
創(chuàng)新互聯(lián)公司是一家專業(yè)提供婁底企業(yè)網(wǎng)站建設(shè),專注與做網(wǎng)站、網(wǎng)站建設(shè)、html5、小程序制作等業(yè)務(wù)。10年已為婁底眾多企業(yè)、政府機(jī)構(gòu)等服務(wù)。創(chuàng)新互聯(lián)專業(yè)的建站公司優(yōu)惠進(jìn)行中。
格式: str[beg:end:step]
描述: 字符串[開始索引:結(jié)束索引:步長]切取字符串為開始索引到結(jié)束索引-1內(nèi)的字符串步長不指定時步長為1
舉例:
print(str[::2]) //::這里表示整個字符串,每兩個位置提取一個
print(str[1:3]) //提取第2個到第3個
print(str[2::]) //截取2 - 末尾的字符
本小節(jié)介紹了,處理字符串經(jīng)常用到的一些函數(shù)方法。
語法: str.find(str, beg=0, end=len(string))
描述: Python find() 方法檢測字符串中是否包含子字符串 str ,如果指定 beg(開始) 和 end(結(jié)束) 范圍,則檢查是否包含在指定范圍內(nèi),如果包含子字符串返回開始的索引值,否則返回-1。
語法: str.split(str="", num=string.count(str)).
描述: Python split() 通過指定分隔符對字符串進(jìn)行切片,如果參數(shù) num 有指定值,則分隔 num+1 個子字符串.返回分割后的字符串列表,該方法可以講字符串轉(zhuǎn)化為列表處理。
另外的: str.splitlines([keepends])按照行('\r', '\r\n', \n')分隔,返回一個包含各行作為元素的列表,如果參數(shù) keepends 為 False,不包含換行符,如果為 True,則保留換行符。
語法: str.partition(str)
描述: partition() 方法用來根據(jù)指定的分隔符將字符串進(jìn)行分割。如果字符串包含指定的分隔符,則返回一個3元的元組,第一個為分隔符左邊的子串,第二個為分隔符本身,第三個為分隔符右邊的子串。
語法: str.replace(old, new, max)
描述: Python replace() 方法把字符串中的 old(舊字符串) 替換成 new(新字符串),如果指定第三個參數(shù)max,則替換不超過 max 次。
語法: str.strip([chars]);
描述: Python strip() 方法用于移除字符串頭尾指定的字符(默認(rèn)為空格或換行符)或字符序列。:該方法只能刪除開頭或是結(jié)尾的字符,不能刪除中間部分的字符。
語法: str.join(sequence)
描述: Python join() 方法用于將序列中的元素以指定的字符連接生成一個新的字符串。
上述方法還有其變形,如str.rfind(),這代表從字符串右邊開始處理,正常是從左邊開始處理。下表是其它常用的python字符串自帶函數(shù)方法。
正則表達(dá)式是一個特殊的字符序列,它能幫助你方便的檢查一個字符串是否與某種模式匹配。本小節(jié)主要介紹Python中常用的正則表達(dá)式處理函數(shù)和正則表達(dá)式的書寫規(guī)則。
re 模塊使 Python 語言擁有全部的正則表達(dá)式功能。所以在python中使用正則表達(dá)式處理函數(shù)需要import re
語法: re.search(pattern, string, flags=0)
描述: re.search 掃描整個字符串并返回第一個成功的匹配。匹配成功re.search方法返回一個匹配的對象,否則返回None。
語法: re.sub(pattern, repl, string, count=0, flags=0)
描述: Python 的 re 模塊提供了re.sub用于替換字符串中的匹配項。
語法: pattern.findall(string, pos, endpos)
描述: 在字符串中找到正則表達(dá)式所匹配的所有子串,并返回一個列表,如果沒有找到匹配的,則返回空列表。注意: match 和 search 是匹配一次 findall 匹配所有。
模式字符串使用特殊的語法來表示一個正則表達(dá)式:
import?re
a?=?"asdf[abc123]我們"
g?=?re.search("\[.*\]",?a)
if?g:
print(g.group())
else:
print("")
看看這個是不是你想要的效果,最后打印的是[abc123],如果你[]不想要,可以在匹配完成后手動去掉字符串的第一個和最后一個字符
正則表達(dá)式是一個特殊的字符序列,可以幫助您使用模式中保留的專門語法來匹配或查找其他字符串或字符串集。 正則表達(dá)式在UNIX世界中被廣泛使用。
注:很多開發(fā)人員覺得正則表達(dá)式比較難以理解,主要原因是缺少使用或不愿意在這上面花時間。
re模塊在Python中提供對Perl類正則表達(dá)式的完全支持。如果在編譯或使用正則表達(dá)式時發(fā)生錯誤,則re模塊會引發(fā)異常re.error。
在這篇文章中,將介紹兩個重要的功能,用來處理正則表達(dá)式。 然而,首先是一件小事:有各種各樣的字符,這些字符在正則表達(dá)式中使用時會有特殊的意義。 為了在處理正則表達(dá)式時避免混淆,我們將使用:r'expression'原始字符串。
匹配單個字符的基本模式
編譯標(biāo)志可以修改正則表達(dá)式的某些方面。標(biāo)志在re模塊中有兩個名稱:一個很長的名稱,如IGNORECASE,和一個簡短的單字母形式,如。
1.match函數(shù)
此函數(shù)嘗試將RE模式與可選標(biāo)志的字符串進(jìn)行匹配。
下面是函數(shù)的語法 :
這里是參數(shù)的描述 :
pattern : 這是要匹配的正則表達(dá)式。
string : 這是字符串,它將被搜索用于匹配字符串開頭的模式。 |
flags : 可以使用按位OR(|)指定不同的標(biāo)志。 這些是修飾符,如下表所列。
re.match函數(shù)在成功時返回匹配對象,失敗時返回None。使用match(num)或groups()函數(shù)匹配對象來獲取匹配的表達(dá)式。
示例
當(dāng)執(zhí)行上述代碼時,會產(chǎn)生以下結(jié)果 :
2.search函數(shù)
此函數(shù)嘗試將RE模式與可選標(biāo)志的字符串進(jìn)行匹配。
下面是這個函數(shù)的語法 :
這里是參數(shù)的描述 :
pattern : 這是要匹配的正則表達(dá)式。
string : 這是字符串,它將被搜索用于匹配字符串開頭的模式。 |
flags : 可以使用按位OR(|)指定不同的標(biāo)志。 這些是修飾符,如下表所列。
re.search函數(shù)在成功時返回匹配對象,否則返回None。使用match對象的group(num)或groups()函數(shù)來獲取匹配的表達(dá)式。
示例
當(dāng)執(zhí)行上述代碼時,會產(chǎn)生以下結(jié)果 :
3.匹配與搜索
Python提供基于正則表達(dá)式的兩種不同的原始操作:match檢查僅匹配字符串的開頭,而search檢查字符串中任何位置的匹配(這是Perl默認(rèn)情況下的匹配)。
示例
當(dāng)執(zhí)行上述代碼時,會產(chǎn)生以下結(jié)果 :
4.搜索和替換
使用正則表達(dá)式re模塊中的最重要的之一是sub。
模塊
此方法使用repl替換所有出現(xiàn)在RE模式的字符串,替換所有出現(xiàn),除非提供max。此方法返回修改的字符串。
示例
當(dāng)執(zhí)行上述代碼時,會產(chǎn)生以下結(jié)果 :
5.正則表達(dá)式修飾符:選項標(biāo)志
正則表達(dá)式文字可能包含一個可選修飾符,用于控制匹配的各個方面。 修飾符被指定為可選標(biāo)志??梢允褂卯惢?|)提供多個修飾符,如前所示,可以由以下之一表示 :
6.正則表達(dá)模式
除了控制字符(+ ? . * ^ $ ( ) [ ] { } | ),所有字符都與其自身匹配。 可以通過使用反斜杠將其轉(zhuǎn)換為控制字符。
7.正則表達(dá)式示例
字符常量
字符類
特殊字符類
重復(fù)匹配
非貪婪重復(fù)
這匹配最小的重復(fù)次數(shù) :
用圓括號分組
反向引用
這與以前匹配的組再次匹配 :
備擇方案
python|perl : 匹配“python”或“perl”
rub(y|le) : 匹配 “ruby” 或 “ruble”
Python(!+|?) : “Python”后跟一個或多個! 還是一個?
錨點
這需要指定匹配位置。
帶括號的特殊語法
開課吧廣場-人才學(xué)習(xí)交流平臺-開課吧
Python 的re模塊提供了re.sub用于替換字符串中的匹配項。
語法:
re.sub(pattern, repl, string, count=0)
參數(shù):
pattern : 正則中的模式字符串。
repl : 替換的字符串,也可為一個函數(shù)。
string : 要被查找替換的原始字符串。
count : 模式匹配后替換的最大次數(shù),默認(rèn) 0 表示替換所有的匹配。
實例:
注:re.sub(r'[a-zA-Z",:{}]', "", data),中括號表示選擇其中的任意元素,a-zA-Z表示任意字母。