Python中正則表達(dá)式是什么-創(chuàng)新互聯(lián)

創(chuàng)新互聯(lián)www.cdcxhl.cn八線動(dòng)態(tài)BGP香港云服務(wù)器提供商，新人活動(dòng)買(mǎi)多久送多久，劃算不套路！

專(zhuān)注于為中小企業(yè)提供網(wǎng)站設(shè)計(jì)、成都網(wǎng)站建設(shè)服務(wù),電腦端+手機(jī)端+微信端的三站合一,更高效的管理,為中小企業(yè)津南免費(fèi)做網(wǎng)站提供優(yōu)質(zhì)的服務(wù)。我們立足成都，凝聚了一批互聯(lián)網(wǎng)行業(yè)人才，有力地推動(dòng)了上1000+企業(yè)的穩(wěn)健成長(zhǎng)，幫助中小企業(yè)通過(guò)網(wǎng)站建設(shè)實(shí)現(xiàn)規(guī)模擴(kuò)充和轉(zhuǎn)變。

這篇文章主要介紹Python中正則表達(dá)式是什么，文中介紹的非常詳細(xì)，具有一定的參考價(jià)值，感興趣的小伙伴們一定要看完！

一、正則表達(dá)式基礎(chǔ)

1.1.概念介紹

正則表達(dá)式是用于處理字符串的強(qiáng)大工具，它并不是Python的一部分。

其他編程語(yǔ)言中也有正則表達(dá)式的概念，區(qū)別只在于不同的編程語(yǔ)言實(shí)現(xiàn)支持的語(yǔ)法數(shù)量不同。

它擁有自己獨(dú)特的語(yǔ)法以及一個(gè)獨(dú)立的處理引擎，在提供了正則表達(dá)式的語(yǔ)言里，正則表達(dá)式的語(yǔ)法都是一樣的。

下圖展示了使用正則表達(dá)式進(jìn)行匹配的流程：

正則表達(dá)式的大致匹配過(guò)程是：

1.依次拿出表達(dá)式和文本中的字符比較，

2.如果每一個(gè)字符都能匹配，則匹配成功；一旦有匹配不成功的字符則匹配失敗。

3.如果表達(dá)式中有量詞或邊界，這個(gè)過(guò)程會(huì)稍微有一些不同。

1.2. 數(shù)量詞的貪婪模式與非貪婪模式

正則表達(dá)式通常用于在文本中查找匹配的字符串。

貪婪模式，總是嘗試匹配盡可能多的字符；

非貪婪模式則相反，總是嘗試匹配盡可能少的字符。

Python里數(shù)量詞默認(rèn)是貪婪的。

例如：正則表達(dá)式"ab*"如果用于查找"abbbc"，將找到"abbb"。

而如果使用非貪婪的數(shù)量詞"ab*?"，將找到"a"。

1.3. 反斜杠的問(wèn)題

與大多數(shù)編程語(yǔ)言相同，正則表達(dá)式里使用"\"作為轉(zhuǎn)義字符，這就可能造成反斜杠困擾。

假如你需要匹配文本中的字符"\"，那么使用編程語(yǔ)言表示的正則表達(dá)式里將需要4個(gè)反斜杠"\\\\"：

第一個(gè)和第三個(gè)用于在編程語(yǔ)言里將第二個(gè)和第四個(gè)轉(zhuǎn)義成反斜杠，

轉(zhuǎn)換成兩個(gè)反斜杠\\后再在正則表達(dá)式里轉(zhuǎn)義成一個(gè)反斜杠用來(lái)匹配反斜杠\。

這樣顯然是非常麻煩的。

Python里的原生字符串很好地解決了這個(gè)問(wèn)題，這個(gè)例子中的正則表達(dá)式可以使用r"\\"表示。

同樣，匹配一個(gè)數(shù)字的"\\d"可以寫(xiě)成r"\d"。

有了原生字符串，媽媽再也不用擔(dān)心我的反斜杠問(wèn)題~

二、介紹re模塊

2.1. Compile

Python通過(guò)re模塊提供對(duì)正則表達(dá)式的支持。

使用re的一般步驟是：

Step1：先將正則表達(dá)式的字符串形式編譯為Pattern實(shí)例。

Step2：然后使用Pattern實(shí)例處理文本并獲得匹配結(jié)果（一個(gè)Match實(shí)例）。

Step3：最后使用Match實(shí)例獲得信息，進(jìn)行其他的操作。

我們新建一個(gè)re01.py來(lái)試驗(yàn)一下re的應(yīng)用：

代碼如下:

# -*- coding: utf-8 -*- 
#一個(gè)簡(jiǎn)單的re實(shí)例，匹配字符串中的hello字符串 
#導(dǎo)入re模塊 
import re 
# 將正則表達(dá)式編譯成Pattern對(duì)象，注意hello前面的r的意思是“原生字符串” 
pattern = re.compile(r'hello') 
# 使用Pattern匹配文本，獲得匹配結(jié)果，無(wú)法匹配時(shí)將返回None 
match2 = pattern.match('hello world!') 
match3 = pattern.match('helloo world!') 
match4 = pattern.match('helllo world!') 
#如果match2匹配成功 
if match2: 
# 使用Match獲得分組信息 
print match2.group() 
else: 
print 'match2匹配失??！' 
#如果match3匹配成功 
if match3: 
# 使用Match獲得分組信息 
print match3.group() 
else: 
print 'match3匹配失??！' 
#如果match4匹配成功 
if match4: 
# 使用Match獲得分組信息 
print match4.group() 
else: 
print 'match4匹配失敗！'

可以看到控制臺(tái)輸出了匹配的三個(gè)結(jié)果：

下面來(lái)具體看看代碼中的關(guān)鍵方法。

★ re.compile(strPattern[, flag]):

這個(gè)方法是Pattern類(lèi)的工廠方法，用于將字符串形式的正則表達(dá)式編譯為Pattern對(duì)象。

第二個(gè)參數(shù)flag是匹配模式，取值可以使用按位或運(yùn)算符'|'表示同時(shí)生效，比如re.I | re.M。

另外，你也可以在regex字符串中指定模式，

比如re.compile('pattern', re.I | re.M)與re.compile('(?im)pattern')是等價(jià)的。

可選值有：

re.I(全拼：IGNORECASE): 忽略大小寫(xiě)（括號(hào)內(nèi)是完整寫(xiě)法，下同）

re.M(全拼：MULTILINE): 多行模式，改變'^'和'$'的行為（參見(jiàn)上圖）

re.S(全拼：DOTALL): 點(diǎn)任意匹配模式，改變'.'的行為

re.L(全拼：LOCALE): 使預(yù)定字符類(lèi) \w \W \b \B \s \S 取決于當(dāng)前區(qū)域設(shè)定

re.U(全拼：UNICODE): 使預(yù)定字符類(lèi) \w \W \b \B \s \S \d \D 取決于unicode定義的字符屬性

re.X(全拼：VERBOSE): 詳細(xì)模式。這個(gè)模式下正則表達(dá)式可以是多行，忽略空白字符，并可以加入注釋。

以下兩個(gè)正則表達(dá)式是等價(jià)的：

代碼如下:

# -*- coding: utf-8 -*- 
#兩個(gè)等價(jià)的re匹配,匹配一個(gè)小數(shù) 
import re 
a = re.compile(r"""\d + # the integral part 
\. # the decimal point 
\d * # some fractional digits""", re.X) 
b = re.compile(r"\d+\.\d*") 
match21 = a.match('3.1415') 
match22 = a.match('33') 
match31 = b.match('3.1415') 
match32 = b.match('33') 
if match21: 
# 使用Match獲得分組信息 
print match21.group() 
else: 
print u'match21不是小數(shù)' 
if match22: 
# 使用Match獲得分組信息 
print match22.group() 
else: 
print u'match22不是小數(shù)' 
if match31: 
# 使用Match獲得分組信息 
print match31.group() 
else: 
print u'match31不是小數(shù)' 
if match32: 
# 使用Match獲得分組信息 
print match32.group() 
else: 
print u'match32不是小數(shù)'

re提供了眾多模塊方法用于完成正則表達(dá)式的功能。

這些方法可以使用Pattern實(shí)例的相應(yīng)方法替代，唯一的好處是少寫(xiě)一行re.compile()代碼，

但同時(shí)也無(wú)法復(fù)用編譯后的Pattern對(duì)象。

這些方法將在Pattern類(lèi)的實(shí)例方法部分一起介紹。

如一開(kāi)始的hello實(shí)例可以簡(jiǎn)寫(xiě)為：

代碼如下:

# -*- coding: utf-8 -*- 
#一個(gè)簡(jiǎn)單的re實(shí)例，匹配字符串中的hello字符串 
import re 
m = re.match(r'hello', 'hello world!') 
print m.group()

2.2. Match

Match對(duì)象是一次匹配的結(jié)果，包含了很多關(guān)于此次匹配的信息，可以使用Match提供的可讀屬性或方法來(lái)獲取這些信息。

屬性：

string: 匹配時(shí)使用的文本。

re: 匹配時(shí)使用的Pattern對(duì)象。

pos: 文本中正則表達(dá)式開(kāi)始搜索的索引。值與Pattern.match()和Pattern.seach()方法的同名參數(shù)相同。

endpos: 文本中正則表達(dá)式結(jié)束搜索的索引。值與Pattern.match()和Pattern.seach()方法的同名參數(shù)相同。

lastindex: 最后一個(gè)被捕獲的分組在文本中的索引。如果沒(méi)有被捕獲的分組，將為None。

lastgroup: 最后一個(gè)被捕獲的分組的別名。如果這個(gè)分組沒(méi)有別名或者沒(méi)有被捕獲的分組，將為None。

方法：

group([group1, …])：

獲得一個(gè)或多個(gè)分組截獲的字符串；指定多個(gè)參數(shù)時(shí)將以元組形式返回。group1可以使用編號(hào)也可以使用別名；編號(hào)0代表整個(gè)匹配的子串；不填寫(xiě)參數(shù)時(shí)，返回group(0)；沒(méi)有截獲字符串的組返回None；截獲了多次的組返回最后一次截獲的子串。

groups([default])：

以元組形式返回全部分組截獲的字符串。相當(dāng)于調(diào)用group(1,2,…last)。default表示沒(méi)有截獲字符串的組以這個(gè)值替代，默認(rèn)為None。

groupdict([default])：

返回以有別名的組的別名為鍵、以該組截獲的子串為值的字典，沒(méi)有別名的組不包含在內(nèi)。default含義同上。

start([group])：

返回指定的組截獲的子串在string中的起始索引（子串第一個(gè)字符的索引）。group默認(rèn)值為0。

end([group])：

返回指定的組截獲的子串在string中的結(jié)束索引（子串最后一個(gè)字符的索引+1）。group默認(rèn)值為0。

span([group])：

返回(start(group), end(group))。

expand(template)：

將匹配到的分組代入template中然后返回。template中可以使用\id或\g、\g引用分組，但不能使用編號(hào)0。\id與\g是等價(jià)的；但\10將被認(rèn)為是第10個(gè)分組，如果你想表達(dá)\1之后是字符'0'，只能使用\g<1>0。

下面來(lái)用一個(gè)py實(shí)例輸出所有的內(nèi)容加深理解：

代碼如下:

# -*- coding: utf-8 -*- 
#一個(gè)簡(jiǎn)單的match實(shí)例 
import re 
# 匹配如下內(nèi)容：?jiǎn)卧~+空格+單詞+任意字符 
m = re.match(r'(\w+) (\w+)(?P.*)', 'hello world!') 
print "m.string:", m.string 
print "m.re:", m.re 
print "m.pos:", m.pos 
print "m.endpos:", m.endpos 
print "m.lastindex:", m.lastindex 
print "m.lastgroup:", m.lastgroup 
print "m.group():", m.group() 
print "m.group(1,2):", m.group(1, 2) 
print "m.groups():", m.groups() 
print "m.groupdict():", m.groupdict() 
print "m.start(2):", m.start(2) 
print "m.end(2):", m.end(2) 
print "m.span(2):", m.span(2) 
print r"m.expand(r'\g<2> \g<1>\g<3>'):", m.expand(r'\2 \1\3') 
### output ### 
# m.string: hello world! 
# m.re: <_sre.SRE_Pattern object at 0x016E1A38> 
# m.pos: 0 
# m.endpos: 12 
# m.lastindex: 3 
# m.lastgroup: sign 
# m.group(1,2): ('hello', 'world') 
# m.groups(): ('hello', 'world', '!') 
# m.groupdict(): {'sign': '!'} 
# m.start(2): 6 
# m.end(2): 11 
# m.span(2): (6, 11) 
# m.expand(r'\2 \1\3'): world hello!

2.3. Pattern

Pattern對(duì)象是一個(gè)編譯好的正則表達(dá)式，通過(guò)Pattern提供的一系列方法可以對(duì)文本進(jìn)行匹配查找。

Pattern不能直接實(shí)例化，必須使用re.compile()進(jìn)行構(gòu)造，也就是re.compile()返回的對(duì)象。

Pattern提供了幾個(gè)可讀屬性用于獲取表達(dá)式的相關(guān)信息：

pattern: 編譯時(shí)用的表達(dá)式字符串。

flags: 編譯時(shí)用的匹配模式。數(shù)字形式。

groups: 表達(dá)式中分組的數(shù)量。

groupindex: 以表達(dá)式中有別名的組的別名為鍵、以該組對(duì)應(yīng)的編號(hào)為值的字典，沒(méi)有別名的組不包含在內(nèi)。

可以用下面這個(gè)例子查看pattern的屬性：

代碼如下:

# -*- coding: utf-8 -*- 
#一個(gè)簡(jiǎn)單的pattern實(shí)例 
import re 
p = re.compile(r'(\w+) (\w+)(?P.*)', re.DOTALL) 
print "p.pattern:", p.pattern 
print "p.flags:", p.flags 
print "p.groups:", p.groups 
print "p.groupindex:", p.groupindex 
### output ### 
# p.pattern: (\w+) (\w+)(?P.*) 
# p.flags: 16 
# p.groups: 3 
# p.groupindex: {'sign': 3}

以上是Python中正則表達(dá)式是什么的所有內(nèi)容，感謝各位的閱讀！希望分享的內(nèi)容對(duì)大家有幫助，更多相關(guān)知識(shí)，歡迎關(guān)注創(chuàng)新互聯(lián)-成都網(wǎng)站建設(shè)公司行業(yè)資訊頻道！

當(dāng)前文章：Python中正則表達(dá)式是什么-創(chuàng)新互聯(lián)
文章網(wǎng)址：http://weahome.cn/article/dgoihj.html

真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

Python中正則表達(dá)式是什么-創(chuàng)新互聯(lián)

其他資訊

網(wǎng)站制作

企業(yè)服務(wù)

網(wǎng)站建設(shè)

服務(wù)器托管