真实的国产乱ⅩXXX66竹夫人,五月香六月婷婷激情综合,亚洲日本VA一区二区三区,亚洲精品一区二区三区麻豆

成都創(chuàng)新互聯(lián)網(wǎng)站制作重慶分公司

Python中正則表達(dá)式是什么-創(chuàng)新互聯(lián)

創(chuàng)新互聯(lián)www.cdcxhl.cn八線動(dòng)態(tài)BGP香港云服務(wù)器提供商,新人活動(dòng)買(mǎi)多久送多久,劃算不套路!

專(zhuān)注于為中小企業(yè)提供網(wǎng)站設(shè)計(jì)、成都網(wǎng)站建設(shè)服務(wù),電腦端+手機(jī)端+微信端的三站合一,更高效的管理,為中小企業(yè)津南免費(fèi)做網(wǎng)站提供優(yōu)質(zhì)的服務(wù)。我們立足成都,凝聚了一批互聯(lián)網(wǎng)行業(yè)人才,有力地推動(dòng)了上1000+企業(yè)的穩(wěn)健成長(zhǎng),幫助中小企業(yè)通過(guò)網(wǎng)站建設(shè)實(shí)現(xiàn)規(guī)模擴(kuò)充和轉(zhuǎn)變。

這篇文章主要介紹Python中正則表達(dá)式是什么,文中介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們一定要看完!

一、 正則表達(dá)式基礎(chǔ)

1.1.概念介紹

正則表達(dá)式是用于處理字符串的強(qiáng)大工具,它并不是Python的一部分。

其他編程語(yǔ)言中也有正則表達(dá)式的概念,區(qū)別只在于不同的編程語(yǔ)言實(shí)現(xiàn)支持的語(yǔ)法數(shù)量不同。

它擁有自己獨(dú)特的語(yǔ)法以及一個(gè)獨(dú)立的處理引擎,在提供了正則表達(dá)式的語(yǔ)言里,正則表達(dá)式的語(yǔ)法都是一樣的。

下圖展示了使用正則表達(dá)式進(jìn)行匹配的流程:

正則表達(dá)式的大致匹配過(guò)程是:

1.依次拿出表達(dá)式和文本中的字符比較,

2.如果每一個(gè)字符都能匹配,則匹配成功;一旦有匹配不成功的字符則匹配失敗。

3.如果表達(dá)式中有量詞或邊界,這個(gè)過(guò)程會(huì)稍微有一些不同。

1.2. 數(shù)量詞的貪婪模式與非貪婪模式

正則表達(dá)式通常用于在文本中查找匹配的字符串。

貪婪模式,總是嘗試匹配盡可能多的字符;

非貪婪模式則相反,總是嘗試匹配盡可能少的字符。

Python里數(shù)量詞默認(rèn)是貪婪的。

例如:正則表達(dá)式"ab*"如果用于查找"abbbc",將找到"abbb"。

而如果使用非貪婪的數(shù)量詞"ab*?",將找到"a"。

1.3. 反斜杠的問(wèn)題

與大多數(shù)編程語(yǔ)言相同,正則表達(dá)式里使用"\"作為轉(zhuǎn)義字符,這就可能造成反斜杠困擾。

假如你需要匹配文本中的字符"\",那么使用編程語(yǔ)言表示的正則表達(dá)式里將需要4個(gè)反斜杠"\\\\":

第一個(gè)和第三個(gè)用于在編程語(yǔ)言里將第二個(gè)和第四個(gè)轉(zhuǎn)義成反斜杠,

轉(zhuǎn)換成兩個(gè)反斜杠\\后再在正則表達(dá)式里轉(zhuǎn)義成一個(gè)反斜杠用來(lái)匹配反斜杠\。

這樣顯然是非常麻煩的。

Python里的原生字符串很好地解決了這個(gè)問(wèn)題,這個(gè)例子中的正則表達(dá)式可以使用r"\\"表示。

同樣,匹配一個(gè)數(shù)字的"\\d"可以寫(xiě)成r"\d"。

有了原生字符串,媽媽再也不用擔(dān)心我的反斜杠問(wèn)題~

二、 介紹re模塊

2.1. Compile

Python通過(guò)re模塊提供對(duì)正則表達(dá)式的支持。

使用re的一般步驟是:

Step1:先將正則表達(dá)式的字符串形式編譯為Pattern實(shí)例。

Step2:然后使用Pattern實(shí)例處理文本并獲得匹配結(jié)果(一個(gè)Match實(shí)例)。

Step3:最后使用Match實(shí)例獲得信息,進(jìn)行其他的操作。

我們新建一個(gè)re01.py來(lái)試驗(yàn)一下re的應(yīng)用:

代碼如下:

# -*- coding: utf-8 -*- 
#一個(gè)簡(jiǎn)單的re實(shí)例,匹配字符串中的hello字符串 
#導(dǎo)入re模塊 
import re 
# 將正則表達(dá)式編譯成Pattern對(duì)象,注意hello前面的r的意思是“原生字符串” 
pattern = re.compile(r'hello') 
# 使用Pattern匹配文本,獲得匹配結(jié)果,無(wú)法匹配時(shí)將返回None 
match2 = pattern.match('hello world!') 
match3 = pattern.match('helloo world!') 
match4 = pattern.match('helllo world!') 
#如果match2匹配成功 
if match2: 
# 使用Match獲得分組信息 
print match2.group() 
else: 
print 'match2匹配失??!' 
#如果match3匹配成功 
if match3: 
# 使用Match獲得分組信息 
print match3.group() 
else: 
print 'match3匹配失??!' 
#如果match4匹配成功 
if match4: 
# 使用Match獲得分組信息 
print match4.group() 
else: 
print 'match4匹配失敗!'

可以看到控制臺(tái)輸出了匹配的三個(gè)結(jié)果:

下面來(lái)具體看看代碼中的關(guān)鍵方法。

★ re.compile(strPattern[, flag]):

這個(gè)方法是Pattern類(lèi)的工廠方法,用于將字符串形式的正則表達(dá)式編譯為Pattern對(duì)象。

第二個(gè)參數(shù)flag是匹配模式,取值可以使用按位或運(yùn)算符'|'表示同時(shí)生效,比如re.I | re.M。

另外,你也可以在regex字符串中指定模式,

比如re.compile('pattern', re.I | re.M)與re.compile('(?im)pattern')是等價(jià)的。

可選值有:

re.I(全拼:IGNORECASE): 忽略大小寫(xiě)(括號(hào)內(nèi)是完整寫(xiě)法,下同)

re.M(全拼:MULTILINE): 多行模式,改變'^'和'$'的行為(參見(jiàn)上圖)

re.S(全拼:DOTALL): 點(diǎn)任意匹配模式,改變'.'的行為

re.L(全拼:LOCALE): 使預(yù)定字符類(lèi) \w \W \b \B \s \S 取決于當(dāng)前區(qū)域設(shè)定

re.U(全拼:UNICODE): 使預(yù)定字符類(lèi) \w \W \b \B \s \S \d \D 取決于unicode定義的字符屬性

re.X(全拼:VERBOSE): 詳細(xì)模式。這個(gè)模式下正則表達(dá)式可以是多行,忽略空白字符,并可以加入注釋。

以下兩個(gè)正則表達(dá)式是等價(jià)的:

代碼如下:

# -*- coding: utf-8 -*- 
#兩個(gè)等價(jià)的re匹配,匹配一個(gè)小數(shù) 
import re 
a = re.compile(r"""\d + # the integral part 
\. # the decimal point 
\d * # some fractional digits""", re.X) 
b = re.compile(r"\d+\.\d*") 
match21 = a.match('3.1415') 
match22 = a.match('33') 
match31 = b.match('3.1415') 
match32 = b.match('33') 
if match21: 
# 使用Match獲得分組信息 
print match21.group() 
else: 
print u'match21不是小數(shù)' 
if match22: 
# 使用Match獲得分組信息 
print match22.group() 
else: 
print u'match22不是小數(shù)' 
if match31: 
# 使用Match獲得分組信息 
print match31.group() 
else: 
print u'match31不是小數(shù)' 
if match32: 
# 使用Match獲得分組信息 
print match32.group() 
else: 
print u'match32不是小數(shù)'

re提供了眾多模塊方法用于完成正則表達(dá)式的功能。

這些方法可以使用Pattern實(shí)例的相應(yīng)方法替代,唯一的好處是少寫(xiě)一行re.compile()代碼,

但同時(shí)也無(wú)法復(fù)用編譯后的Pattern對(duì)象。

這些方法將在Pattern類(lèi)的實(shí)例方法部分一起介紹。

如一開(kāi)始的hello實(shí)例可以簡(jiǎn)寫(xiě)為:

代碼如下:

# -*- coding: utf-8 -*- 
#一個(gè)簡(jiǎn)單的re實(shí)例,匹配字符串中的hello字符串 
import re 
m = re.match(r'hello', 'hello world!') 
print m.group()

2.2. Match

Match對(duì)象是一次匹配的結(jié)果,包含了很多關(guān)于此次匹配的信息,可以使用Match提供的可讀屬性或方法來(lái)獲取這些信息。

屬性:

string: 匹配時(shí)使用的文本。

re: 匹配時(shí)使用的Pattern對(duì)象。

pos: 文本中正則表達(dá)式開(kāi)始搜索的索引。值與Pattern.match()和Pattern.seach()方法的同名參數(shù)相同。

endpos: 文本中正則表達(dá)式結(jié)束搜索的索引。值與Pattern.match()和Pattern.seach()方法的同名參數(shù)相同。

lastindex: 最后一個(gè)被捕獲的分組在文本中的索引。如果沒(méi)有被捕獲的分組,將為None。

lastgroup: 最后一個(gè)被捕獲的分組的別名。如果這個(gè)分組沒(méi)有別名或者沒(méi)有被捕獲的分組,將為None。

方法:

group([group1, …]):

獲得一個(gè)或多個(gè)分組截獲的字符串;指定多個(gè)參數(shù)時(shí)將以元組形式返回。group1可以使用編號(hào)也可以使用別名;編號(hào)0代表整個(gè)匹配的子串;不填寫(xiě)參數(shù)時(shí),返回group(0);沒(méi)有截獲字符串的組返回None;截獲了多次的組返回最后一次截獲的子串。

groups([default]): 

以元組形式返回全部分組截獲的字符串。相當(dāng)于調(diào)用group(1,2,…last)。default表示沒(méi)有截獲字符串的組以這個(gè)值替代,默認(rèn)為None。

groupdict([default]):

返回以有別名的組的別名為鍵、以該組截獲的子串為值的字典,沒(méi)有別名的組不包含在內(nèi)。default含義同上。

start([group]): 

返回指定的組截獲的子串在string中的起始索引(子串第一個(gè)字符的索引)。group默認(rèn)值為0。

end([group]):

返回指定的組截獲的子串在string中的結(jié)束索引(子串最后一個(gè)字符的索引+1)。group默認(rèn)值為0。

span([group]):

返回(start(group), end(group))。

expand(template): 

將匹配到的分組代入template中然后返回。template中可以使用\id或\g、\g引用分組,但不能使用編號(hào)0。\id與\g是等價(jià)的;但\10將被認(rèn)為是第10個(gè)分組,如果你想表達(dá)\1之后是字符'0',只能使用\g<1>0。

下面來(lái)用一個(gè)py實(shí)例輸出所有的內(nèi)容加深理解:

代碼如下:

# -*- coding: utf-8 -*- 
#一個(gè)簡(jiǎn)單的match實(shí)例 
import re 
# 匹配如下內(nèi)容:?jiǎn)卧~+空格+單詞+任意字符 
m = re.match(r'(\w+) (\w+)(?P.*)', 'hello world!') 
print "m.string:", m.string 
print "m.re:", m.re 
print "m.pos:", m.pos 
print "m.endpos:", m.endpos 
print "m.lastindex:", m.lastindex 
print "m.lastgroup:", m.lastgroup 
print "m.group():", m.group() 
print "m.group(1,2):", m.group(1, 2) 
print "m.groups():", m.groups() 
print "m.groupdict():", m.groupdict() 
print "m.start(2):", m.start(2) 
print "m.end(2):", m.end(2) 
print "m.span(2):", m.span(2) 
print r"m.expand(r'\g<2> \g<1>\g<3>'):", m.expand(r'\2 \1\3') 
### output ### 
# m.string: hello world! 
# m.re: <_sre.SRE_Pattern object at 0x016E1A38> 
# m.pos: 0 
# m.endpos: 12 
# m.lastindex: 3 
# m.lastgroup: sign 
# m.group(1,2): ('hello', 'world') 
# m.groups(): ('hello', 'world', '!') 
# m.groupdict(): {'sign': '!'} 
# m.start(2): 6 
# m.end(2): 11 
# m.span(2): (6, 11) 
# m.expand(r'\2 \1\3'): world hello!

2.3. Pattern

Pattern對(duì)象是一個(gè)編譯好的正則表達(dá)式,通過(guò)Pattern提供的一系列方法可以對(duì)文本進(jìn)行匹配查找。

Pattern不能直接實(shí)例化,必須使用re.compile()進(jìn)行構(gòu)造,也就是re.compile()返回的對(duì)象。

Pattern提供了幾個(gè)可讀屬性用于獲取表達(dá)式的相關(guān)信息:

pattern: 編譯時(shí)用的表達(dá)式字符串。

flags: 編譯時(shí)用的匹配模式。數(shù)字形式。

groups: 表達(dá)式中分組的數(shù)量。

groupindex: 以表達(dá)式中有別名的組的別名為鍵、以該組對(duì)應(yīng)的編號(hào)為值的字典,沒(méi)有別名的組不包含在內(nèi)。

可以用下面這個(gè)例子查看pattern的屬性:

代碼如下:

# -*- coding: utf-8 -*- 
#一個(gè)簡(jiǎn)單的pattern實(shí)例 
import re 
p = re.compile(r'(\w+) (\w+)(?P.*)', re.DOTALL) 
print "p.pattern:", p.pattern 
print "p.flags:", p.flags 
print "p.groups:", p.groups 
print "p.groupindex:", p.groupindex 
### output ### 
# p.pattern: (\w+) (\w+)(?P.*) 
# p.flags: 16 
# p.groups: 3 
# p.groupindex: {'sign': 3}

以上是Python中正則表達(dá)式是什么的所有內(nèi)容,感謝各位的閱讀!希望分享的內(nèi)容對(duì)大家有幫助,更多相關(guān)知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)-成都網(wǎng)站建設(shè)公司行業(yè)資訊頻道!


當(dāng)前文章:Python中正則表達(dá)式是什么-創(chuàng)新互聯(lián)
文章網(wǎng)址:http://weahome.cn/article/dgoihj.html

其他資訊

在線咨詢(xún)

微信咨詢(xún)

電話咨詢(xún)

028-86922220(工作日)

18980820575(7×24)

提交需求

返回頂部