Python中怎么使用正則表達式?相信很多沒有經(jīng)驗的人對此束手無策,為此本文總結(jié)了問題出現(xiàn)的原因和解決方法,通過這篇文章希望你能解決這個問題。
創(chuàng)新互聯(lián)是網(wǎng)站建設專家,致力于互聯(lián)網(wǎng)品牌建設與網(wǎng)絡營銷,專業(yè)領(lǐng)域包括成都網(wǎng)站制作、成都做網(wǎng)站、電商網(wǎng)站制作開發(fā)、微信小程序開發(fā)、微信營銷、系統(tǒng)平臺開發(fā),與其他網(wǎng)站設計及系統(tǒng)開發(fā)公司不同,我們的整合解決方案結(jié)合了恒基網(wǎng)絡品牌建設經(jīng)驗和互聯(lián)網(wǎng)整合營銷的理念,并將策略和執(zhí)行緊密結(jié)合,且不斷評估并優(yōu)化我們的方案,為客戶提供全方位的互聯(lián)網(wǎng)品牌整合方案!常用的正則符號
在進入字符串的匹配之前,先來了解一下都有哪些常用的正則符號,見下表所示:
如果讀者能夠比較熟練地掌握上表中的內(nèi)容,相信在字符串處理過程中將會游刃有余。如前文所說,本節(jié)將基于正則表達式完成字符串的查詢、替換和分割操作,這些操作都需要導入re模塊,并使用如下介紹的幾個函數(shù)。
字符串的匹配查詢
re模塊中的findall函數(shù)可以對指定的字符串進行遍歷匹配,獲取字符串中所有匹配的子串,并返回一個列表結(jié)果。該函數(shù)的參數(shù)含義如下:
findall(pattern, string, flags=0)
pattern:指定需要匹配的正則表達式。
string:指定待處理的字符串。
flags:指定匹配模式,常用的值可以是re.I、re.M、re.S和re.X。re.I的模式是讓正則表達式對大小寫不敏感;re.M的模式是讓正則表達式可以多行匹配;re.S的模式指明正則符號.可以匹配任意字符,包括換行符 ;re.X模式允許正則表達式可以寫得更加詳細,如多行表示、忽略空白字符、加入注釋等。
字符串的匹配替換
re模塊中的sub函數(shù)的功能是替換,類似于字符串的replace方法,該函數(shù)根據(jù)正則表達式把滿足匹配的內(nèi)容替換為repl。該函數(shù)的參數(shù)含義如下:
sub(pattern, repl, string, count=0, flags=0)
pattern:同findall函數(shù)中的pattern。
repl:指定替換成的新值。
string:同findall函數(shù)中的string。
count:用于指定最多替換的次數(shù),默認為全部替換。
flags:同findall函數(shù)中的flags。
字符串的匹配分割
re模塊中的split函數(shù)是將字符串按照指定的正則表達式分隔開,類似于字符串的split方法。該函數(shù)的具體參數(shù)含義如下:
split(pattern, string, maxsplit=0, flags=0)
pattern:同findall函數(shù)中的pattern。
maxsplit:用于指定較大分割次數(shù),默認為全部分割。
string:同findall函數(shù)中的string。
flags:同findall函數(shù)中的flags。
實戰(zhàn)案例
如果上面的函數(shù)和參數(shù)含義都已經(jīng)掌握了,還需要進一步通過案例加強理解,接下來舉例說明上面的三個函數(shù):
# 導入用于正則表達式的re模塊 import re # 取出字符串string8中所有的天氣狀態(tài) string8 = "{ymd:'2018-01-01',tianqi:'晴',aqiInfo:'輕度污染'},{ymd:'2018-01-02',tianqi:'陰~小雨',aqiInfo:'優(yōu)'},{ymd:'2018-01-03',tianqi:'小雨~中雨',aqiInfo:'優(yōu)'},{ymd:'2018-01-04',tianqi:'中雨~小雨',aqiInfo:'優(yōu)'}" # 基于正則表達式使用findall函數(shù) print(re.findall("tianqi:'(.*?)'", string8)) # 取出string9中所有含O字母的單詞 string9 = 'Together, we discovered that a free market only thrives when there are rules to ensure competition and fair play, Our celebration of initiative and enterprise' # 基于正則表達式使用findall函數(shù) print(re.findall('w*ow*',string9, flags = re.I)) # 將string10中的標點符號、數(shù)字和字母刪除 string10 = '據(jù)悉,這次發(fā)運的4臺蒸汽冷凝罐屬于國際熱核聚變實驗堆(ITER)項目的核二級壓力設備,先后完成了壓力試驗、真空試驗、氦氣檢漏試驗、千斤頂試驗、吊耳載荷試驗、疊裝試驗等驗收試驗。' # 基于正則表達式使用sub函數(shù) print(re.sub('[,。、a-zA-Z0-9()]','',string10)) # 將string11中的每個子部分內(nèi)容分割開 string11 = '2室2廳 | 101.62平 | 低區(qū)/7層 | 朝南 上海未來 - 浦東 - 金楊 - 2005年建' # 基于正則表達式使用split函數(shù) split = re.split('[-| ]', string11) print(split) # 分割結(jié)果的清洗 split_strip = [i.strip() for i in split] print(split_strip) out: ['晴', '陰~小雨', '小雨~中雨', '中雨~小雨'] ['Together', 'discovered', 'only', 'to', 'competition', 'Our', 'celebration', 'of'] 據(jù)悉這次發(fā)運的臺蒸汽冷凝罐屬于國際熱核聚變實驗堆項目的核二級壓力設備先后完成了壓力試驗真空試驗氦氣檢漏試驗千斤頂試驗吊耳載荷試驗疊裝試驗等驗收試驗 ['2室2廳 ', ' 101.62平 ', ' 低區(qū)/7層 ', ' 朝南 ', ' 上海未來 ', ' 浦東 ', ' 金楊 ', ' 2005年建'] ['2室2廳', '101.62平', '低區(qū)/7層', '朝南', '上海未來', '浦東', '金楊', '2005年建']
如上結(jié)果所示,在第一個例子中通過正則表達式"tianqi:'(.*?)'"實現(xiàn)目標數(shù)據(jù)的獲取,如果不使用括號的話,就會產(chǎn)生類似"tianqi:'晴'", "tianqi:'陰~小雨'"這樣的值,所以,加上括號就是為了分組,且僅返回組中的內(nèi)容;
第二個例子并沒有將正則表達式寫入圓括號,如果寫上圓括號也是返回一樣的結(jié)果,所以findall就是用來返回滿足匹配條件的列表值,如果有括號,就僅返回括號內(nèi)的匹配值;
第三個例子使用替換的方法,將所有的標點符號換為空字符,進而實現(xiàn)刪除的效果;
第四個例子是對字符串的分割,如果直接按照正則 '[,。、a-zA-Z0-9()]' 分割的話,返回的結(jié)果中包含空字符,如 '2室2廳' 后面就有一個空字符。為了刪除列表中每個元素的首尾空字符,使用了列表表達式,并且結(jié)合字符串的strip方法完成空字符的壓縮。
看完上述內(nèi)容,你們掌握Python中怎么使用正則表達式的方法了嗎?如果還想學到更多技能或想了解更多相關(guān)內(nèi)容,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝各位的閱讀!