這篇文章給大家分享的是有關(guān)Python3爬蟲中正則表達(dá)式的使用方法的內(nèi)容。小編覺得挺實(shí)用的,因此分享給大家做個(gè)參考。一起跟隨小編過來看看吧。
創(chuàng)新互聯(lián)建站是一家專注網(wǎng)站建設(shè)、網(wǎng)絡(luò)營銷策劃、微信小程序、電子商務(wù)建設(shè)、網(wǎng)絡(luò)推廣、移動(dòng)互聯(lián)開發(fā)、研究、服務(wù)為一體的技術(shù)型公司。公司成立十多年以來,已經(jīng)為上千家白烏魚各業(yè)的企業(yè)公司提供互聯(lián)網(wǎng)服務(wù)?,F(xiàn)在,服務(wù)的上千家客戶與我們一路同行,見證我們的成長;未來,我們一起分享成功的喜悅。
1. 實(shí)例引入
說了這么多,可能我們對它到底是個(gè)什么還是比較模糊,下面就用幾個(gè)實(shí)例來看一下正則表達(dá)式的用法。
打開開源中國提供的正則表達(dá)式測試工具h(yuǎn)ttp://tool.oschina.net/regex/,輸入待匹配的文本,然后選擇常用的正則表達(dá)式,就可以得出相應(yīng)的匹配結(jié)果了。例如,這里輸入待匹配的文本如下:
Hello, my phone number is 010-86432100 and email is cqc@cuiqingcai.com, and my website is http://cuiqingcai.com.
這段字符串中包含了一個(gè)電話號(hào)碼和一個(gè)電子郵件,接下來就嘗試用正則表達(dá)式提取出來,如圖3-10所示。
圖3-10 運(yùn)行頁面
在網(wǎng)頁右側(cè)選擇“匹配Email地址”,就可以看到下方出現(xiàn)了文本中的E-mail。如果選擇“匹配網(wǎng)址URL”,就可以看到下方出現(xiàn)了文本中的URL。是不是非常神奇?
其實(shí),這里就是用了正則表達(dá)式匹配,也就是用一定的規(guī)則將特定的文本提取出來。比如,電子郵件開頭是一段字符串,然后是一個(gè)@符號(hào),最后是某個(gè)域名,這是有特定的組成格式的。另外,對于URL,開頭是協(xié)議類型,然后是冒號(hào)加雙斜線,最后是域名加路徑。
對于URL來說,可以用下面的正則表達(dá)式匹配:
[a-zA-z]+://[^\s]*
用這個(gè)正則表達(dá)式去匹配一個(gè)字符串,如果這個(gè)字符串中包含類似URL的文本,那就會(huì)被提取出來。
這個(gè)正則表達(dá)式看上去是亂糟糟的一團(tuán),其實(shí)不然,這里面都是有特定的語法規(guī)則的。比如,a-z代表匹配任意的小寫字母,\s表示匹配任意的空白字符,*就代表匹配前面的字符任意多個(gè),這一長串的正則表達(dá)式就是這么多匹配規(guī)則的組合。
寫好正則表達(dá)式后,就可以拿它去一個(gè)長字符串里匹配查找了。不論這個(gè)字符串里面有什么,只要符合我們寫的規(guī)則,統(tǒng)統(tǒng)可以找出來。對于網(wǎng)頁來說,如果想找出網(wǎng)頁源代碼里有多少URL,用匹配URL的正則表達(dá)式去匹配即可。
上面我們說了幾個(gè)匹配規(guī)則,表3-2列出了常用的匹配規(guī)則。
表3-2 常用的匹配規(guī)則
看完了之后,可能有點(diǎn)暈暈的吧,不過不用擔(dān)心,后面我們會(huì)詳細(xì)講解一些常見規(guī)則的用法。
其實(shí)正則表達(dá)式不是Python獨(dú)有的,它也可以用在其他編程語言中。但是Python的re庫提供了整個(gè)正則表達(dá)式的實(shí)現(xiàn),利用這個(gè)庫,可以在Python中使用正則表達(dá)式。在Python中寫正則表達(dá)式幾乎都用這個(gè)庫,下面就來了解它的一些常用方法。
2. match()
這里首先介紹第一個(gè)常用的匹配方法——match(),向它傳入要匹配的字符串以及正則表達(dá)式,就可以檢測這個(gè)正則表達(dá)式是否匹配字符串。
match()方法會(huì)嘗試從字符串的起始位置匹配正則表達(dá)式,如果匹配,就返回匹配成功的結(jié)果;如果不匹配,就返回None。示例如下:
import re content = 'Hello 123 4567 World_This is a Regex Demo' print(len(content)) result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}', content) print(result) print(result.group()) print(result.span())
運(yùn)行結(jié)果如下:
41 <_sre.SRE_Match object; span=(0, 25), match='Hello 123 4567 World_This'> Hello 123 4567 World_This (0, 25)
這里首先聲明了一個(gè)字符串,其中包含英文字母、空白字符、數(shù)字等。接下來,我們寫一個(gè)正則表達(dá)式:
^Hello\s\d\d\d\s\d{4}\s\w{10}
用它來匹配這個(gè)長字符串。開頭的^是匹配字符串的開頭,也就是以Hello開頭;然后\s匹配空白字符,用來匹配目標(biāo)字符串的空格;\d匹配數(shù)字,3個(gè)\d匹配123;然后再寫1個(gè)\s匹配空格;后面還有4567,我們其實(shí)可以依然用4個(gè)\d來匹配,但是這么寫比較煩瑣,所以后面可以跟{4}以代表匹配前面的規(guī)則4次,也就是匹配4個(gè)數(shù)字;然后后面再緊接1個(gè)空白字符,最后\w{10}匹配10個(gè)字母及下劃線。我們注意到,這里其實(shí)并沒有把目標(biāo)字符串匹配完,不過這樣依然可以進(jìn)行匹配,只不過匹配結(jié)果短一點(diǎn)而已。
而在match()方法中,第一個(gè)參數(shù)傳入了正則表達(dá)式,第二個(gè)參數(shù)傳入了要匹配的字符串。
打印輸出結(jié)果,可以看到結(jié)果是SRE_Match對象,這證明成功匹配。該對象有兩個(gè)方法:group()方法可以輸出匹配到的內(nèi)容,結(jié)果是Hello 123 4567 World_This,這恰好是正則表達(dá)式規(guī)則所匹配的內(nèi)容;span()方法可以輸出匹配的范圍,結(jié)果是(0, 25),這就是匹配到的結(jié)果字符串在原字符串中的位置范圍。
通過上面的例子,我們基本了解了如何在Python中使用正則表達(dá)式來匹配一段文字。
匹配目標(biāo)
剛才我們用match()方法可以得到匹配到的字符串內(nèi)容,但是如果想從字符串中提取一部分內(nèi)容,該怎么辦呢?就像最前面的實(shí)例一樣,從一段文本中提取出郵件或電話號(hào)碼等內(nèi)容。
這里可以使用()括號(hào)將想提取的子字符串括起來。()實(shí)際上標(biāo)記了一個(gè)子表達(dá)式的開始和結(jié)束位置,被標(biāo)記的每個(gè)子表達(dá)式會(huì)依次對應(yīng)每一個(gè)分組,調(diào)用group()方法傳入分組的索引即可獲取提取的結(jié)果。示例如下:
import re content = 'Hello 1234567 World_This is a Regex Demo' result = re.match('^Hello\s(\d+)\sWorld', content) print(result) print(result.group()) print(result.group(1)) print(result.span())
這里我們想把字符串中的1234567提取出來,此時(shí)可以將數(shù)字部分的正則表達(dá)式用()括起來,然后調(diào)用了group(1)獲取匹配結(jié)果。
運(yùn)行結(jié)果如下:
<_sre.SRE_Match object; span=(0, 19), match='Hello 1234567 World'> Hello 1234567 World 1234567 (0, 19)
可以看到,我們成功得到了1234567。這里用的是group(1),它與group()有所不同,后者會(huì)輸出完整的匹配結(jié)果,而前者會(huì)輸出第一個(gè)被()包圍的匹配結(jié)果。假如正則表達(dá)式后面還有()包括的內(nèi)容,那么可以依次用group(2)、group(3)等來獲取。
通用匹配
剛才我們寫的正則表達(dá)式其實(shí)比較復(fù)雜,出現(xiàn)空白字符我們就寫\s匹配,出現(xiàn)數(shù)字我們就用\d匹配,這樣的工作量非常大。其實(shí)完全沒必要這么做,因?yàn)檫€有一個(gè)萬能匹配可以用,那就是.*(點(diǎn)星)。其中.(點(diǎn))可以匹配任意字符(除換行符),*(星)代表匹配前面的字符無限次,所以它們組合在一起就可以匹配任意字符了。有了它,我們就不用挨個(gè)字符地匹配了。
接著上面的例子,我們可以改寫一下正則表達(dá)式:
import re content = 'Hello 123 4567 World_This is a Regex Demo' result = re.match('^Hello.*Demo$', content) print(result) print(result.group()) print(result.span())
這里我們將中間部分直接省略,全部用.*來代替,最后加一個(gè)結(jié)尾字符串就好了。運(yùn)行結(jié)果如下:
<_sre.SRE_Match object; span=(0, 41), match='Hello 123 4567 World_This is a Regex Demo'> Hello 123 4567 World_This is a Regex Demo (0, 41)
可以看到,group()方法輸出了匹配的全部字符串,也就是說我們寫的正則表達(dá)式匹配到了目標(biāo)字符串的全部內(nèi)容;span()方法輸出(0, 41),這是整個(gè)字符串的長度。
因此,我們可以使用.*簡化正則表達(dá)式的書寫。
貪婪與非貪婪
使用上面的通用匹配.*時(shí),可能有時(shí)候匹配到的并不是我們想要的結(jié)果??聪旅娴睦樱?/p>
import re content = 'Hello 1234567 World_This is a Regex Demo' result = re.match('^He.*(\d+).*Demo$', content) print(result) print(result.group(1))
這里我們依然想獲取中間的數(shù)字,所以中間依然寫的是(\d+)。而數(shù)字兩側(cè)由于內(nèi)容比較雜亂,所以想省略來寫,都寫成 .*。最后,組成^He.*(\d+).*Demo$,看樣子并沒有什么問題。我們看下運(yùn)行結(jié)果:
<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'> 7
奇怪的事情發(fā)生了,我們只得到了7這個(gè)數(shù)字,這是怎么回事呢?
這里就涉及一個(gè)貪婪匹配與非貪婪匹配的問題了。在貪婪匹配下,.*會(huì)匹配盡可能多的字符。正則表達(dá)式中.*后面是\d+,也就是至少一個(gè)數(shù)字,并沒有指定具體多少個(gè)數(shù)字,因此,.*就盡可能匹配多的字符,這里就把123456匹配了,給\d+留下一個(gè)可滿足條件的數(shù)字7,最后得到的內(nèi)容就只有數(shù)字7了。
但這很明顯會(huì)給我們帶來很大的不便。有時(shí)候,匹配結(jié)果會(huì)莫名其妙少了一部分內(nèi)容。其實(shí),這里只需要使用非貪婪匹配就好了。非貪婪匹配的寫法是.*?,多了一個(gè)?,那么它可以達(dá)到怎樣的效果?我們再用實(shí)例看一下:
import re content = 'Hello 1234567 World_This is a Regex Demo' result = re.match('^He.*?(\d+).*Demo$', content) print(result) print(result.group(1))
這里我們只是將第一個(gè).*改成了.*?,轉(zhuǎn)變?yōu)榉秦澙菲ヅ?。結(jié)果如下:
<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'> 1234567
此時(shí)就可以成功獲取1234567了。原因可想而知,貪婪匹配是盡可能匹配多的字符,非貪婪匹配就是盡可能匹配少的字符。當(dāng).*?匹配到Hello后面的空白字符時(shí),再往后的字符就是數(shù)字了,而\d+恰好可以匹配,那么這里.*?就不再進(jìn)行匹配,交給\d+去匹配后面的數(shù)字。所以這樣.*?匹配了盡可能少的字符,\d+的結(jié)果就是1234567了。
所以說,在做匹配的時(shí)候,字符串中間盡量使用非貪婪匹配,也就是用.*?來代替.*,以免出現(xiàn)匹配結(jié)果缺失的情況。
但這里需要注意,如果匹配的結(jié)果在字符串結(jié)尾,.*?就有可能匹配不到任何內(nèi)容了,因?yàn)樗鼤?huì)匹配盡可能少的字符。例如:
import re content = 'http://weibo.com/comment/kEraCN' result1 = re.match('http.*?comment/(.*?)', content) result2 = re.match('http.*?comment/(.*)', content) print('result1', result1.group(1)) print('result2', result2.group(1))
運(yùn)行結(jié)果如下:
result1 result2 kEraCN
可以觀察到,.*?沒有匹配到任何結(jié)果,而.*則盡量匹配多的內(nèi)容,成功得到了匹配結(jié)果。
修飾符
正則表達(dá)式可以包含一些可選標(biāo)志修飾符來控制匹配的模式。修飾符被指定為一個(gè)可選的標(biāo)志。我們用實(shí)例來看一下:
import re content = '''Hello 1234567 World_This is a Regex Demo ''' result = re.match('^He.*?(\d+).*?Demo$', content) print(result.group(1))
和上面的例子相仿,我們在字符串中加了換行符,正則表達(dá)式還是一樣的,用來匹配其中的數(shù)字??匆幌逻\(yùn)行結(jié)果:
AttributeError Traceback (most recent call last)in () 5 ''' 6 result = re.match('^He.*?(\d+).*?Demo$', content) ----> 7 print(result.group(1)) AttributeError: 'NoneType' object has no attribute 'group'
運(yùn)行直接報(bào)錯(cuò),也就是說正則表達(dá)式?jīng)]有匹配到這個(gè)字符串,返回結(jié)果為None,而我們又調(diào)用了group()方法導(dǎo)致AttributeError。
那么,為什么加了一個(gè)換行符,就匹配不到了呢?這是因?yàn)閈.匹配的是除換行符之外的任意字符,當(dāng)遇到換行符時(shí),.*?就不能匹配了,所以導(dǎo)致匹配失敗。這里只需加一個(gè)修飾符re.S,即可修正這個(gè)錯(cuò)誤:
result = re.match('^He.*?(\d+).*?Demo$', content, re.S)
這個(gè)修飾符的作用是使.匹配包括換行符在內(nèi)的所有字符。此時(shí)運(yùn)行結(jié)果如下:
1234567
這個(gè)re.S在網(wǎng)頁匹配中經(jīng)常用到。因?yàn)镠TML節(jié)點(diǎn)經(jīng)常會(huì)有換行,加上它,就可以匹配節(jié)點(diǎn)與節(jié)點(diǎn)之間的換行了。
另外,還有一些修飾符,在必要的情況下也可以使用,如表3-3所示。
表3-3 修飾符
在網(wǎng)頁匹配中,較為常用的有re.S和re.I。
轉(zhuǎn)義匹配
我們知道正則表達(dá)式定義了許多匹配模式,如.匹配除換行符以外的任意字符,但是如果目標(biāo)字符串里面就包含.,那該怎么辦呢?
這里就需要用到轉(zhuǎn)義匹配了,示例如下:
import re content = '(百度)www.baidu.com' result = re.match('\(百度\)www\.baidu\.com', content) print(result)
當(dāng)遇到用于正則匹配模式的特殊字符時(shí),在前面加反斜線轉(zhuǎn)義一下即可。例如.就可以用\.來匹配,運(yùn)行結(jié)果如下:
<_sre.SRE_Match object; span=(0, 17), match='(百度)www.baidu.com'>
可以看到,這里成功匹配到了原字符串。
這些是寫正則表達(dá)式常用的幾個(gè)知識(shí)點(diǎn),熟練掌握它們對后面寫正則表達(dá)式匹配非常有幫助。
3. search()
前面提到過,match()方法是從字符串的開頭開始匹配的,一旦開頭不匹配,那么整個(gè)匹配就失敗了。我們看下面的例子:
import re content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings' result = re.match('Hello.*?(\d+).*?Demo', content) print(result)
這里的字符串以Extra開頭,但是正則表達(dá)式以Hello開頭,整個(gè)正則表達(dá)式是字符串的一部分,但是這樣匹配是失敗的。運(yùn)行結(jié)果如下:
None
因?yàn)閙atch()方法在使用時(shí)需要考慮到開頭的內(nèi)容,這在做匹配時(shí)并不方便。它更適合用來檢測某個(gè)字符串是否符合某個(gè)正則表達(dá)式的規(guī)則。
這里就有另外一個(gè)方法search(),它在匹配時(shí)會(huì)掃描整個(gè)字符串,然后返回第一個(gè)成功匹配的結(jié)果。也就是說,正則表達(dá)式可以是字符串的一部分,在匹配時(shí),search()方法會(huì)依次掃描字符串,直到找到第一個(gè)符合規(guī)則的字符串,然后返回匹配內(nèi)容,如果搜索完了還沒有找到,就返回None。
我們把上面代碼中的match()方法修改成search(),再看下運(yùn)行結(jié)果:
<_sre.SRE_Match object; span=(13, 53), match='Hello 1234567 World_This is a Regex Demo'> 1234567
這時(shí)就得到了匹配結(jié)果。
因此,為了匹配方便,我們可以盡量使用search()方法。
下面再用幾個(gè)實(shí)例來看看search()方法的用法。
首先,這里有一段待匹配的HTML文本,接下來寫幾個(gè)正則表達(dá)式實(shí)例來實(shí)現(xiàn)相應(yīng)信息的提?。?/p>
html = ''''''
可以觀察到,ul節(jié)點(diǎn)里有許多l(xiāng)i節(jié)點(diǎn),其中l(wèi)i節(jié)點(diǎn)中有的包含a節(jié)點(diǎn),有的不包含a節(jié)點(diǎn),a節(jié)點(diǎn)還有一些相應(yīng)的屬性——超鏈接和歌手名。
首先,我們嘗試提取class為active的li節(jié)點(diǎn)內(nèi)部的超鏈接包含的歌手名和歌名,此時(shí)需要提取第三個(gè)li節(jié)點(diǎn)下a節(jié)點(diǎn)的singer屬性和文本。
此時(shí)正則表達(dá)式可以以li開頭,然后尋找一個(gè)標(biāo)志符active,中間的部分可以用.*?來匹配。接下來,要提取singer這個(gè)屬性值,所以還需要寫入singer="(.*?)",這里需要提取的部分用小括號(hào)括起來,以便用group()方法提取出來,它的兩側(cè)邊界是雙引號(hào)。然后還需要匹配a節(jié)點(diǎn)的文本,其中它的左邊界是>,右邊界是。然后目標(biāo)內(nèi)容依然用(.*?)來匹配,所以最后的正則表達(dá)式就變成了:
然后再調(diào)用search()方法,它會(huì)搜索整個(gè)HTML文本,找到符合正則表達(dá)式的第一個(gè)內(nèi)容返回。
另外,由于代碼有換行,所以這里第三個(gè)參數(shù)需要傳入re.S。整個(gè)匹配代碼如下:
result = re.search('
由于需要獲取的歌手和歌名都已經(jīng)用小括號(hào)包圍,所以可以用group()方法獲取。
運(yùn)行結(jié)果如下:
齊秦 往事隨風(fēng)
可以看到,這正是class為active的li節(jié)點(diǎn)內(nèi)部的超鏈接包含的歌手名和歌名。
如果正則表達(dá)式不加active(也就是匹配不帶class為active的節(jié)點(diǎn)內(nèi)容),那會(huì)怎樣呢?我們將正則表達(dá)式中的active去掉,代碼改寫如下:
result = re.search('
由于search()方法會(huì)返回第一個(gè)符合條件的匹配目標(biāo),這里結(jié)果就變了:
任賢齊 滄海一聲笑
把a(bǔ)ctive標(biāo)簽去掉后,從字符串開頭開始搜索,此時(shí)符合條件的節(jié)點(diǎn)就變成了第二個(gè)li節(jié)點(diǎn),后面的就不再匹配,所以運(yùn)行結(jié)果就變成第二個(gè)li節(jié)點(diǎn)中的內(nèi)容。
注意,在上面的兩次匹配中,search()方法的第三個(gè)參數(shù)都加了re.S,這使得.*?可以匹配換行,所以含有換行的li節(jié)點(diǎn)被匹配到了。如果我們將其去掉,結(jié)果會(huì)是什么?代碼如下:
result = re.search('
運(yùn)行結(jié)果如下:
beyond 光輝歲月
可以看到,結(jié)果變成了第四個(gè)li節(jié)點(diǎn)的內(nèi)容。這是因?yàn)榈诙€(gè)和第三個(gè)li節(jié)點(diǎn)都包含了換行符,去掉re.S之后,.*?已經(jīng)不能匹配換行符,所以正則表達(dá)式不會(huì)匹配到第二個(gè)和第三個(gè)li節(jié)點(diǎn),而第四個(gè)li節(jié)點(diǎn)中不包含換行符,所以成功匹配。
由于絕大部分的HTML文本都包含了換行符,所以盡量都需要加上re.S修飾符,以免出現(xiàn)匹配不到的問題。
4. findall()
前面我們介紹了search()方法的用法,它可以返回匹配正則表達(dá)式的第一個(gè)內(nèi)容,但是如果想要獲取匹配正則表達(dá)式的所有內(nèi)容,那該怎么辦呢?這時(shí)就要借助findall()方法了。該方法會(huì)搜索整個(gè)字符串,然后返回匹配正則表達(dá)式的所有內(nèi)容。
還是上面的HTML文本,如果想獲取所有a節(jié)點(diǎn)的超鏈接、歌手和歌名,就可以將search()方法換成findall()方法。如果有返回結(jié)果的話,就是列表類型,所以需要遍歷一下來依次獲取每組內(nèi)容。代碼如下:
results = re.findall('
運(yùn)行結(jié)果如下:
[('/2.mp3', '任賢齊', '滄海一聲笑'), ('/3.mp3', '齊秦', '往事隨風(fēng)'), ('/4.mp3', 'beyond', '光輝歲月'), ('/5.mp3', '陳慧琳', '記事本'), ('/6.mp3', '鄧麗君', '但愿人長久')]('/2.mp3', '任賢齊', '滄海一聲笑') /2.mp3 任賢齊 滄海一聲笑 ('/3.mp3', '齊秦', '往事隨風(fēng)') /3.mp3 齊秦 往事隨風(fēng) ('/4.mp3', 'beyond', '光輝歲月') /4.mp3 beyond 光輝歲月 ('/5.mp3', '陳慧琳', '記事本') /5.mp3 陳慧琳 記事本 ('/6.mp3', '鄧麗君', '但愿人長久') /6.mp3 鄧麗君 但愿人長久
可以看到,返回的列表中的每個(gè)元素都是元組類型,我們用對應(yīng)的索引依次取出即可。
如果只是獲取第一個(gè)內(nèi)容,可以用search()方法。當(dāng)需要提取多個(gè)內(nèi)容時(shí),可以用findall()方法。
5. sub()
除了使用正則表達(dá)式提取信息外,有時(shí)候還需要借助它來修改文本。比如,想要把一串文本中的所有數(shù)字都去掉,如果只用字符串的replace()方法,那就太煩瑣了,這時(shí)可以借助sub()方法。示例如下:
import re content = '54aK54yr5oiR54ix5L2g' content = re.sub('\d+', '', content) print(content)
運(yùn)行結(jié)果如下:
aKyroiRixLg
這里只需要給第一個(gè)參數(shù)傳入\d+來匹配所有的數(shù)字,第二個(gè)參數(shù)為替換成的字符串(如果去掉該參數(shù)的話,可以賦值為空),第三個(gè)參數(shù)是原字符串。
在上面的HTML文本中,如果想獲取所有l(wèi)i節(jié)點(diǎn)的歌名,直接用正則表達(dá)式來提取可能比較煩瑣。比如,可以寫成這樣子:
results = re.findall('
運(yùn)行結(jié)果如下:
一路上有你 滄海一聲笑 往事隨風(fēng) 光輝歲月 記事本 但愿人長久
此時(shí)借助sub()方法就比較簡單了??梢韵扔胹ub()方法將a節(jié)點(diǎn)去掉,只留下文本,然后再利用findall()提取就好了:
html = re.sub('|', '', html) print(html) results = re.findall(' (.*?)', html, re.S) for result in results: print(result.strip())
運(yùn)行結(jié)果如下:
一路上有你 滄海一聲笑 往事隨風(fēng) 光輝歲月 記事本 但愿人長久經(jīng)典老歌
經(jīng)典老歌列表
- 一路上有你
- 滄海一聲笑
- 往事隨風(fēng)
- 光輝歲月
- 記事本
- 但愿人長久
可以看到,a節(jié)點(diǎn)經(jīng)過sub()方法處理后就沒有了,然后再通過findall()方法直接提取即可??梢钥吹剑谶m當(dāng)?shù)臅r(shí)候,借助sub()方法可以起到事半功倍的效果。
6. compile()
前面所講的方法都是用來處理字符串的方法,最后再介紹一下compile()方法,這個(gè)方法可以將正則字符串編譯成正則表達(dá)式對象,以便在后面的匹配中復(fù)用。示例代碼如下:
import re content1 = '2016-12-15 12:00' content2 = '2016-12-17 12:55' content3 = '2016-12-22 13:21' pattern = re.compile('\d{2}:\d{2}') result1 = re.sub(pattern, '', content1) result2 = re.sub(pattern, '', content2) result3 = re.sub(pattern, '', content3) print(result1, result2, result3)
例如,這里有3個(gè)日期,我們想分別將3個(gè)日期中的時(shí)間去掉,這時(shí)可以借助sub()方法。該方法的第一個(gè)參數(shù)是正則表達(dá)式,但是這里沒有必要重復(fù)寫3個(gè)同樣的正則表達(dá)式,此時(shí)可以借助compile()方法將正則表達(dá)式編譯成一個(gè)正則表達(dá)式對象,以便復(fù)用。
運(yùn)行結(jié)果如下:
2016-12-15 2016-12-17 2016-12-22
另外,compile()還可以傳入修飾符,例如re.S等修飾符,這樣在search()、findall()等方法中就不需要額外傳了。所以,compile()方法可以說是給正則表達(dá)式做了一層封裝,以便我們更好地復(fù)用。
感謝各位的閱讀!關(guān)于Python3爬蟲中正則表達(dá)式的使用方法就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,讓大家可以學(xué)到更多知識(shí)。如果覺得文章不錯(cuò),可以把它分享出去讓更多的人看到吧!