前言
在上一篇文中,我們介紹了關于Python正則表達式的基礎,那么在這一篇文章里,我們將總結一下正則表達式關于捕獲的用法。下面話不多說,來看看詳細的介紹吧。
捕獲
捕獲和分組在正則表達式中有著密切的聯系,一般情況下,分組即捕獲,都用小括號完成(因此,小括號在正則表達式中也屬于特殊字符,表達原含義時需要轉義):
(…) 正常分組,并捕獲
(?:…) 分組,但是不捕獲
舉個例子,假設我們需要匹配一個座機號碼:
1
2
3
4
5
6
7
|
>>> m = re.search(r '^(\d{3,4}-)?(\d{7,8})$' , '020-82228888' ) >>> m.group( 0 ) '020-82228888' >>> m.group( 1 ) '020-' >>> m.group( 2 ) '82228888' |
這里,默認分組(0)是完整的匹配,之后的分組則按出現順序排列。
接下來,我們想在一整段文本中,找出所有的座機號碼,這里需要用到re.findall
:
1
2
|
>>> re.findall(r '(\d{3,4}-)?(\d{7,8})' , '020-82228888\n0357-4227865' ) [( '020-' , '82228888' ), ( '0357-' , '4227865' )] |
findall有一個特性,就是如果結果中有捕獲的分組,則將捕獲的分組組成tuple返回。利用這個特點,和上面提到的分組,但是不捕獲的語法,可以得到我們想要的結果:
1
2
3
4
|
>>> re.findall(r '(?:\d{3,4}-)?\d{7,8}' , '020-82228888\n0357-4227865' ) [ '020-82228888' , '0357-4227865' ] >>> re.findall(r '(?:\d{3,4}-)?\d{7,8}' , '020-82228888\n4227865' ) [ '020-82228888' , '4227865' ] |
在正則表達式中,也可以通過\1,\2等來指代之前捕獲的字符串組合。這個經常用于單雙引號的正確匹配:
1
2
3
4
5
|
>>> sentence = """You said "why?" and I say "I don't know".""" >>> re.findall(r '["\'](.*?)["\']' , sentence) [ 'why?' , 'I don' ] >>> re.findall(r '(["\'])(.*?)\1' , sentence) [( '"', 'why?'), ('"' , "I don't know" )] |
此外,如果覺得\1,\2這種表示可讀性不好的話,還可以給捕獲起一個英文名字。如下例子中,實現了兩種不同的日期格式之間的轉換:
1
2
3
|
>>> sentence = "from 12/22/1629 to 11/14/1643" >>> re.sub(r '(?P<month>\d{2})/(?P<day>\d{2})/(?P<year>\d{4})' , r '\g<year>-\g<month>-\g<day>' , sentence) 'from 1629-12-22 to 1643-11-14' |
但是,這種命名引用捕獲的方式,在findall、search中卻是無效的:
1
2
3
4
5
6
7
8
|
>>> sentence = """You said "why?" and I say "I don't know".""" >>> re.findall(r '(?P<quote>["\'])(.*?)\g<quote>' , sentence) [] >>> re.search(r '(?P<quote>["\'])(.*?)\g<quote>' , sentence) >>> re.search(r '(?P<quote>["\'])(.*?)\1' , sentence) <_sre.SRE_Match object ; span = ( 9 , 15 ), match = '"why?"' > >>> re.search(r '(?P<quote>["\'])(.*?)\1' , sentence).groupdict() { 'quote' : '"' } |
總結
以上就是Python正則表達式中關于分組捕獲的全部內容了,希望本文的內容對大家的學習或者使用python能能帶來一定的幫助,如果有疑問大家可以留言交流,如果有疑問大家可以留言交流。下一篇文章,我會繼續總結一下正則表達式匹配時的貪婪/非貪婪特性。 請繼續關注服務器之家。
原文鏈接:http://blog.guoyb.com/2017/02/27/python-regex-2/