毛片a片,欧美一区二区公司,色九九

初級篇鏈接：http://www.zmynmublwnt.cn/article/103683.html

上一篇我們說在這一篇里，我們會介紹子表達式，向前向后查找，回溯引用。到這一篇開始前除了回溯引用在一些場合不可替代以外，大部分情況下的正則表達式你應該都會寫了。

1.子表達式

子表達式的概念特別好理解。其實它就是將幾個字符的組合形式看做一個大的“字符”。不好理解？舉個栗子：我們要匹配類似IP地址這種形式的字符（暫且不考慮數值范圍的合理性，這個留作學完之后的思考題吧）。形如192.168.1.1這樣的地址我們怎么寫表達式呢？

答案一 \d+.?\d+.?\d+.?\d+

不好，一個是太繁瑣，另一個是連位數都控制不了

答案二 \d+{1,3}.?\d+{1,3}.?\d+{1,3}.?\d+{1,3}

一般般，復雜但是起碼能把位數控制在合理范圍

答案三 (\d+{1,3}\.){3}\d+{1,3}\.

利用子表達式，將123.這種數字加小數點看做一個整體字符，對其規定重復匹配的次數，既簡潔，效果又好。所以只要你將幾個字符組合用圓括號括起來，那么你就可以把一個圓括號內的內容當做一個字符，外面可以加我們之前講過的所有元字符來控制匹配。

2.向前向后查找

現在，我們終于來到了向前向后查找這一塊。為什么說終于來到這了呢？還記得我們在初級篇最開始的例子嗎？

假如你在寫一個爬蟲，你得到了一個網頁的HTML源碼。其中有一段html

<html><body><h1>hello world</h1></body></html>

你想要把這個hello world提取出來

									import re

									key = r"<html><body><h1>hello world</h1></body></html>"#這段是你要匹配的文本

									p1 = r"(?<=<h1>).+?(?=</h1>)"#這是我們寫的正則表達式規則，你現在可以不理解啥意思

									pattern1 = re.compile(p1)#我們在編譯這段正則表達式

									matcher1 = re.search(pattern1,key)#在源文本中搜索符合正則表達式的部分

									print matcher1.group(0)#打印出來

這個正則表達式

p1 = r"(?<=<h1>).+?(?=<h1>)"

看到(?<=<h1>) 和 (?=<h1>)了嗎？第一個?<=表示在被匹配字符前必須得有<h1>，后面的?=表示被匹配字符后必須有<h1>

簡單來說，就是你要匹配的字符是XX，但必須滿足形式是AXXB這樣的字符串，那么你就可以這樣寫正則表達式

p = r"(?<=A)XX(?=B)"

匹配到的字符串就是XX。并且，向前查找向后查找不需要必須同時出現。如果你愿意，可以只寫滿足一個條件。

所以你也不需要記住哪個是向前查找，哪個是向后查找。只要記住?<=后面跟著的是前綴要求，?=后面跟的是后綴要求。

本質上來說，向前查找和向后查找其實是匹配整個字符串，即AXXB，但返回時僅僅返回一個XX。也就是說，如果你愿意，完全可以避開向前向后查找的方式，直接匹配帶有前后綴的字符串，然后做字符串切片處理。

3.回溯引用

不同于前面的向前向后查找，這一條有時候你未必繞的過去。在有些情況下，你還必須得用到回溯引用，所以你如果想擁有在實際應用中使用正則表達式，回溯引用是你應該了解和掌握的。

我們還是從最開始的例子來說。

你原本要匹配<h1></h1>之間的內容，現在你知道HTML有多級標題，你想把每一級的標題內容都提取出來。你也許會這樣寫：

p = r"<h[1-6]>.*?</h[1-6]>"

這樣一來，你就可以將HTML頁面內所有的標題內容全部匹配出來。即<h1></h1>到<h6></h6>的內容都可以被提取出來。但是我們之前說過，寫正則表達式困難的不是匹配到想要的內容，而是盡可能的不匹配到不想要的內容。在這個例子中，很有可能你就會被下面這樣的用例玩壞。

比方說

<h1>hello world</h3>

發現后面的</h3>了嗎？我們不管是怎么寫出來這樣的標題的，但實實在在的是我們的正則表達式同樣會把這里面的hello world匹配出來。這時候就是回溯引用的重要作用。下面就是一個示例：

									import re

									key = r"<h1>hello world</h3>"

									p1 = r"<h([1-6])>.*?</h\1>"

									pattern1 = re.compile(p1)

									m1 = re.search(pattern1,key)

									print m1.group(0)#這里是會報錯的，因為匹配不到，你如果將源字符串改成</h1>

結尾就能看出效果

看到\1了嗎？原本那個位置應該是[1-6]，但是我們寫的是\1，我們之前說過，轉義符\干的活就是把特殊的字符轉成一般的字符，把一般的字符轉成特殊字符。普普通通的數字1被轉移成什么了呢？在這里1表示第一個子表達式，也就是說，它是動態的，是隨著前面第一個子表達式的匹配到的東西而變化的。比方說前面的子表達式內是[1-6]，在實際字符串中找到了1，那么后面的\1就是1，如果前面的子表達式在實際字符串中找到了2，那么后面的\1就是2。

類似的，\2,\3,....就代表第二個第三個子表達式。

所以回溯引用是正則表達式內的一個“動態”的正則表達式，讓你根據實際的情況變化進行匹配。

中級篇就到這里，其實正則表達式還有很多細節還沒有寫出來，也有很多元字符我沒有交代，但掌握了綱要，懂得原理之后剩下的就類似于查表構造這種活了。

建議看到這的朋友看看《正則表達式必知必會》，初級篇和這篇中有幾個例子也是取材于此。

以上就是本文的全部內容，希望本文的內容對大家的學習或者工作能帶來一定的幫助，如果有疑問大家可以留言交流，同時也希望多多支持服務器之家！

原文鏈接：http://www.cnblogs.com/chuxiuhong/p/5907484.html