前言
之前我曾寫了一篇關于正規表達式的文章(http://blog.csdn.net/hsd2012/article/details/51168589) 在該文章中詳細介紹了正則,但是關于零寬斷言介紹卻是很少提及到。現在将該内容補充一下。在本文中,主要解決如下問題:
- 什麼是零寬斷言,為什麼要使用零寬斷言
- 怎樣使用零寬斷言
概念
零寬斷言,大多地方這樣定義它,用于查找在某些内容(但并不包括這些内容)之前或之後的東西,也就是說它們像 \b ^ $ \< > 這樣的錨定作用,用于指定一個位置,這個位置應該滿足一定的條件(即斷言),是以它們也被稱為零寬斷言。我的了解是在一個限定位置的字元串之前或之後進行比對查找。是以零寬斷言,執行過程分兩種情況,如果是正向斷言,應該是這樣的,第一步,判斷判斷斷言是否為真(即是否滿足一定條件)第二步,如果滿足條件,則進行下一步查找比對。如果是反向斷言,第一步還是按照正規表達式順序去比對。第二步,遇到反向代言,判斷是否滿足反之代言。
正先行斷言
什麼是正先行斷言,就是在字元串相應位置之前進行查找比對,使用 (?=exp) 比對exp前面的位置。
執行個體
$str="abcgwcab";
$parent='/bc(?=gw)/';
$str=preg_match($parent,$str,$match);
var_dump($match);
/**
輸出結果:
int 1
array (size=1)
0 => string 'bc' (length=2)
*/
解析:首先查找字元串”abcgwcab”中gw位置,斷言為真,然後在比對bc。如果将正規表達式寫成
$parent='/bc(?=gw)ca/';
将會比對不成功。
反先行斷言
什麼是反先行斷言,使用 (?!exp) 比對後面跟的不是exp。
執行個體:
$str="abcgwcab";
$parent='/bc(?!ww)gw/';
$str=preg_match($parent,$str,$match);
var_dump($str);
var_dump($match);
/**
輸出:
int 1
array (size=1)
0 => string 'bcgw' (length=4)
*/
解析:首先判斷字元串是否包含bc,然後判斷其後面不是ww,最後比對gw。可以看出反向斷言之前後之後,能夠在添加其他比對條件。
正後發斷言
什麼是正後發斷言,就是在字元串相應位置之後進行查找比對, (?<=exp) 比對exp後面的位置
執行個體:
$str="abcgwcab";
$parent='/(?<=gw)ca/';
$str=preg_match($parent,$str,$match);
var_dump($str);
var_dump($match);
/**
輸出結果:
int 1
array (size=1)
0 => string 'ca' (length=2)
*/
解析:第一步,查找字元”abcgwcab”中是否包含有gw,傳回結果為true,然後進行第二步,查找gw後面是否有ca。
反後發斷言
什麼是反後發斷言,使用(?
$str="abcgwcab";
$parent='/(?<!bc)gw/';
$str=preg_match($parent,$str,$match);
var_dump($str);
var_dump($match);
/**
int 0
array (size=0)
empty
*/
解析:首先在字元串中比對gw,然後判斷其前面是不是bc,發現其前面是bc,故傳回false。
練習題
例1:
\d+(?=abc)
判斷一個字元串中是否包含’abc’,且其前面是否包含一個或多個數字
例2:
(?<=\d\d)\w
判斷字元串中是否存在連續兩個數字,且其後面包含一個字母
例3:
\d{3} (?!55)
判斷字元串中是否包含連續三個數字,且三個數字後面不是55
例4:
(?<!ac)\w\d
判斷一個字元串是否包含一個字母加數字的組合,且其前面不是ac
總結
先行斷言與後發斷言差別?
先行斷言是判斷斷言之前的正規表達式,斷言在其他正規表達式之後。後發斷言是判斷斷言之前的正規表達式,斷言在其他正規表達式之前。這裡的先與後,是其他比對相對應斷言在正規表達式中的順序。