天天看點

正規表達式

正規表達式是一種文本模式,包括普通字元(例如,a 到 z

之間的字母)和特殊字元(稱為“元字元”)。模式描述在搜尋文本時要比對的一個或多個字元串。

正規表達式執行個體:

表達式

比對

/^\s*$/

比對空行。

/\d{2}-\d{5}/

驗證由兩位數字、一個連字元再加 5 位數字組成的 id 号。

/<\s*(\s+)(\s[^>]*)?>[\s\s]*<\s*\/\1\s*>/

比對 html 标記。

下表包含了元字元的完整清單以及它們在正規表達式上下文中的行為:

說明

\

将下一字元标記為特殊字元、文本、反向引用或八進制轉義符。例如,“n”比對字元“n”。“\n”比對換行符。序列“\\”比對“\”,“\(”比對“(”。

^

比對輸入字元串開始的位置。如果設定了 regexp 對象的 multiline 屬性,^

還會與“\n”或“\r”之後的位置比對。

$

比對輸入字元串結尾的位置。如果設定了 regexp 對象的 multiline 屬性,$

還會與“\n”或“\r”之前的位置比對。

*

零次或多次比對前面的字元或子表達式。例如,zo* 比對“z”和“zoo”。* 等效于 {0,}。

+

一次或多次比對前面的字元或子表達式。例如,“zo+”與“zo”和“zoo”比對,但與“z”不比對。+ 等效于 {1,}。

?

零次或一次比對前面的字元或子表達式。例如,“do(es)?”比對“do”或“does”中的“do”。? 等效于 {0,1}。

{n}

n 是非負整數。正好比對 n 次。例如,“o{2}”與“bob”中的“o”不比對,但與“food”中的兩個“o”比對。

{n,}

n 是非負整數。至少比對 n 次。例如,“o{2,}”不比對“bob”中的“o”,而比對“foooood”中的所有

o。“o{1,}”等效于“o+”。“o{0,}”等效于“o*”。

{n,m}

m 和 n 是非負整數,其中 n <= m。比對至少 n 次,至多 m 次。例如,“o{1,3}”比對“fooooood”中的頭三個

o。‘o{0,1}‘ 等效于 ‘o?‘。注意:您不能将空格插入逗号和數字之間。

當此字元緊随任何其他限定符(*、+、?、{n}、{n,}、{n,m})之後時,比對模式是“非貪心的”。“非貪心的”模式比對搜尋到的、盡可能短的字元串,而預設的“貪心的”模式比對搜尋到的、盡可能長的字元串。例如,在字元串“oooo”中,“o+?”隻比對單個“o”,而“o+”比對所有“o”。

.

比對除“\n”之外的任何單個字元。若要比對包括“\n”在内的任意字元,請使用諸如“[\s\s]”之類的模式。

(pattern)

比對 pattern 并捕獲該比對的子表達式。可以使用 $0…$9 屬性從結果“比對”集合中檢索捕獲的比對。若要比對括号字元

( ),請使用“\(”或者“\)”。

(?:pattern)

比對 pattern 但不捕獲該比對的子表達式,即它是一個非捕獲比對,不存儲供以後使用的比對。這對于用“or”字元

(|) 組合模式部件的情況很有用。例如,‘industr(?:y|ies) 是比 ‘industry|industries‘

更經濟的表達式。

(?=pattern)

執行正向預測先行搜尋的子表達式,該表達式比對處于比對 pattern 的字元串的起始點的字元串。它是一個非捕獲比對,即不能捕獲供以後使用的比對。例如,‘windows

(?=95|98|nt|2000)‘ 比對“windows 2000”中的“windows”,但不比對“windows

3.1”中的“windows”。預測先行不占用字元,即發生比對後,下一比對的搜尋緊随上一比對之後,而不是在組成預測先行的字元後。

(?!pattern)

執行反向預測先行搜尋的子表達式,該表達式比對不處于比對 pattern 的字元串的起始點的搜尋字元串。它是一個非捕獲比對,即不能捕獲供以後使用的比對。例如,‘windows

(?!95|98|nt|2000)‘ 比對“windows 3.1”中的 “windows”,但不比對“windows

2000”中的“windows”。預測先行不占用字元,即發生比對後,下一比對的搜尋緊随上一比對之後,而不是在組成預測先行的字元後。

x|y

比對 x 或 y。例如,‘z|food‘

比對“z”或“food”。‘(z|f)ood‘ 比對“zood”或“food”。

[xyz]

字元集。比對包含的任一字元。例如,“[abc]”比對“plain”中的“a”。

[^xyz]

反向字元集。比對未包含的任何字元。例如,“[^abc]”比對“plain”中的“p”。

[a-z]

字元範圍。比對指定範圍内的任何字元。例如,“[a-z]”比對“a”到“z”範圍内的任何小寫字母。

[^a-z]

反向範圍字元。比對不在指定的範圍内的任何字元。例如,“[^a-z]”比對任何不在“a”到“z”範圍内的任何字元。

\b

比對一個字邊界,即字與空格間的位置。例如,“er\b”比對“never”中的“er”,但不比對“verb”中的“er”。

非字邊界比對。“er\b”比對“verb”中的“er”,但不比對“never”中的“er”。

\cx

比對 x 訓示的控制字元。例如,\cm 比對 control-m

或回車符。x 的值必須在 a-z 或 a-z 之間。如果不是這樣,則假定 c 就是“c”字元本身。

\d

數字字元比對。等效于 [0-9]。

非數字字元比對。等效于 [^0-9]。

\f

換頁符比對。等效于 \x0c 和 \cl。

\n

換行符比對。等效于 \x0a 和 \cj。

\r

比對一個回車符。等效于 \x0d 和 \cm。

\s

比對任何空白字元,包括空格、制表符、換頁符等。與 [ \f\n\r\t\v] 等效。

比對任何非空白字元。與 [^ \f\n\r\t\v] 等效。

\t

制表符比對。與 \x09 和 \ci 等效。

\v

垂直制表符比對。與 \x0b 和 \ck 等效。

\w

比對任何字類字元,包括下劃線。與“[a-za-z0-9_]”等效。

與任何非單詞字元比對。與“[^a-za-z0-9_]”等效。

\xn

比對 n,此處的 n 是一個十六進制轉義碼。十六進制轉義碼必須正好是兩位數長。例如,“\x41”比對“a”。“\x041”與“\x04”&“1”等效。允許在正規表達式中使用

ascii 代碼。

\num

比對 num,此處的 num 是一個正整數。到捕獲比對的反向引用。例如,“(.)\1”比對兩個連續的相同字元。

辨別一個八進制轉義碼或反向引用。如果

\n 前面至少有 n 個捕獲子表達式,那麼 n 是反向引用。否則,如果 n 是八進制數

(0-7),那麼 n 是八進制轉義碼。

\nm

\nm 前面至少有 nm 個捕獲子表達式,那麼 nm 是反向引用。如果

\nm 前面至少有 n 個捕獲,則 n是反向引用,後面跟有字元 m。如果兩種前面的情況都不存在,則

\nm 比對八進制值 nm,其中 n 和 m 是八進制數字

(0-7)。

\nml

當 n 是八進制數

(0-3),m 和 l 是八進制數 (0-7)

時,比對八進制轉義碼 nml。

\un

比對 n,其中 n 是以四位十六進制數表示的 unicode

字元。例如,\u00a9 比對版權符号 (?)。