python3中的RE(正規表達式)-總

1.引入正則子產品(Regular Expression)

要使用python3中的RE則必須引入 re子產品

import re #引入正規表達式

複制

2.主要使用的方法 match(), 從左到右進行比對

#pattern 為要校驗的規則
#str 為要進行校驗的字元串
result = re.match(pattern, str) 

#如果result不為None,則group方法則對result進行資料提取
result.group()

複制

3. 正規表達式

1️⃣單字元比對規則

字元    功能
.       比對任意1個字元(除了\n)
[]      比對[]中列舉的字元
\d      比對數字,也就是0-9
\D      比對非數字,也就是比對不是數字的字元
\s      比對空白符,也就是 空格\tab
\S      比對非空白符,\s取反
\w      陪陪單詞字元, a-z, A-Z, 0-9, _
\W      比對非單詞字元, \w取反

複制

2️⃣表示數量的規則

字元    功能
*       比對前一個字元出現0次多次或者無限次,可有可無,可多可少
+       比對前一個字元出現1次多次或則無限次,直到出現一次
?       比對前一個字元出現1次或者0次,要麼有1次,要麼沒有
{m}     比對前一個字元出現m次
{m,}    比對前一個字元至少出現m次
{m,n}   比對前一個字元出現m到n次

複制

例一: 驗證手機号碼是否符合規則(不考慮邊界問題)

#首先清楚手機号的規則
#1.都是數字 2.長度為11 3.第一位是1 4.第二位是35678中的一位

pattern = "1[35678]\d{9}"
phoneStr = "18230092223"

result = re.match(pattern, phoneStr)
result.group()

#執行結果如下圖:

複制

4. 原始字元串raw, 先來看如下執行個體:

在上圖中: 在給str指派"\nabc"前加上"r"之後,python解釋器會自動給str的值"\nabc"在加上一個"\".

使str在被列印的時候,能夠保持原始字元串的值"\nabc"列印出來.

例二: (原始字元串在正規表達式中的應用)

假若沒有原始自付出r,則我們就要進行如下的操作: 給pattern加上雙倍的"\"以避免轉義字元中減少"\".會比較麻煩

當我們使用r原始字元串時,就不必考慮字元串的轉移問題,更易集中解決字元比對問題.

5. 表示邊界

字元    功能
^       比對字元串開頭
$       比對字元串結尾
\b      比對一個單詞的邊界
\B      比對非單詞邊界

複制

例三: 邊界(制定規則來比對str="ho ve r")

import re

#定義規則比對str="ho ve r"
#1. 以字母開始
#2. 中間有空字元
#3. ve兩邊分别限定比對單詞邊界

pattern = r"^\w+\s\bve\b\sr"
str = "ho ve r"
result = re.match(pattern, str)
result.group()

複制

6. 比對分組

字元        功能
|           比對左右任意一個表達式
(ab)        将括号中字元作為一個分組
\num        引用分組num比對到的字元串
(?P<name>)  分組起别名
(?P=name)   引用别名為name分組比對到的字元串

複制

例四: 比對出0-100之間的數字

import re

#比對出0-100之間的數字
#首先:正則是從左往又開始比對
#經過分析: 可以将0-100分為三部分
#1. 0        "0$"
#2. 100      "100$"
#3. 1-99     "[1-9]\d{0,1}$"
#是以整合如下

pattern = r"0$|100$|[1-9]\d{0,1}$"
#測試資料為0,3,27,100,123
result = re.match(pattern, "27")
result.group()

#将0考慮到1-99上,上述pattern還可以簡寫為:pattern=r"100$|[1-9]?\d{0,1}$"
#測試結果如下圖:

複制

例五: 比對分組,擷取頁面中的<h1>标簽中的内容

import re
#比對分組,擷取頁面<h1>标簽中的内容, 爬蟲的時候會用到

str = "<h1>hello world!<h1>"
pattern = r"<h1>(.*)</h1>"
result = re.match(pattern, str)
result.group()

#執行如下圖

複制

例六: 分組引用, 精确擷取多個标簽内的内容

import re

#引用分組,精确擷取多個标簽内的内容
#"\1"是對第一個分組的引用,同理......

str = "<span><h1>hello world!</h1></span>"
pattern = r"<(.+)><(.+)>.*</\2></\1>"
result = re.match(pattern, str)
result.groups()

#執行如下圖:

複制

例六-2:分組起别名

import re

#分組起别名

str = "<span><h1>hello world!</h1></span>"
pattern = "<(?P<key1>.+)><(?P<key2>.+)>(?P<nr>.*)</(?P=key2)></(?P=key1)>"
result = re.match(pattern, str)
result.groups()

#執行如下圖:

複制