1.引入正則子產品(Regular Expression)
要使用python3中的RE則必須引入 re子產品
import re #引入正規表達式
複制
2.主要使用的方法 match(), 從左到右進行比對
#pattern 為要校驗的規則
#str 為要進行校驗的字元串
result = re.match(pattern, str)
#如果result不為None,則group方法則對result進行資料提取
result.group()
複制
3. 正規表達式
1️⃣單字元比對規則
字元 功能
. 比對任意1個字元(除了\n)
[] 比對[]中列舉的字元
\d 比對數字,也就是0-9
\D 比對非數字,也就是比對不是數字的字元
\s 比對空白符,也就是 空格\tab
\S 比對非空白符,\s取反
\w 陪陪單詞字元, a-z, A-Z, 0-9, _
\W 比對非單詞字元, \w取反
複制
2️⃣表示數量的規則
字元 功能
* 比對前一個字元出現0次多次或者無限次,可有可無,可多可少
+ 比對前一個字元出現1次多次或則無限次,直到出現一次
? 比對前一個字元出現1次或者0次,要麼有1次,要麼沒有
{m} 比對前一個字元出現m次
{m,} 比對前一個字元至少出現m次
{m,n} 比對前一個字元出現m到n次
複制
例一: 驗證手機号碼是否符合規則(不考慮邊界問題)
#首先清楚手機号的規則
#1.都是數字 2.長度為11 3.第一位是1 4.第二位是35678中的一位
pattern = "1[35678]\d{9}"
phoneStr = "18230092223"
result = re.match(pattern, phoneStr)
result.group()
#執行結果如下圖:
複制
4. 原始字元串raw, 先來看如下執行個體:
在上圖中: 在給str指派"\nabc"前加上"r"之後,python解釋器會自動給str的值"\nabc"在加上一個"\".
使str在被列印的時候,能夠保持原始字元串的值"\nabc"列印出來.
例二: (原始字元串在正規表達式中的應用)
假若沒有原始自付出r,則我們就要進行如下的操作: 給pattern加上雙倍的"\"以避免轉義字元中減少"\".會比較麻煩
當我們使用r原始字元串時,就不必考慮字元串的轉移問題,更易集中解決字元比對問題.
5. 表示邊界
字元 功能
^ 比對字元串開頭
$ 比對字元串結尾
\b 比對一個單詞的邊界
\B 比對非單詞邊界
複制
例三: 邊界(制定規則來比對str="ho ve r")
import re
#定義規則比對str="ho ve r"
#1. 以字母開始
#2. 中間有空字元
#3. ve兩邊分别限定比對單詞邊界
pattern = r"^\w+\s\bve\b\sr"
str = "ho ve r"
result = re.match(pattern, str)
result.group()
複制
6. 比對分組
字元 功能
| 比對左右任意一個表達式
(ab) 将括号中字元作為一個分組
\num 引用分組num比對到的字元串
(?P<name>) 分組起别名
(?P=name) 引用别名為name分組比對到的字元串
複制
例四: 比對出0-100之間的數字
import re
#比對出0-100之間的數字
#首先:正則是從左往又開始比對
#經過分析: 可以将0-100分為三部分
#1. 0 "0$"
#2. 100 "100$"
#3. 1-99 "[1-9]\d{0,1}$"
#是以整合如下
pattern = r"0$|100$|[1-9]\d{0,1}$"
#測試資料為0,3,27,100,123
result = re.match(pattern, "27")
result.group()
#将0考慮到1-99上,上述pattern還可以簡寫為:pattern=r"100$|[1-9]?\d{0,1}$"
#測試結果如下圖:
複制
例五: 比對分組,擷取頁面中的<h1>标簽中的内容
import re
#比對分組,擷取頁面<h1>标簽中的内容, 爬蟲的時候會用到
str = "<h1>hello world!<h1>"
pattern = r"<h1>(.*)</h1>"
result = re.match(pattern, str)
result.group()
#執行如下圖
複制
例六: 分組引用, 精确擷取多個标簽内的内容
import re
#引用分組,精确擷取多個标簽内的内容
#"\1"是對第一個分組的引用,同理......
str = "<span><h1>hello world!</h1></span>"
pattern = r"<(.+)><(.+)>.*</\2></\1>"
result = re.match(pattern, str)
result.groups()
#執行如下圖:
複制
例六-2:分組起别名
import re
#分組起别名
str = "<span><h1>hello world!</h1></span>"
pattern = "<(?P<key1>.+)><(?P<key2>.+)>(?P<nr>.*)</(?P=key2)></(?P=key1)>"
result = re.match(pattern, str)
result.groups()
#執行如下圖:
複制