Python正则运算符优先级re.findall('(.)*',

2019-08-25 19:39:00

我们分别执行三个语句：

>>> re.findall('(.)*',"abc")         
['c', '']
>>> re.findall('(.*)',"abc")
['abc', '']
>>> re.findall('(.?)*',"abc")        
['', '']
>>>

可以看到三个执行结果完全不同，为什么会这样呢？老猿才开始没弄明白。我们使用《妙用re.sub分析正则表达式解析匹配过程》介绍的方法parsematch来分析一下这三个匹配语句：

>>> parsematch('(.)*',"abc")           
第1次匹配，匹配情况:
    匹配子串group(0): abc,位置为：(0, 3)
    匹配子串group(1): c,位置为：(2, 3)
第2次匹配,m.lastindex=None，匹配情况:
    匹配子串group(0): ,位置为：(3, 3)

可以看到“(.)*”是每次匹配一个字母，再重复匹配过程直到匹配不到字母前停止，所以最后匹配结果是字符“c”，在“c”之后是空字符串，由于*的原因也会匹配成功。

>>> parsematch('(.*)',"abc")           
第1次匹配，匹配情况:
    匹配子串group(0): abc,位置为：(0, 3)
    匹配子串group(1): abc,位置为：(0, 3)
第2次匹配，匹配情况:
    匹配子串group(0): ,位置为：(3, 3)
    匹配子串group(1): ,位置为：(3, 3)

可以看到“(.*)”是第一次匹配是匹配所有字符"abc"，匹配到搜索文本结束，第二次匹配空字符串也是匹配成功。

>>> parsematch('(.?)*',"abc")          
第1次匹配，匹配情况:
    匹配子串group(0): abc,位置为：(0, 3)
    匹配子串group(1): ,位置为：(3, 3)
第2次匹配，匹配情况:
    匹配子串group(0): ,位置为：(3, 3)
    匹配子串group(1): ,位置为：(3, 3)
>>>

可以看到“(.?)*”是每次匹配0-1个字符，再执行星号指定的重复匹配过程直到匹配到“c”之后，由于“abc”[3:3]也能匹配成功，因此最后匹配结果是空串。

第2次匹配“c”之后的空串开始，也是匹配成功，因此又会匹配到空串。

关于正则表达式优先级请参考《第11.26 Python正则表达式运算符优先级》；
正则表达式解析匹配过程请参考《妙用re.sub分析正则表达式解析匹配过程》；
贪婪模式和非贪婪模式的匹配处理过程请参考《Python正则表达式W+和W*匹配过程的深入分析》的相关分析。

Python正则运算符优先级re.findall('(.)*',

继续阅读

无法解析的外部符号 wmain，该符号在函数 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink导出用例转换工具(XML2Excel)

YAML简介和PyYAML安全操作YAML支持的类型YAML的优点：yaml的基本语法python操作

Small tricks

libsvm for python 安装

学习软件测试基础测试第七天

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

【Torch】最简洁logging使用指南

27. Remove Element(列表)题目代码

neo4j之cypher使用文档

Cloud Studio初体验

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入