[Python 实战] - No.12 Python 中的正则表达式使用

2024-04-12 14:32

本文主要是介绍[Python 实战] - No.12 Python 中的正则表达式使用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1. Python中如何使用正则表达式

Python中使用正则表达式的步骤如下:

  • 使用import re导入正则表达式模块
  • 使用re.compile()创建一个对象
  • 使用Regex对象的search()方法,传入一个字符串,然后返回一个Match对象
  • 调用Match对象的group()方法,返回文本中匹配该正则表达式的字符串

示例如下,查找学生姓名中姓Zhang的同学姓名

import renamelist = "Li Ming;Zhang San;Fu yu;Guo Ji;Ren Jie;Zhang Lin;"
nameRegex = re.compile(r"Zhang\s\w+")
match = nameRegex.search(namelist)
print(match.group())

结果如下:

Zhang San

上面的代码中,有几个地方需要解释一下:

  • re.compile(r"Zhang San\s\w+")在正则表达式的前面加了一个r,标识该字符为原始字符串。因为,在Python中,转义字符前面需要加\来标记,如果你需要在字符串中打出\,那么你需要使用\\,或者在字符串的前面加入一个r来标记

    r"Zhang San\s\w+""Zhang San\\s\\w+"是等价的

  • search()函数匹配文本中第一个符合该字符串的结果并返回一个Match对象,Match对象的group()函数将返回被查找到的实际文本。所以在上述结果中,我们仅得到Zhang San这个结果。如果你的正则表达式中含有分组(后续会讲到),你可以使用group(1), group(2)来查询正则表达式中第一个,第二个分组的匹配结果。

2. 正则表达式的更多模式
1. 使用括号分组

假设,某地区的电话号码的表示形式为123-456-7890的形式,且前三位为区号,后七位标识电话号,要求将从文本中同时获取区号,电话号和整体的电话号码。

代码和结果如下:

text = "My phone number is 455-789-1234"
pnRegex = re.compile(r"(\d\d\d)-(\d\d\d-\d\d\d\d)")
match = pnRegex.search(text)
print(match.group())
print(match.group(1))
print(match.group(2))
print(match.groups())

结果如下:

455-789-1234
455
789-1234
(‘455’, ‘789-1234’)

group()默认传入参数为0,即返回整个匹配的文本。如果想获取全体分组的结果,使用groups()函数,该函数返回一个包含所有分组匹配结果的元组。

2. 使用管道匹配多个分组

字符|是正则表达式中的管道,用来匹配许多表达式中的一个。如果想匹配姓名列表中,姓Zhang的和姓Li的同学的姓名,可以使用管道|来连接多个正则表达式。

 namelist1 = "Li Ming;Zhang San;Fu yu;Guo Ji;Ren Jie;Zhang Lin;"namelist2 = "Zhang San;Fu yu;Guo Ji;Ren Jie;Zhang Lin;Li Ming;"nameRegex = re.compile(r"Zhang\s\w+|Li\s\w+")match1 = nameRegex.search(namelist1)print(match1.group())match2 = nameRegex.search(namelist2)print(match2.group())

结果如下:

Li Ming
Zhang San

3. 使用问号实现可选匹配

例如在之前的电话匹配中,我们希望即便有人省略区号,依然可以检测出电话号码。使用?来实现部分匹配的模式是可选的

text1 = "My phone number is 455-789-1234"
text2 = "My phone number is 789-1234"
pnRegex = re.compile(r"(\d\d\d-)?(\d\d\d-\d\d\d\d)")
match1 = pnRegex.search(text1)
print(match1.group())
match2 = pnRegex.search(text2)
print(match2.group())

结果如下:

455-789-1234
789-1234

4. 使用花括号匹配特定次数

假设现在我们有一串字符串:

* *** ********** ** *** ****** ** ***** * ******* ***** **** ***** * *** * **

如果我们想匹配一下几种情况:

  • 恰好三个* 连在一起的,如***
  • 少于等于三个* 连在一起的,如**,*
  • 连在一起的*个数大于等于四,但是小于等于五
  • 大于等于六个*连在一起的,如******

代码如下:

text = "* *** ********** ** **** ****** ** ***** * ******* ***** **** ***** * *** * **"
sRegex1 = re.compile(r"(\*){3}")
sRegex2 = re.compile(r"(\*){,3}")
sRegex3 = re.compile(r"(\*){4,5}")
sRegex4 = re.compile(r"(\*){6,}")
match1 = sRegex1.search(text)
match2 = sRegex2.search(text)
match3 = sRegex3.search(text)
match4 = sRegex4.search(text)
print(match1.group())
print(match2.group())
print(match3.group())
print(match4.group())

结果如下所示:

***
*
*****
**********

r"(\*){3}"中,(\*)表示匹配*型字符的分组。因为 *在正则表达式中表示匹配一个或多个,所以需要使用\进行转义,表示字符 *

花括号{n,m},表示前面的分组重复次数大于等于n次并且小于等于m次。m和n也可省略其中一个,表示大于等于n或者小于等于m。{n}表示分组恰好重复n次。

另外,可以看到,在被匹配的文本中,长度为4的字符串****排在长度为5的字符串***** 前面,但是代码查找到的结果是*****,这是因为默认情况下正则表达式是贪婪地,花括号的贪婪版本会尽可能的匹配更长的字符串。使用字符?可以声明正则表达式为非贪心形式

text = "* *** ********** ** *** ****** **** ***** * ******* ***** **** ***** * *** * **"
sRegex1 = re.compile(r"(\*){4,5}")
match1 = sRegex1.search(text)
sRegex2 = re.compile(r"(\*){4,5}?")
match2 = sRegex2.search(text)
print(match1.group())
print(match2.group())

结果如下:

*****
****
5. findall()方法

re模块的findall()方法返回被匹配文本中的所有匹配到的结果。

之前提到的search() 仅返回文本中第一个匹配到的结果,方法返回一个Match对象,并调用Match对象的group()函数获取匹配结果

findall()匹配文本中所有匹配的结果,并且返回一个所有结果的列表。如果正则表达式中有分组,那么findall()将返回分组的列表

比如之前的电话号的正则表达式:

text = "My phone number is 455-789-1234,Lily's phone number is 110-101-1230 and Lucy's phone number is 789-456-1245"
pnRegex = re.compile(r"(\d\d\d)-(\d\d\d-\d\d\d\d)")
reslist = pnRegex.findall(text)
print(reslist)

结果如下:

[(‘455’, ‘789-1234’), (‘110’, ‘101-1230’), (‘789’, ‘456-1245’)]

6. sub()函数和compile()函数

前面我们使用了re.compile() 来构造特定正则表达式的Regex对象,compile()函数具体的签名如下:

def compile(pattern, flags=0)

所以我们可以在compile()追加第二个参数,实现特定功能。

例如:检索文本中所有的Alice词语,不区分大小写,代码如下

text = "Alice is aLice,aliCe,and ALIcE.But it's not Bob."
regex = re.compile("Alice", re.IGNORECASE)
res = regex.findall(text)
print(res)

结果如下所示:

[‘Alice’, ‘aLice’, ‘aliCe’, ‘ALIcE’]

flags`的其他参数如下:

参数缩写用途
re.IGNORECASEre.IPerform case-insensitive matching.
re.LOCALEre.LMake \w, \W, \b, \B, dependent on the current locale.
re.MULTILINEre.M“^” matches the beginning of lines (after a newline) as well as the string. “$” matches the end of lines (before a newline) as well as the end of the string.
re.DOTALLre.D“.” matches any character at all, including the newline.
re.VERBOSEre.XIgnore whitespace and comments for nicer looking RE’s.
re.UNICODEre.UFor compatibility only. Ignored for string patterns (it is the default), and forbidden for bytes patterns.

sub()函数可以用于替换正则表达式查找到的字符串。例如,我们将之前字符串中所有的Alice的姓名隐藏:

text = "Alice is aLice,aliCe,ALIcE.But it's not Bob."
regex = re.compile(r"(A)(\w+)", re.IGNORECASE)
print(regex.sub(r'\1****',text))

结果如下所示:

A**** is a****,a****,A****.But it’s not Bob.

sub()函数第一个参数是要替换为的字符串,第二个参数是匹配的正则表达式。另外在sub()函数的第一个参数中,可以使用\1,\2 …来表示替换分组1,2…中的文本

正则表达式中的常用字符表,网上资源很多,这里不再放出来。


P.S. 文章不足之处还望指正
参考书籍:《Python编程快速上手—让繁琐工作自动化》

这篇关于[Python 实战] - No.12 Python 中的正则表达式使用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/897401

相关文章

python获取指定名字的程序的文件路径的两种方法

《python获取指定名字的程序的文件路径的两种方法》本文主要介绍了python获取指定名字的程序的文件路径的两种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要... 最近在做项目,需要用到给定一个程序名字就可以自动获取到这个程序在Windows系统下的绝对路径,以下

Java使用Javassist动态生成HelloWorld类

《Java使用Javassist动态生成HelloWorld类》Javassist是一个非常强大的字节码操作和定义库,它允许开发者在运行时创建新的类或者修改现有的类,本文将简单介绍如何使用Javass... 目录1. Javassist简介2. 环境准备3. 动态生成HelloWorld类3.1 创建CtC

使用Python批量将.ncm格式的音频文件转换为.mp3格式的实战详解

《使用Python批量将.ncm格式的音频文件转换为.mp3格式的实战详解》本文详细介绍了如何使用Python通过ncmdump工具批量将.ncm音频转换为.mp3的步骤,包括安装、配置ffmpeg环... 目录1. 前言2. 安装 ncmdump3. 实现 .ncm 转 .mp34. 执行过程5. 执行结

Python实现批量CSV转Excel的高性能处理方案

《Python实现批量CSV转Excel的高性能处理方案》在日常办公中,我们经常需要将CSV格式的数据转换为Excel文件,本文将介绍一个基于Python的高性能解决方案,感兴趣的小伙伴可以跟随小编一... 目录一、场景需求二、技术方案三、核心代码四、批量处理方案五、性能优化六、使用示例完整代码七、小结一、

Python中 try / except / else / finally 异常处理方法详解

《Python中try/except/else/finally异常处理方法详解》:本文主要介绍Python中try/except/else/finally异常处理方法的相关资料,涵... 目录1. 基本结构2. 各部分的作用tryexceptelsefinally3. 执行流程总结4. 常见用法(1)多个e

Java使用jar命令配置服务器端口的完整指南

《Java使用jar命令配置服务器端口的完整指南》本文将详细介绍如何使用java-jar命令启动应用,并重点讲解如何配置服务器端口,同时提供一个实用的Web工具来简化这一过程,希望对大家有所帮助... 目录1. Java Jar文件简介1.1 什么是Jar文件1.2 创建可执行Jar文件2. 使用java

C#使用Spire.Doc for .NET实现HTML转Word的高效方案

《C#使用Spire.Docfor.NET实现HTML转Word的高效方案》在Web开发中,HTML内容的生成与处理是高频需求,然而,当用户需要将HTML页面或动态生成的HTML字符串转换为Wor... 目录引言一、html转Word的典型场景与挑战二、用 Spire.Doc 实现 HTML 转 Word1

Python中logging模块用法示例总结

《Python中logging模块用法示例总结》在Python中logging模块是一个强大的日志记录工具,它允许用户将程序运行期间产生的日志信息输出到控制台或者写入到文件中,:本文主要介绍Pyt... 目录前言一. 基本使用1. 五种日志等级2.  设置报告等级3. 自定义格式4. C语言风格的格式化方法

Python实现精确小数计算的完全指南

《Python实现精确小数计算的完全指南》在金融计算、科学实验和工程领域,浮点数精度问题一直是开发者面临的重大挑战,本文将深入解析Python精确小数计算技术体系,感兴趣的小伙伴可以了解一下... 目录引言:小数精度问题的核心挑战一、浮点数精度问题分析1.1 浮点数精度陷阱1.2 浮点数误差来源二、基础解决

Java中的抽象类与abstract 关键字使用详解

《Java中的抽象类与abstract关键字使用详解》:本文主要介绍Java中的抽象类与abstract关键字使用详解,本文通过实例代码给大家介绍的非常详细,感兴趣的朋友跟随小编一起看看吧... 目录一、抽象类的概念二、使用 abstract2.1 修饰类 => 抽象类2.2 修饰方法 => 抽象方法,没有