正则表达式中 “$” 并不是表示 “字符串结束

admin3周前笔记28

这篇文章写一写我最近在用 Python 的正则表达式模块(re)开发 CPython 的 SBOM 工具时发现的一个令人惊讶的行为。

如果用过正则表达式,你可能知道 ^ 表示 “字符串开始”,并相应地将 $ 视为 “字符串结束”。因此认为, cat$ 模式会匹配字符串 "lolcat" ,但不会匹配 "internet cat video"

^ 的行为让我认为 $ 也是类似的,但这并不一定成立,而且这种行为取决于不同编程语言及其写法。

特别是对于 Python 来说,如果禁用了多行模式(这是默认设置),那么,$ 字符不仅可以匹配字符串的末尾,还可以匹配字符串末尾的换行符。

所以,如果你试图匹配一个末尾没有换行符的字符串,在 Python 中使用 $ 是做不到的!我本以为禁用多行模式后,就不会有这种匹配换行符的行为,但事实恰恰相反。

下一个合乎逻辑的问题是,如何在 Python 中匹配一个末尾不含换行符的字符串?

在对 Python 和其它正则表达式语法进行多番研究后,我还发现了 \z 和 \Z 可以用于匹配 “字符串结束” 字符。

在 Python 中,可以用 re.MULTILINE 来启用多行模式,文档的描述如下:

当指定 re.MULTILINE 时,模式字符 '$' 会匹配字符串末尾以及每一行末尾(包含换行符)。默认情况下,'$' 只匹配字符串末尾以及字符串末尾的换行符之前(如果有的话)。

让我们看看这些特性在不同平台上是什么表现:

模式匹配 "cat\n"?"cat$" 多行模式"cat$" 无多行模式"cat\z""cat\Z"
PHP
ECMAScript⚠️⚠️
Python⚠️
Golang⚠️
Java 8
.NET 7.0
Rust⚠️
  • ✅: 模式与字符串 "cat\n" 匹配

  • ❌: 模式与字符串 "cat\n" 不匹配

  • ⚠️: 模式无效或不支持该用法

综合上述表格,如果要匹配换行符,那么在所有语言中使用多行模式的 $ ,都能匹配成功;但如果不想匹配换行符,事情就会变得复杂起来。

如果不想匹配换行符,在除了 Python 和 ECMAScript 外的其它语言中,你可以使用 \z。而在 Python 中,你需要使用 \Z ,在 ECMAScript 中使用非多行模式的 $


相关文章

如何使用U盘安装Ubuntu 14.04

如何使用U盘安装Ubuntu 14.04

对于做运维的同学来说U盘装个系统不就是分分钟的事吗,这有什么好说的?U盘安装系统一般就是如下几步:下载系统镜像。通过刻录软件写入U盘。修改BIOS,从U盘引导。喝杯咖啡,愉快的等待安装完成。通常按操上...

Shell脚本知识简述

Shell脚本知识简述

shell 都能做什么监控系统运行:linux可以说是运行最稳定的操作系统,这一方面得益于它完美的内核,另一方面就是有很多shell脚本命令可以监控系统的运行,当出现问题之前,提前报警。启动停止服务:...

HTTP HSTS协议和 nginx

HTTP HSTS协议和 nginx

什么是HSTSHTTPS(SSL和TLS)确保用户和网站通讯过程中安全,使攻击者难于拦截、修改和假冒。当用户手动输入域名或http://链接,该网站的第一个请求是未加密的,使用普通的http。最安全的...

一条线 理解SSH登录前因后果

一条线 理解SSH登录前因后果

SSH流程图根据流程图我们可以相应的看出我们的程序从最初的浏览器到最后的页面回显的过程。Hibernate层主要负责映射文件和Action和Service的注入,负责后台服务3层之间调用**JSP相当...

十分钟学会微调大语言模型

十分钟学会微调大语言模型

LoRA是什么LoRA之于大语言模型,就像设计模式中的装饰器模式:装饰器模式允许向一个对象添加新的功能,而不改变其结构。具体来说,装饰器模式会创建一个装饰类,用来包装原有的类,并在保持原有类方法签名完...

ClashX配置V2ray教程

ClashX配置V2ray教程

ClashX介绍Clash 是一个使用 Go 语言编写、基于规则的跨平台代理核心程序。Clash目前有Windows、MacOS、Android等多个平台的GUI程序,支持SS/V2ray/...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。