【分享】正则表达式的效率——不同的写法，效率差的远比想象的多

varlj 2008-11-01 04:24:21

昨天晚上看《深入浅出正则表达式》，看到对于正则式效率一节，好奇测试了一下。
平时写正则式，只求能达到目的就好了，从来没想过效率这问题（顶多就是不需要的分组不捕获），昨天一测试，吓我一跳
用一下里面的例子，写一个正则式，检测的字串中的每个字段间用逗号做分隔符，第12个字段由P开头
1,2,3,4,5,6,7,8,9,10,11,12,13

写法一匹配次数
(.*?,){11}p 120628次
^(.*?,){11}p 60400次
(\w*?,){11}p 1485次
^(\w*?,){11}p 170次
^([^,\r\n]*,){11}P 133次

注：正则式不是很准确，只是为了说明效率问题

解决方案：
一种简单的方案是尽可能的使匹配精确。用取反字符集代替点号。例如我们用如下正则表达式^([^,\r\n]*,){11}P，这样可以使失败回溯的次数下降到11次。

另一种方案是使用原子组。（测试了一下，JS不支持，C#和JAVA是支持的）

原子组的目的是使正则引擎失败的更快一点。因此可以有效的阻止海量回溯。原子组的语法是(?>正则表达式)。位于(?>)之间的所有正则表达式都会被认为是一个单一的正则符号。一旦匹配失败，引擎将会回溯到原子组前面的正则表达式部分。前面的例子用原子组可以表达成^(?>(.*?,){11})P。一旦第十二个字段匹配失败，引擎回溯到原子组前面的^。

...全文

388 7 打赏收藏转发到动态举报

写回复

7 条回复

切换为时间正序

请发表友善的回复…

发表回复

shiqicai2 2011-02-16

打赏
举报

回复

这个问题的关键在于匹配的是十一个逗号,如果换成一两个,区别就不会这么明显了.
而且在一般的应用里面,不会出现匹配这么多重复的字符的例子吧.

btbtd 2008-11-01

打赏
举报

回复

应该劫劫三楼那家伙...

囧 2008-11-01

打赏
举报

回复

回帖是一种美德！传说每天回帖即可获得 10 分可用分！

wtcsy 2008-11-01

打赏
举报

回复

mark
jf.......

王集鹄 2008-11-01

打赏
举报

回复

[Quote=引用 2 楼 chinmo 的回复:]
抢劫大财主啊
[/Quote][img=http://p.blog.csdn.net/images/p_blog_csdn_net/zswangii/%E6%89%AB%E5%B0%84.gif]图[/img]

一把编程的菜刀 2008-11-01

打赏
举报

回复

抢劫大财主啊

王集鹄 2008-11-01

打赏
举报

回复

如果要处理字符串很长是应该好好设计一下。[img=http://p.blog.csdn.net/images/p_blog_csdn_net/zswang/%E5%90%8C%E6%84%8F.gif]图[/img]

正则表达式(regular expression abbr. regex) 功能强大，能够用于在一大串字符里找到所需信息。它利用约定俗成的字符结构表达式来发生作用。不幸的是，简单的正则表达式对于一些高级运用，功能远远不够。若要进行筛选的结构比较复杂，你可能就需要用到高级正则表达式。本文介绍正则表达式的高级技巧。筛选出了八个常用的概念，并配上实例解析，每个例子都是满足某种复杂要求的简单写法。如果你对...

本文系统介绍了正则表达式的理论与工程实践。首先区分了工程视角（文本匹配工具）与理论视角（正则语言）的正则表达式，并阐述了正则式的基本构造规则与自动机的等价性。然后详细讨论了正则式的代数性质，包括并、连接和Kleene星运算的特性及其应用。文章还涉及正则语言的封闭性、与自动机的转换方法、判定问题以及工程实践中的优化策略。通过Python示例展示了理论概念的实际应用，旨在帮助读者深入理解正则表达式的能力边界，并掌握编写高效、可维护正则模式的技巧。适合计算机科学从业者、学生及需要使用正则表达式的开发者阅读。

http://www.cnblogs.com/bvbook/archive/2010/11/03/1867775.html 正则表达式的与或非我们都知道，写正则表达式有点像搭积木，复杂的功能总可以拆分开来，由不同的元素（也就是子表达式）对应，再用合适的关系将它们组合起来，就可以完成。在这一节，我们讲解常见的与或非关系的表达。与 “与”是最简单的关系，它表示若干个元素必须同时相继出现，比

正则表达式的高级技巧 正则表达式(regular expression abbr. regex) 功能强大，能够用于在一大串字符里找到所需信息。它利用约定俗成的字符结构表达式来发生作用。不幸的是，简单的正则表达式对于一些高级运用，功能远远不够。若要进行筛选的结构比较复杂，你可能就需要用到高级正则表达式。本文介绍正则表达式的高级技巧。筛选出了八个常用的概念，并配上实例解析...

正则表达式(RegularExpression, abbr. regex)功能强大，能够用于在一大串字符里找到所需信息。它利用约定俗成的字符结构表达式来发生作用。不幸的是，简单的正则表达式对于一些高级运用，功能远远不够。若要进行筛选的结构比较复杂，你可能就需要用到高级正则表达式。本文为您介绍正则表达式的高级技巧。我们筛选出了八个常用的概念，并配上实例解析，每个例子都是满足某种复杂要求的简单写法

87,993

社区成员

224,694

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章