C++中如何使用正则表达式

WeiCui 2005-12-13 02:50:19

我在使用C++中需用到正则表达式，请问各位有没有使用方法和例库？给出下载地址或cuiwei_mail@tom.com，万分感谢

...全文

11468 9 打赏收藏转发到动态举报

写回复

用AI写文章

9 条回复

切换为时间正序

请发表友善的回复…

发表回复

碼上道 2005-12-26

打赏
举报

mark

lisypro 2005-12-21

打赏
举报

顶一下

WeiCui 2005-12-13

打赏
举报

我想用在HP-UNIX下，哪位有分析正则表达式的代码？

wshcdr 2005-12-13

打赏
举报

VC下用DOM吧

屋顶上的老猫 2005-12-13

打赏
举报

http://msdn.microsoft.com/library/chs/default.asp?url=/library/CHS/vsintro7/html/vxgrfregularexpressionss.asp

屋顶上的老猫 2005-12-13

打赏
举报

http://www.vckbase.com/document/viewdoc/?id=1449

正则表达式简介

　　有些新手对正则表达式不是很熟悉，有必要在此作一简单回顾。如果你是正则表达式高手，可以不用看这一部分。
　　正则表达式是描述字符串集的字符串。例如，正则表达式“Mic*”描述所有包含“Mic”，后跟零个或多个字符的字符串。Mickey、Microsoft、Michelangelo 或 Mic 本身都是例子。句号“.”匹配任何字符，“+”类似“*”，但至少要一个字符，所以“Mic+”匹配前述所有除“Mic”以外的串。[a-z]指一个匹配范围，所以[a-zA-Z_0-9]匹配字母、数字或下划线。Regex 称之为单词字符，可以将它写成“\w”。所以“\w+”匹配至少有一个字符的单词字符序列——换句话说，叫 C 符号（C tokens）。那么这样一来，几乎所有的C 符号都不能以数字开头，因此，下面这个正则表达式是正确的：“^[a-zA-Z_]\w*$”。专用字符“^”意思是“以...开始”（除非它位于某个范围之内，这时它的意思是“非”），“$”意思是“结尾”，那么“^[a-zA-Z_]\w*$”意思就是：以字母或下划线开始的字母、数字或下划线字符串。
　　正则表达式在对输入进行有效性验证时非常有用。\d 匹配数字，{n}匹配重复n次，于是 ^5\d{15}$ 匹配5开头的16位数字，也即是说 MasterCard 信用卡号码。那 ^[45]\d{15}$ 就是Visa 卡号，它以4开头。你可以用大括弧对表达式进行分组，下面是个测试。这个表达式描述的是什么呢？^\d{5}(-\d{4}){0,1}$

提示：{0,1} 意思是重复0次或1次（可以缩写成问号 ?）。想出来了吗？该表达式意思是：五个数字后重复0次或1次（破折号后跟四个数字）。它匹配 02142和98007-4235，但不匹配 3245 或 2345-98761。这也就是美国的邮政编码。大括弧将 ZIP+4 部分分组，所以{0,1}修饰符将应用于整个分组。
　　以上我仅浅尝即止地说明了正则表达式能做什么。我还没提到替换，由于我没有具体资料，所以不敢描述在 Unicode 中会怎么样。但你能感觉到正则表达式有多么强大。多年来它们乃 UNIX 的中流砥柱，并且在Web 编程和 Perl 这样的语言中更臻完善，其对 HTML 的操作几乎完全是对文本的处理。正则表达式在 Windows 中一直没有得到充分使用，直到 .NET 框架面世，它才正式成为 Windows 家族的一员。

框架 Regex 类

.NET 框架用 Regex 类实现正则表达式，并有三个支持类：Match、Group 和 Capture （参见 Figure A）。典型情况下，你创建 Regex 并用输入串调用 Regex::Match 来获得第一个 Match，或用 Regex::Matches 来获取所有匹配：

Regex *r = new Regex("\b\w+\b");
MatchCollection* mc =
r->Matches("abc ,_foo ,<& mumble7");
for (int i=0; iCount; i++) {
Match *m = mc->Index(i);
Console.WriteLine(m->Value);
}

　　这将显示“abc”，“foo”和“mumble7”，每个匹配在一行。这个例子引入了一个专门的字符 \b，所谓锚或原子零宽度断言，就像 ^(开始)和$(结尾)。\b 指定某个单词的边界，所以“\b\w+\b”意思是用单词分隔的一个或多个单词字符。
　

Figure ARegex 类
　　正则表达式中的每个括弧表达式都构成一个 Group。Regex::Groups 返回作为集合的 Groups，它决不会是空，因为整个正则表达式本身即是一组。Groups 很重要，因为它们使你进行逻辑 OR 匹配，如“(ying|yong)”，它们使你将限定符应用到子表达式，并让你吸取匹配的单独部分。正文的 Figure 1 中我的 RegexTest 程序运行后用邮编为例显示分组。
　　在所有函数中最强大的函数要数 Regex::Replace，它使得正则表达式的威力惊人地强大。和许多开发人员一样，过去在多次传递字符串到多行编辑控件之前，我常常不得不手工将 “\n” 转换为“\r\n”，但使用 Regex::Replace，这个操作简直易如反掌。

s = Regex::Replace(s,"\n","\r\n");

　　Regex::Match 和 Replace 具备静态重载，所以你可以不用创建对象，以快速使用正则表达式。我最喜欢的 Regex::Replace 重载之一是带有一个委托参数，使你能用过程代码动态计算替换文本——参见正文中那个有趣的例子。
　　一些警告：每一种正则表达式的实现是有不太一样的。例如，在 Perl 中，{,1}是{0,1}的速记版，而微软的老大们不是那样做的。要当心一些微小的差别。权威的 .NET Regex 资料请参考 MSDN 库中的 “Regular Expressions as a Language”。

WeiCui 2005-12-13

打赏
举报

老大，你说的我大概知道，问题是我没有库，也下不了，可能网络有问题，哪位给发一下，自己写的也可以

bohemia 2005-12-13

打赏
举报

http://sourceforge.net/project/showfiles.php?group_id=1714

http://sourceforge.net/上搜下，估计有更多的。

PMsg 2005-12-13

打赏
举报

在C++Builder6上使用Boost正则表达式库

撰文:Aweay

正则表达式是一种模式匹配形式，它通常用在处理的文本程序中。比如我们经常使用的grep工具，还是perl语言都使用了正则表达式。传统的C++处理正则表达式是非常麻烦的，这也成为很多其他语言爱好者的笑柄，现在情况不一样了，因为有了boost。

Boost是一个基于Template的开发源代码库，在这个库中有很多子库用来高效处理各方面的问题，比如字符串拆分，格式化，线程等等，Boost对于每一个C++爱好者都是应该了解的，对于C++Builder用户如果能在熟练使用VCL的情况下再熟练使用Boost，我想一定如虎添翼。

一般来说，使用Boost是非常简单，和使用其他STL库没有太大区别，但使用Boost的正则表达式库则不那么容易，因为这个库还需要我们单独编译，下面我将详细介绍如何使用。

如果你还不知道或者还没有Boost的话，你可以去www.boost.org下载最新版本，作者使用的是1.30版本。将下载下来的zip包[1]解压到任何你喜欢的目录，比如D:\boost。

编译正则表达式库

前面已经提到，这个库需要我们单独编译才能使用，为什么不编译好一起发布呢？主要是考虑到不同的编译器需要不同的链接库文件和链接库太大了。在命令行下，进入[%Boost]\Libs\RegEx\Build目录，直接敲入make–fbcb6.mak命令开始编译，这里请大家注意了，如果你的计算机上同时安装了BCB5，请一定要把path设置成为BCB6的bcc32.exe程序所在的目录，否则可能使用BCB5的make程序，这样虽然能编译但最后不能使用。

编译过程相当耗时，你需要耐心等待，最终编译完成，会在[%Boost]\Libs\RegEx\Build目录生成一个BCB6目录，在这个目录生成了很多lib文件和dll文件，把所有dll文件复制到windows系统目录，所以lib文件复制到bcb6\lib目录。如果你不想这么麻烦的复制文件，可以在编译时加入install参数，就像这样make–fBcb6.makinstall，不过作者还是比较喜欢前一种方式，这样我可以知道到底生成了什么文件。现在编译已经完成了，你可以体现boost的神奇魅力了。

一个测试程序

在BCB6中创建console程序，编写下列代码：

#include<deque>

#include<iostream>

#include<algorithm>

#include<boost/regex.hpp>

intmain()

{

usingnamespaceboost;

usingnamespacestd;

regexexpression("\\s+href\\s*=\\s*\"([^\"]*)\"",regbase::normal|regbase::icase);

strings="<ahref=\"index.html\"><imgsrc=\"logo.gif\"></a>";

deque<string>result;

regex_split(std::back_inserter(result),s,expression);

copy(result.begin(),result.end(),ostream_iterator<string>(cout,"\n"));

intc;

cin>>c;

return0;

}

设置BCB6Project属性的LibPath和IncludePath为你安装boost的目录，运行你会看到结果：

index.html

可以看到index.html已经从字符串中提出出来了，那么为什么会是这样呢？

代码的核心部分是：

regexexpression("\\s+href\\s*=\\s*\"([^\"]*)\"",regbase::normal|regbase::icase);

它用来设置如何匹配字符串，上面乱七八糟的字符串很难看懂，如果不了解正则表达式的书写规则，上面代码可以和天书媲美。

regbase::normal|regbase::icase是解析参数设置，具体可以参考boost帮助文档。

正则表达式的书写规则

具体的书写规则，大家可以参看boost的文档，我这里做一下简要说明：

.(dot)
用来匹配任何一个字符，但不包括新行上的字符

*
闭包，任意有限次的自重复连接

+
有限次自重复连接，但至少出现一次

{}
指定可能的重复次数

例如：

ba*匹配bbabaabaaa等

ba+匹配babaabaaaaaaaaa等

ba{1,5}匹配babaabaaabaaaabaaaaa

\
转义字符，有很多用途，根据参数设置而变化，最常见的就是类似于c语言\的用法

\s
匹配空格

\w
匹配一个单词

\d
匹配数字

()
有两种用法：

1是合并的作用，例如(ab)*匹配abababababab等

2是确定匹配，也就是说在()中的字符将被最终拆解出来

根据上面这张表，我们可以很容易知道前面的那段天书如何解释。

一个实际的例子

前一段时间在CSDN上有一篇帖子，问题是有一种文件结构如（类似）：

@People{

Age=19

Speek=”Hay,{name},howareyou”

}

问如何拆分字符串得到@后面的名字，=两边的属性名和属性值，引号里{}种的名字。

解决这个问题用正则表达式再合适不过了。

根据分析，我们可以这样构造匹配规则：

"@(.*?)\s*\\{"匹配@开始的字符创，后面两种类型如何构造匹配规则留给大家思考吧。

这样我们可以轻易拆解这个例子。

性能分析

通过上面的讨论，大家已经了解到boost的强大威力，那个性能又如何呢？为此我们再实际来拆分一个复杂的html代码，看看到底需要花费多少时间。

为了节省篇幅，这里就不列出html代码了，不过可以告诉大家，这是一个又Word生成的大小为186K的html文件，这个文件中用到了很多<table>标签，所以我这里测试就来拆分所有<table>标签的width属性。测试代码如下：

#include<deque>

#include<iostream>

#include<algorithm>

#include<boost/regex.hpp>

#include<vcl.h>

intmain()

{

usingnamespaceboost;

usingnamespacestd;

TStringList*html=newTStringList();

html->LoadFromFile("D:\\1.htm");

regexexpression("\\s+width=([^\"]*)\s+",regbase::normal|regbase::icase);

DWORDstart=GetTickCount();

for(intn=0;n<html->Count;n++)

{

strings=html->Strings[n].c_str();

deque<string>result;

regex_split(std::back_inserter(result),s,expression);

copy(result.begin(),result.end(),ostream_iterator<string>(cout,"\n"));

result.clear();

}

start=GetTickCount()-start;

deletehtml;

cout<<start;

intc;

cin>>c;

return0;

}

输出结果为671毫秒，拆分得到1072个width属性值，我们可以看到boost的效率是非常高的，虽然与一些角本语言比起来解析速度还是慢，但已经可以满足大多数编程要求了。另外作者的计算机配置并不是非常高，相信拿到现在任何一台主流配置的计算机上都会优于作者的结果。

结束语

其实上面的强大威力只是boost的冰山一角，如果你不自己去体会，你很难想象到boost的强大威力。在boost里还有很多使用的库，比如格式化输出，字符串拆解，类型转换等，这些库使用起来也比较方便，大家可以自行参考boost文档。在这些库中还有两个库需要自行编译，他们是Python和thread库，而且这些库的编译需要专门的工具Jam，所以我们在编译这些库的时候还要编译jam工具，而编译jam工具也不是一件快乐的事情，麻烦同样出现在如果你安装了多个编译器，如果读者有兴趣可以自己试一下。

不过BCB6并不支持全部boost库，从boost提供的编译器支持表可以看到[2]，BCB6还是有相当多的库不支持的，支持最好的是gcc/g++的编译器，但也不是全部支持。希望borland下一个将要发布的C++编译器可以支持更多C++标准。

[1]其实还有其他类型的包，但在windows系统下，你最好下载zip包