C++中如何使用正则表达式

WeiCui 2005-12-13 02:50:19
我在使用C++中需用到正则表达式,请问各位有没有使用方法和例库?给出下载地址或cuiwei_mail@tom.com,万分感谢
...全文
11468 9 打赏 收藏 转发到动态 举报
写回复
用AI写文章
9 条回复
切换为时间正序
请发表友善的回复…
发表回复
碼上道 2005-12-26
  • 打赏
  • 举报
回复
mark
lisypro 2005-12-21
  • 打赏
  • 举报
回复
顶一下
WeiCui 2005-12-13
  • 打赏
  • 举报
回复
我想用在HP-UNIX下,哪位有分析正则表达式的代码?
wshcdr 2005-12-13
  • 打赏
  • 举报
回复
VC下用DOM吧
屋顶上的老猫 2005-12-13
  • 打赏
  • 举报
回复
http://msdn.microsoft.com/library/chs/default.asp?url=/library/CHS/vsintro7/html/vxgrfregularexpressionss.asp
屋顶上的老猫 2005-12-13
  • 打赏
  • 举报
回复
http://www.vckbase.com/document/viewdoc/?id=1449

正则表达式简介

  有些新手对正则表达式不是很熟悉,有必要在此作一简单回顾。如果你是正则表达式高手,可以不用看这一部分。
  正则表达式是描述字符串集的字符串。例如,正则表达式“Mic*”描述所有包含“Mic”,后跟零个或多个字符的字符串。Mickey、Microsoft、Michelangelo 或 Mic 本身都是例子。句号“.”匹配任何字符,“+”类似“*”,但至少要一个字符,所以“Mic+”匹配前述所有除“Mic”以外的串。[a-z]指一个匹配范围,所以[a-zA-Z_0-9]匹配字母、数字或下划线。Regex 称之为单词字符,可以将它写成“\w”。所以“\w+”匹配至少有一个字符的单词字符序列——换句话说,叫 C 符号(C tokens)。那么这样一来,几乎所有的C 符号都不能以数字开头,因此,下面这个正则表达式是正确的:“^[a-zA-Z_]\w*$”。专用字符“^”意思是“以...开始”(除非它位于某个范围之内,这时它的意思是“非”),“$”意思是“结尾”,那么“^[a-zA-Z_]\w*$”意思就是:以字母或下划线开始的字母、数字或下划线字符串。
  正则表达式在对输入进行有效性验证时非常有用。\d 匹配数字,{n}匹配重复n次,于是 ^5\d{15}$ 匹配5开头的16位数字,也即是说 MasterCard 信用卡号码。那 ^[45]\d{15}$ 就是Visa 卡号,它以4开头。你可以用大括弧对表达式进行分组,下面是个测试。这个表达式描述的是什么呢?^\d{5}(-\d{4}){0,1}$

提示:{0,1} 意思是重复0次或1次(可以缩写成问号 ?)。想出来了吗?该表达式意思是:五个数字后重复0次或1次(破折号后跟四个数字)。它匹配 02142和98007-4235,但不匹配 3245 或 2345-98761。这也就是美国的邮政编码。大括弧将 ZIP+4 部分分组,所以{0,1}修饰符将应用于整个分组。
  以上我仅浅尝即止地说明了正则表达式能做什么。我还没提到替换,由于我没有具体资料,所以不敢描述在 Unicode 中会怎么样。但你能感觉到正则表达式有多么强大。多年来它们乃 UNIX 的中流砥柱,并且在Web 编程和 Perl 这样的语言中更臻完善,其对 HTML 的操作几乎完全是对文本的处理。正则表达式在 Windows 中一直没有得到充分使用,直到 .NET 框架面世,它才正式成为 Windows 家族的一员。

框架 Regex 类

.NET 框架用 Regex 类实现正则表达式,并有三个支持类:Match、Group 和 Capture (参见 Figure A)。典型情况下,你创建 Regex 并用输入串调用 Regex::Match 来获得第一个 Match,或用 Regex::Matches 来获取所有匹配:

Regex *r = new Regex("\b\w+\b");
MatchCollection* mc =
r->Matches("abc ,_foo ,<& mumble7");
for (int i=0; iCount; i++) {
Match *m = mc->Index(i);
Console.WriteLine(m->Value);
}

  这将显示“abc”,“foo”和“mumble7”,每个匹配在一行。这个例子引入了一个专门的字符 \b,所谓锚或原子零宽度断言,就像 ^(开始)和$(结尾)。\b 指定某个单词的边界,所以“\b\w+\b”意思是用单词分隔的一个或多个单词字符。
 


Figure ARegex 类
  正则表达式中的每个括弧表达式都构成一个 Group。Regex::Groups 返回作为集合的 Groups,它决不会是空,因为整个正则表达式本身即是一组。Groups 很重要,因为它们使你进行逻辑 OR 匹配,如“(ying|yong)”,它们使你将限定符应用到子表达式,并让你吸取匹配的单独部分。正文的 Figure 1 中我的 RegexTest 程序运行后用邮编为例显示分组。
  在所有函数中最强大的函数要数 Regex::Replace,它使得正则表达式的威力惊人地强大。和许多开发人员一样,过去在多次传递字符串到多行编辑控件之前,我常常不得不手工将 “\n” 转换为“\r\n”,但使用 Regex::Replace,这个操作简直易如反掌。

s = Regex::Replace(s,"\n","\r\n");


  Regex::Match 和 Replace 具备静态重载,所以你可以不用创建对象,以快速使用正则表达式。我最喜欢的 Regex::Replace 重载之一是带有一个委托参数,使你能用过程代码动态计算替换文本——参见正文中那个有趣的例子。
  一些警告:每一种正则表达式的实现是有不太一样的。例如,在 Perl 中,{,1}是{0,1}的速记版,而微软的老大们不是那样做的。要当心一些微小的差别。权威的 .NET Regex 资料请参考 MSDN 库中的 “Regular Expressions as a Language”。
WeiCui 2005-12-13
  • 打赏
  • 举报
回复
老大,你说的我大概知道,问题是我没有库,也下不了,可能网络有问题,哪位给发一下,自己写的也可以
bohemia 2005-12-13
  • 打赏
  • 举报
回复
http://sourceforge.net/project/showfiles.php?group_id=1714

http://sourceforge.net/上搜下,估计有更多的。
PMsg 2005-12-13
  • 打赏
  • 举报
回复
在C++Builder6上使用Boost正则表达式库

撰文:Aweay

正则表达式是一种模式匹配形式,它通常用在处理的文本程序中。比如我们经常使用的grep工具,还是perl语言都使用了正则表达式。传统的C++处理正则表达式是非常麻烦的,这也成为很多其他语言爱好者的笑柄,现在情况不一样了,因为有了boost。

Boost是一个基于Template的开发源代码库,在这个库中有很多子库用来高效处理各方面的问题,比如字符串拆分,格式化,线程等等,Boost对于每一个C++爱好者都是应该了解的,对于C++Builder用户如果能在熟练使用VCL的情况下再熟练使用Boost,我想一定如虎添翼。

一般来说,使用Boost是非常简单,和使用其他STL库没有太大区别,但使用Boost的正则表达式库则不那么容易,因为这个库还需要我们单独编译,下面我将详细介绍如何使用。

如果你还不知道或者还没有Boost的话,你可以去www.boost.org下载最新版本,作者使用的是1.30版本。将下载下来的zip包[1]解压到任何你喜欢的目录,比如D:\boost。

编译正则表达式库

前面已经提到,这个库需要我们单独编译才能使用,为什么不编译好一起发布呢?主要是考虑到不同的编译器需要不同的链接库文件和链接库太大了。在命令行下,进入[%Boost]\Libs\RegEx\Build目录,直接敲入make–fbcb6.mak命令开始编译,这里请大家注意了,如果你的计算机上同时安装了BCB5,请一定要把path设置成为BCB6的bcc32.exe程序所在的目录,否则可能使用BCB5的make程序,这样虽然能编译但最后不能使用。

编译过程相当耗时,你需要耐心等待,最终编译完成,会在[%Boost]\Libs\RegEx\Build目录生成一个BCB6目录,在这个目录生成了很多lib文件和dll文件,把所有dll文件复制到windows系统目录,所以lib文件复制到bcb6\lib目录。如果你不想这么麻烦的复制文件,可以在编译时加入install参数,就像这样make–fBcb6.makinstall,不过作者还是比较喜欢前一种方式,这样我可以知道到底生成了什么文件。现在编译已经完成了,你可以体现boost的神奇魅力了。

一个测试程序

在BCB6中创建console程序,编写下列代码:

#include<deque>

#include<iostream>

#include<algorithm>

#include<boost/regex.hpp>



intmain()

{

usingnamespaceboost;

usingnamespacestd;

regexexpression("\\s+href\\s*=\\s*\"([^\"]*)\"",regbase::normal|regbase::icase);

strings="<ahref=\"index.html\"><imgsrc=\"logo.gif\"></a>";

deque<string>result;

regex_split(std::back_inserter(result),s,expression);

copy(result.begin(),result.end(),ostream_iterator<string>(cout,"\n"));

intc;

cin>>c;

return0;

}



设置BCB6Project属性的LibPath和IncludePath为你安装boost的目录,运行你会看到结果:

index.html

可以看到index.html已经从字符串中提出出来了,那么为什么会是这样呢?

代码的核心部分是:

regexexpression("\\s+href\\s*=\\s*\"([^\"]*)\"",regbase::normal|regbase::icase);

它用来设置如何匹配字符串,上面乱七八糟的字符串很难看懂,如果不了解正则表达式的书写规则,上面代码可以和天书媲美。

regbase::normal|regbase::icase是解析参数设置,具体可以参考boost帮助文档。

正则表达式的书写规则

具体的书写规则,大家可以参看boost的文档,我这里做一下简要说明:

.(dot)
用来匹配任何一个字符,但不包括新行上的字符

*
闭包,任意有限次的自重复连接

+
有限次自重复连接,但至少出现一次

{}
指定可能的重复次数

例如:

ba*匹配bbabaabaaa等

ba+匹配babaabaaaaaaaaa等

ba{1,5}匹配babaabaaabaaaabaaaaa

\
转义字符,有很多用途,根据参数设置而变化,最常见的就是类似于c语言\的用法

\s
匹配空格

\w
匹配一个单词

\d
匹配数字

()
有两种用法:

1是合并的作用,例如(ab)*匹配abababababab等

2是确定匹配,也就是说在()中的字符将被最终拆解出来

根据上面这张表,我们可以很容易知道前面的那段天书如何解释。

一个实际的例子

前一段时间在CSDN上有一篇帖子,问题是有一种文件结构如(类似):

@People{

Age=19

Speek=”Hay,{name},howareyou”

}

问如何拆分字符串得到@后面的名字,=两边的属性名和属性值,引号里{}种的名字。

解决这个问题用正则表达式再合适不过了。

根据分析,我们可以这样构造匹配规则:

"@(.*?)\s*\\{"匹配@开始的字符创,后面两种类型如何构造匹配规则留给大家思考吧。

这样我们可以轻易拆解这个例子。

性能分析

通过上面的讨论,大家已经了解到boost的强大威力,那个性能又如何呢?为此我们再实际来拆分一个复杂的html代码,看看到底需要花费多少时间。

为了节省篇幅,这里就不列出html代码了,不过可以告诉大家,这是一个又Word生成的大小为186K的html文件,这个文件中用到了很多<table>标签,所以我这里测试就来拆分所有<table>标签的width属性。测试代码如下:

#include<deque>

#include<iostream>

#include<algorithm>

#include<boost/regex.hpp>

#include<vcl.h>



intmain()

{

usingnamespaceboost;

usingnamespacestd;

TStringList*html=newTStringList();

html->LoadFromFile("D:\\1.htm");

regexexpression("\\s+width=([^\"]*)\s+",regbase::normal|regbase::icase);

DWORDstart=GetTickCount();

for(intn=0;n<html->Count;n++)

{

strings=html->Strings[n].c_str();

deque<string>result;

regex_split(std::back_inserter(result),s,expression);

copy(result.begin(),result.end(),ostream_iterator<string>(cout,"\n"));

result.clear();

}

start=GetTickCount()-start;

deletehtml;

cout<<start;

intc;

cin>>c;

return0;

}



输出结果为671毫秒,拆分得到1072个width属性值,我们可以看到boost的效率是非常高的,虽然与一些角本语言比起来解析速度还是慢,但已经可以满足大多数编程要求了。另外作者的计算机配置并不是非常高,相信拿到现在任何一台主流配置的计算机上都会优于作者的结果。

结束语

其实上面的强大威力只是boost的冰山一角,如果你不自己去体会,你很难想象到boost的强大威力。在boost里还有很多使用的库,比如格式化输出,字符串拆解,类型转换等,这些库使用起来也比较方便,大家可以自行参考boost文档。在这些库中还有两个库需要自行编译,他们是Python和thread库,而且这些库的编译需要专门的工具Jam,所以我们在编译这些库的时候还要编译jam工具,而编译jam工具也不是一件快乐的事情,麻烦同样出现在如果你安装了多个编译器,如果读者有兴趣可以自己试一下。

不过BCB6并不支持全部boost库,从boost提供的编译器支持表可以看到[2],BCB6还是有相当多的库不支持的,支持最好的是gcc/g++的编译器,但也不是全部支持。希望borland下一个将要发布的C++编译器可以支持更多C++标准。

[1]其实还有其他类型的包,但在windows系统下,你最好下载zip包

24,855

社区成员

发帖
与我相关
我的任务
社区描述
C/C++ 工具平台和程序库
社区管理员
  • 工具平台和程序库社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧