社区
工具平台和程序库
帖子详情
C++中如何使用正则表达式
WeiCui
2005-12-13 02:50:19
我在使用C++中需用到正则表达式,请问各位有没有使用方法和例库?给出下载地址或cuiwei_mail@tom.com,万分感谢
...全文
11468
9
打赏
收藏
C++中如何使用正则表达式
我在使用C++中需用到正则表达式,请问各位有没有使用方法和例库?给出下载地址或cuiwei_mail@tom.com,万分感谢
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
9 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
碼上道
2005-12-26
打赏
举报
回复
mark
lisypro
2005-12-21
打赏
举报
回复
顶一下
WeiCui
2005-12-13
打赏
举报
回复
我想用在HP-UNIX下,哪位有分析正则表达式的代码?
wshcdr
2005-12-13
打赏
举报
回复
VC下用DOM吧
屋顶上的老猫
2005-12-13
打赏
举报
回复
http://msdn.microsoft.com/library/chs/default.asp?url=/library/CHS/vsintro7/html/vxgrfregularexpressionss.asp
屋顶上的老猫
2005-12-13
打赏
举报
回复
http://www.vckbase.com/document/viewdoc/?id=1449
正则表达式简介
有些新手对正则表达式不是很熟悉,有必要在此作一简单回顾。如果你是正则表达式高手,可以不用看这一部分。
正则表达式是描述字符串集的字符串。例如,正则表达式“Mic*”描述所有包含“Mic”,后跟零个或多个字符的字符串。Mickey、Microsoft、Michelangelo 或 Mic 本身都是例子。句号“.”匹配任何字符,“+”类似“*”,但至少要一个字符,所以“Mic+”匹配前述所有除“Mic”以外的串。[a-z]指一个匹配范围,所以[a-zA-Z_0-9]匹配字母、数字或下划线。Regex 称之为单词字符,可以将它写成“\w”。所以“\w+”匹配至少有一个字符的单词字符序列——换句话说,叫 C 符号(C tokens)。那么这样一来,几乎所有的C 符号都不能以数字开头,因此,下面这个正则表达式是正确的:“^[a-zA-Z_]\w*$”。专用字符“^”意思是“以...开始”(除非它位于某个范围之内,这时它的意思是“非”),“$”意思是“结尾”,那么“^[a-zA-Z_]\w*$”意思就是:以字母或下划线开始的字母、数字或下划线字符串。
正则表达式在对输入进行有效性验证时非常有用。\d 匹配数字,{n}匹配重复n次,于是 ^5\d{15}$ 匹配5开头的16位数字,也即是说 MasterCard 信用卡号码。那 ^[45]\d{15}$ 就是Visa 卡号,它以4开头。你可以用大括弧对表达式进行分组,下面是个测试。这个表达式描述的是什么呢?^\d{5}(-\d{4}){0,1}$
提示:{0,1} 意思是重复0次或1次(可以缩写成问号 ?)。想出来了吗?该表达式意思是:五个数字后重复0次或1次(破折号后跟四个数字)。它匹配 02142和98007-4235,但不匹配 3245 或 2345-98761。这也就是美国的邮政编码。大括弧将 ZIP+4 部分分组,所以{0,1}修饰符将应用于整个分组。
以上我仅浅尝即止地说明了正则表达式能做什么。我还没提到替换,由于我没有具体资料,所以不敢描述在 Unicode 中会怎么样。但你能感觉到正则表达式有多么强大。多年来它们乃 UNIX 的中流砥柱,并且在Web 编程和 Perl 这样的语言中更臻完善,其对 HTML 的操作几乎完全是对文本的处理。正则表达式在 Windows 中一直没有得到充分使用,直到 .NET 框架面世,它才正式成为 Windows 家族的一员。
框架 Regex 类
.NET 框架用 Regex 类实现正则表达式,并有三个支持类:Match、Group 和 Capture (参见 Figure A)。典型情况下,你创建 Regex 并用输入串调用 Regex::Match 来获得第一个 Match,或用 Regex::Matches 来获取所有匹配:
Regex *r = new Regex("\b\w+\b");
MatchCollection* mc =
r->Matches("abc ,_foo ,<& mumble7");
for (int i=0; iCount; i++) {
Match *m = mc->Index(i);
Console.WriteLine(m->Value);
}
这将显示“abc”,“foo”和“mumble7”,每个匹配在一行。这个例子引入了一个专门的字符 \b,所谓锚或原子零宽度断言,就像 ^(开始)和$(结尾)。\b 指定某个单词的边界,所以“\b\w+\b”意思是用单词分隔的一个或多个单词字符。
Figure ARegex 类
正则表达式中的每个括弧表达式都构成一个 Group。Regex::Groups 返回作为集合的 Groups,它决不会是空,因为整个正则表达式本身即是一组。Groups 很重要,因为它们使你进行逻辑 OR 匹配,如“(ying|yong)”,它们使你将限定符应用到子表达式,并让你吸取匹配的单独部分。正文的 Figure 1 中我的 RegexTest 程序运行后用邮编为例显示分组。
在所有函数中最强大的函数要数 Regex::Replace,它使得正则表达式的威力惊人地强大。和许多开发人员一样,过去在多次传递字符串到多行编辑控件之前,我常常不得不手工将 “\n” 转换为“\r\n”,但使用 Regex::Replace,这个操作简直易如反掌。
s = Regex::Replace(s,"\n","\r\n");
Regex::Match 和 Replace 具备静态重载,所以你可以不用创建对象,以快速使用正则表达式。我最喜欢的 Regex::Replace 重载之一是带有一个委托参数,使你能用过程代码动态计算替换文本——参见正文中那个有趣的例子。
一些警告:每一种正则表达式的实现是有不太一样的。例如,在 Perl 中,{,1}是{0,1}的速记版,而微软的老大们不是那样做的。要当心一些微小的差别。权威的 .NET Regex 资料请参考 MSDN 库中的 “Regular Expressions as a Language”。
WeiCui
2005-12-13
打赏
举报
回复
老大,你说的我大概知道,问题是我没有库,也下不了,可能网络有问题,哪位给发一下,自己写的也可以
bohemia
2005-12-13
打赏
举报
回复
http://sourceforge.net/project/showfiles.php?group_id=1714
http://sourceforge.net/上搜下,估计有更多的。
PMsg
2005-12-13
打赏
举报
回复
在C++Builder6上使用Boost正则表达式库
撰文:Aweay
正则表达式是一种模式匹配形式,它通常用在处理的文本程序中。比如我们经常使用的grep工具,还是perl语言都使用了正则表达式。传统的C++处理正则表达式是非常麻烦的,这也成为很多其他语言爱好者的笑柄,现在情况不一样了,因为有了boost。
Boost是一个基于Template的开发源代码库,在这个库中有很多子库用来高效处理各方面的问题,比如字符串拆分,格式化,线程等等,Boost对于每一个C++爱好者都是应该了解的,对于C++Builder用户如果能在熟练使用VCL的情况下再熟练使用Boost,我想一定如虎添翼。
一般来说,使用Boost是非常简单,和使用其他STL库没有太大区别,但使用Boost的正则表达式库则不那么容易,因为这个库还需要我们单独编译,下面我将详细介绍如何使用。
如果你还不知道或者还没有Boost的话,你可以去www.boost.org下载最新版本,作者使用的是1.30版本。将下载下来的zip包[1]解压到任何你喜欢的目录,比如D:\boost。
编译正则表达式库
前面已经提到,这个库需要我们单独编译才能使用,为什么不编译好一起发布呢?主要是考虑到不同的编译器需要不同的链接库文件和链接库太大了。在命令行下,进入[%Boost]\Libs\RegEx\Build目录,直接敲入make–fbcb6.mak命令开始编译,这里请大家注意了,如果你的计算机上同时安装了BCB5,请一定要把path设置成为BCB6的bcc32.exe程序所在的目录,否则可能使用BCB5的make程序,这样虽然能编译但最后不能使用。
编译过程相当耗时,你需要耐心等待,最终编译完成,会在[%Boost]\Libs\RegEx\Build目录生成一个BCB6目录,在这个目录生成了很多lib文件和dll文件,把所有dll文件复制到windows系统目录,所以lib文件复制到bcb6\lib目录。如果你不想这么麻烦的复制文件,可以在编译时加入install参数,就像这样make–fBcb6.makinstall,不过作者还是比较喜欢前一种方式,这样我可以知道到底生成了什么文件。现在编译已经完成了,你可以体现boost的神奇魅力了。
一个测试程序
在BCB6中创建console程序,编写下列代码:
#include<deque>
#include<iostream>
#include<algorithm>
#include<boost/regex.hpp>
intmain()
{
usingnamespaceboost;
usingnamespacestd;
regexexpression("\\s+href\\s*=\\s*\"([^\"]*)\"",regbase::normal|regbase::icase);
strings="<ahref=\"index.html\"><imgsrc=\"logo.gif\"></a>";
deque<string>result;
regex_split(std::back_inserter(result),s,expression);
copy(result.begin(),result.end(),ostream_iterator<string>(cout,"\n"));
intc;
cin>>c;
return0;
}
设置BCB6Project属性的LibPath和IncludePath为你安装boost的目录,运行你会看到结果:
index.html
可以看到index.html已经从字符串中提出出来了,那么为什么会是这样呢?
代码的核心部分是:
regexexpression("\\s+href\\s*=\\s*\"([^\"]*)\"",regbase::normal|regbase::icase);
它用来设置如何匹配字符串,上面乱七八糟的字符串很难看懂,如果不了解正则表达式的书写规则,上面代码可以和天书媲美。
regbase::normal|regbase::icase是解析参数设置,具体可以参考boost帮助文档。
正则表达式的书写规则
具体的书写规则,大家可以参看boost的文档,我这里做一下简要说明:
.(dot)
用来匹配任何一个字符,但不包括新行上的字符
*
闭包,任意有限次的自重复连接
+
有限次自重复连接,但至少出现一次
{}
指定可能的重复次数
例如:
ba*匹配bbabaabaaa等
ba+匹配babaabaaaaaaaaa等
ba{1,5}匹配babaabaaabaaaabaaaaa
\
转义字符,有很多用途,根据参数设置而变化,最常见的就是类似于c语言\的用法
\s
匹配空格
\w
匹配一个单词
\d
匹配数字
()
有两种用法:
1是合并的作用,例如(ab)*匹配abababababab等
2是确定匹配,也就是说在()中的字符将被最终拆解出来
根据上面这张表,我们可以很容易知道前面的那段天书如何解释。
一个实际的例子
前一段时间在CSDN上有一篇帖子,问题是有一种文件结构如(类似):
@People{
Age=19
Speek=”Hay,{name},howareyou”
}
问如何拆分字符串得到@后面的名字,=两边的属性名和属性值,引号里{}种的名字。
解决这个问题用正则表达式再合适不过了。
根据分析,我们可以这样构造匹配规则:
"@(.*?)\s*\\{"匹配@开始的字符创,后面两种类型如何构造匹配规则留给大家思考吧。
这样我们可以轻易拆解这个例子。
性能分析
通过上面的讨论,大家已经了解到boost的强大威力,那个性能又如何呢?为此我们再实际来拆分一个复杂的html代码,看看到底需要花费多少时间。
为了节省篇幅,这里就不列出html代码了,不过可以告诉大家,这是一个又Word生成的大小为186K的html文件,这个文件中用到了很多<table>标签,所以我这里测试就来拆分所有<table>标签的width属性。测试代码如下:
#include<deque>
#include<iostream>
#include<algorithm>
#include<boost/regex.hpp>
#include<vcl.h>
intmain()
{
usingnamespaceboost;
usingnamespacestd;
TStringList*html=newTStringList();
html->LoadFromFile("D:\\1.htm");
regexexpression("\\s+width=([^\"]*)\s+",regbase::normal|regbase::icase);
DWORDstart=GetTickCount();
for(intn=0;n<html->Count;n++)
{
strings=html->Strings[n].c_str();
deque<string>result;
regex_split(std::back_inserter(result),s,expression);
copy(result.begin(),result.end(),ostream_iterator<string>(cout,"\n"));
result.clear();
}
start=GetTickCount()-start;
deletehtml;
cout<<start;
intc;
cin>>c;
return0;
}
输出结果为671毫秒,拆分得到1072个width属性值,我们可以看到boost的效率是非常高的,虽然与一些角本语言比起来解析速度还是慢,但已经可以满足大多数编程要求了。另外作者的计算机配置并不是非常高,相信拿到现在任何一台主流配置的计算机上都会优于作者的结果。
结束语
其实上面的强大威力只是boost的冰山一角,如果你不自己去体会,你很难想象到boost的强大威力。在boost里还有很多使用的库,比如格式化输出,字符串拆解,类型转换等,这些库使用起来也比较方便,大家可以自行参考boost文档。在这些库中还有两个库需要自行编译,他们是Python和thread库,而且这些库的编译需要专门的工具Jam,所以我们在编译这些库的时候还要编译jam工具,而编译jam工具也不是一件快乐的事情,麻烦同样出现在如果你安装了多个编译器,如果读者有兴趣可以自己试一下。
不过BCB6并不支持全部boost库,从boost提供的编译器支持表可以看到[2],BCB6还是有相当多的库不支持的,支持最好的是gcc/g++的编译器,但也不是全部支持。希望borland下一个将要发布的C++编译器可以支持更多C++标准。
[1]其实还有其他类型的包,但在windows系统下,你最好下载zip包
c++
写的
正则表达式
验证工具
使用
vs2008写的一个
正则表达式
验证工具,附带源码,供
使用
c++
写
正则表达式
参考
使用
,
使用
boost_1_54 regex库。
C++
BOOST
正则表达式
使用
教程
C++
BOOST
正则表达式
使用
教程 兼容 PERL
正则表达式
C++
正则表达式
使用
手册 源代码
在
C++
中
使用
正则表达式
,功能非常强大,有
使用
手册,既简单又
使用
,处理字符串事半功倍,在java
中
已经有库函数了
c++
正则表达式
用法及示例
c++
的
正则表达式
的用法及示例
c++
的
正则表达式
的用法及示例
c++
的
正则表达式
的用法及示例
c++
的
正则表达式
的用法及示例
C++
正则表达式
帮助文档
C++
,
正则表达式
,帮助文档
C++
,
正则表达式
,帮助文档
C++
,
正则表达式
,帮助文档
C++
,
正则表达式
,帮助文档
C++
,
正则表达式
,帮助文档
C++
,
正则表达式
,帮助文档
C++
,
正则表达式
,帮助文档
C++
,
正则表达式
,...
工具平台和程序库
24,855
社区成员
27,343
社区内容
发帖
与我相关
我的任务
工具平台和程序库
C/C++ 工具平台和程序库
复制链接
扫一扫
分享
社区描述
C/C++ 工具平台和程序库
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章