boost 正则表达式^与\s+配合使用时出问题

zjs100901 2012-11-28 10:26:25
软件环境:VC2008, SP1, boost1.50.0
操作过程:我用 VC2008 建立了一个控制台工程,字符集为默认的 Unicode ,然后写了下面的代码,查找源字符串中有多少处可以匹配正则表达式。源字符串为:
a  b  c  
d e f

正则表达式为:
^\w\s+

正则表达式的意思是:首先找到字符串的开头(或每行的开头,通过 if( 1 ) 这里手工改代码控制),然后找到一个可以用来做 C 语言变量的字符(即大小写字母、数字、下划线),然后 1 或多个空白字符(包括空格、回车等)
期望结果:只匹配到 1 项。将 if( 1 ) 改为 if( 0 ) ,能匹配到 2 项。
故障现象:匹配到了 6 项。将 if( 1 ) 改为 if( 0 ) ,还是匹配到了 6 项。

另:将正则表达式改为^\w\s之后,我的代码就能匹配到我所期望的 1 项或 2 项了。就是^与\s+配合使用时出问题。

求高手指点,但不是指点怎么修改正则表达式,因为我这个正则表达式最终是要让用户输入的。我估计是 boost 里面哪些常量用错了。
注:我在 VC6, SP6, boost1.33.1 下试验,输出结果一样是错误的。当然 VC6 默认是 ANSI 字符集,所以代码要稍作修改。

#include <string>
using namespace std;
#include <boost/regex.hpp>

int main()
{
int flag = 0;
flag |= boost::regex_constants::perl;
flag |= boost::regex_constants::no_empty_expressions;

boost::regex_constants::match_flag_type mode = boost::regex_constants::match_default;
mode |= boost::regex_constants::match_perl;

if( 1 )
mode |= boost::regex_constants::match_single_line;
else
mode &= ~boost::regex_constants::match_single_line;

// 正则表达式为^\w\s+
wstring strRegex( L"^\\w\\s+" );
boost::wregex reg( strRegex, (boost::regex_constants::flag_type_)flag );
// 源字符串为a b c 回车d e f 结束
wstring strSur = L"a b c \nd e f ";

boost::wsmatch m;
wstring::const_iterator iter = strSur.begin();
wstring::const_iterator end = strSur.end();
while( boost::regex_search( iter, end, m, reg, mode ) )
{
wstring strFound = m[0].str();
wcout << "len: " << strFound.size() << " content: " << strFound << endl;

iter = m[0].second;
}
return 0;
}

输出的结果(我认为有错):
len: 3 content: a  
len: 3 content: b
len: 4 content: c

len: 3 content: d
len: 3 content: e
len: 3 content: f
请按任意键继续. . .


=============== When: 2012-11-28 Where: bbs.csdn.net Who: zjs100901 Which: 0006 ===============
==================== 以下为 CSDN 广告,与楼主发贴内容无关,如有瓜葛,纯属巧合 ====================

...全文
196 12 打赏 收藏 转发到动态 举报
写回复
用AI写文章
12 条回复
切换为时间正序
请发表友善的回复…
发表回复
ForestDB 2012-11-28
  • 打赏
  • 举报
回复
4L可能对哦。
newtee 2012-11-28
  • 打赏
  • 举报
回复
boost::regex_match 你用的search
BlackGhost 2012-11-28
  • 打赏
  • 举报
回复
匹配单词的话 用\b\w+\b 你可以用正则调试工具 调试看看, 很难一次写对的
zjs100901 2012-11-28
  • 打赏
  • 举报
回复
把问题再简化一下,用
^ab+
匹配
abbabbabb
abbabbabb
也有问题。这下跟换行没关系了吧?
BlackGhost 2012-11-28
  • 打赏
  • 举报
回复
\s 匹配任意空白 包括换行,
zjs100901 2012-11-28
  • 打赏
  • 举报
回复
结帖
赵4老师 2012-11-28
  • 打赏
  • 举报
回复
在string parse问题域中: “正则表达式”不是万能的; 而“有限状态自动机”是万能的。
BlackGhost 2012-11-28
  • 打赏
  • 举报
回复
引用 8 楼 zjs100901 的回复:
引用 7 楼 lethe555 的回复:regex_iterator 遍历用 regex_iterator 是可以的。 不知道为什么用regex_search不行,用 ^ab+ 匹配 abbabbabb 是错的,能匹配到3次。 但又不能说原因是因为 iter = m[0].second; 这句赋值,使得 ^ 又能匹配到新的字符串开头,因为用 ^ab 匹配又是对的……
^ab+ 匹配 abbabbabb 中的abb部分 ^(ab+)+ 才匹配 abbabbabb
zjs100901 2012-11-28
  • 打赏
  • 举报
回复
看来就是因为 iter = m[0].second; 这句赋值,使得 ^ 又能匹配到新的字符串开头。
zjs100901 2012-11-28
  • 打赏
  • 举报
回复
引用 7 楼 lethe555 的回复:
regex_iterator 遍历
用 regex_iterator 是可以的。 不知道为什么用regex_search不行,用 ^ab+ 匹配 abbabbabb 是错的,能匹配到3次。 但又不能说原因是因为 iter = m[0].second; 这句赋值,使得 ^ 又能匹配到新的字符串开头,因为用 ^ab 匹配又是对的,只能匹配到 1 次。后面那个 + 到底怎么回事?
BlackGhost 2012-11-28
  • 打赏
  • 举报
回复
regex_iterator 遍历
引用 6 楼 zjs100901 的回复:
引用 3 楼 lethe555 的回复:匹配单词的话 用\b\w+\b 你可以用正则调试工具 调试看看, 很难一次写对的我说了,正则表达式在最终情况下是由用户输入的,天知道用户最终用软件来干嘛。我上面的代码只是简化而已。不要叫我改正则表达式了。 引用 4 楼 zhuankeshumo 的回复:boost::regex_match 你用的search我期望的是能够……
zjs100901 2012-11-28
  • 打赏
  • 举报
回复
引用 3 楼 lethe555 的回复:
匹配单词的话 用\b\w+\b 你可以用正则调试工具 调试看看, 很难一次写对的
我说了,正则表达式在最终情况下是由用户输入的,天知道用户最终用软件来干嘛。我上面的代码只是简化而已。不要叫我改正则表达式了。
引用 4 楼 zhuankeshumo 的回复:
boost::regex_match 你用的search
我期望的是能够匹配到1项或2项。这个“匹配”一词用得不准,我要的就是搜索,要的就是有可能搜出多个结果来。

64,648

社区成员

发帖
与我相关
我的任务
社区描述
C++ 语言相关问题讨论,技术干货分享,前沿动态等
c++ 技术论坛(原bbs)
社区管理员
  • C++ 语言社区
  • encoderlee
  • paschen
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
  1. 请不要发布与C++技术无关的贴子
  2. 请不要发布与技术无关的招聘、广告的帖子
  3. 请尽可能的描述清楚你的问题,如果涉及到代码请尽可能的格式化一下

试试用AI创作助手写篇文章吧