正则表达式的重复捕获问题

idiszerg 2009-07-05 05:25:47
要对下面的字符串操作
a:127.0.0.1;b2:128.0.0.1;c1:129.0.0.1;d21:999.12.1.2.33.4

只是举了个例子,并不是IP因此后面的字符有可能有多个比如999.12.1.2.3

问题是怎么提取出如下形式
a
127
0
0
1
b2
128
0
0
1
后面依次类推

当然有种方法是先将字符串分开成
a:127.0.0.1
b2:128.0.0.1;
c1:129.0.0.1;
d21:999.12.1.2.33.4
然后再依次进行提取,有没有办法用一个正则表达式就搞定
这是我写的
([a-z].*?):((\d*)\.?)+;?

但是这能捕获到前面的字母,后面的数字提取不到
...全文
279 32 打赏 收藏 转发到动态 举报
写回复
用AI写文章
32 条回复
切换为时间正序
请发表友善的回复…
发表回复
十八道胡同 2009-07-05
  • 打赏
  • 举报
回复
Regex re = new Regex(@"([a-z0-9]+:((?<ww>\d+)[\.;]?)+)+");
string s = "a:127.0.0.1;b2:128.0.0.1;c1:129.0.0.1;d21:999.12.1.2.33.4";
Console.WriteLine(re.Match(s).Value);
Console.WriteLine( re.Match(s).Groups["ww"].Value);



ww里面一直是最后一个数字(这里是4),好像没有把以前的记录存下来。。
十八道胡同 2009-07-05
  • 打赏
  • 举报
回复
[Quote=引用 30 楼 idiszerg 的回复:]
(? <name>exp)

匹配exp,并捕获文本到名称为name的组里,也可以写成(?'name'exp)

这种也是可以的
[/Quote]

这句话是对的,我以明白了你的意思,正在找答案中
idiszerg 2009-07-05
  • 打赏
  • 举报
回复
(?<name>exp)

匹配exp,并捕获文本到名称为name的组里,也可以写成(?'name'exp)

这种也是可以的
idiszerg 2009-07-05
  • 打赏
  • 举报
回复
多谢2位了,我做了下试验觉得重复里面的捕获是不可以的

比如对于12345.2222.111123.12345
使用正则表达式捕获
(\d)+
结果只能找到5,2,3,5即重复部分的最后一个

结贴了,多谢
十八道胡同 2009-07-05
  • 打赏
  • 举报
回复
(?<name> )


将匹配的子字符串捕获到一个组名称或编号名称中。用于 name 的字符串不能包含任何标点符号,并且不能以数字开头。可以使用单引号替代尖括号,例如 (?'name')。
windinwing 2009-07-05
  • 打赏
  • 举报
回复
Regex r = new Regex(@"(\w+:)(.*?)(;|$)", RegexOptions.IgnoreCase);
Match m = r.Match("a:127.0.0.1;b2:128.0.0.1;c1:129.0.0.1;d21:999.12.1.2.33.4");
if (m.Success)
{
string prefix = m.Result("$1");
string[] ips= m.Result("$2").Split(".");
}

没做测试,理论上行,一个取前缀,一个取分组.

windinwing 2009-07-05
  • 打赏
  • 举报
回复
Regex r = new Regex(@"(?:\w+:).*?(;|$)", RegexOptions.IgnoreCase);
Match m = r.Match("a:127.0.0.1;b2:128.0.0.1;c1:129.0.0.1;d21:999.12.1.2.33.4");
if (m.Success)
{
string[] ips= m.Result("$1").Split(".");
}

这里就是数字分组了
idiszerg 2009-07-05
  • 打赏
  • 举报
回复
获得数据为:0#=127 1#=0 2#=0 3#=1

获得数据为:0#=128 1#=0 2#=0 3#=1

获得数据为:0#=129 1#=0 2#=0 3#=1

获得数据为:0#=999 1#=12 2#=1 3#=2 4#=33 5#=4

能不能用一句正则表达式实现
windinwing 2009-07-05
  • 打赏
  • 举报
回复
[(? <111>\d+)\.]+ 这个没错 但是像d21:xxxx这里可以匹配d21里的21.
idiszerg 2009-07-05
  • 打赏
  • 举报
回复
我的目的在14楼

原来写的分两步
1、提取出
127.0.0.1
128.0.0.1
999.1.2.3.4等
然后用split分开,获得所有数字

“按 :分组,在接.号分组? 可以用Result(string)方法,用$访问分组在分组. ”
没大看明白
十八道胡同 2009-07-05
  • 打赏
  • 举报
回复
你的意思是想.前面的数字放111里面?
windinwing 2009-07-05
  • 打赏
  • 举报
回复
[(?<111>\d+)\.]+ 这个没错
windinwing 2009-07-05
  • 打赏
  • 举报
回复
google... 我们都没弄明白你想表达什么.

a:127.0.0.1
按 :分组,在接.号分组? 可以用Result(string)方法,用$访问分组在分组.

idiszerg 2009-07-05
  • 打赏
  • 举报
回复
[(? <111>\d+)\.]+
这里面?<111>表示捕获\d+
\.表示“.”

我感觉应该没错啊,请问我应该怎么改下
windinwing 2009-07-05
  • 打赏
  • 举报
回复
([a-z0-9]+)+:([(?<111>\d+)\.]+)

为啥group “111”没有捕获出来。。。
[(?<111>\d+)\.] 你这个在[]分组里,表示为? ,1数字,\.字类的字符之一,然后重复N次当然没结果
idiszerg 2009-07-05
  • 打赏
  • 举报
回复
呵呵,多谢你了,忙活了一晚上

c#用的不熟,项目要求的没办法

另外如果google这个问题的话关键字应该是啥?

正则表达式 重复部分的捕获 或者在重复部分捕获?

都找不到相关的
十八道胡同 2009-07-05
  • 打赏
  • 举报
回复
呵呵,答来答去我还是没开清您的要求,见笑了。。
提一个小改进


ma.Groups[2].Value.Split(delimiter);



ma.Groups[2].Value.Split(new char[]{'.'});


作用是一样的,

idiszerg 2009-07-05
  • 打赏
  • 举报
回复
([a-z0-9]+)+:([(?<111>\d+)\.]+)

为啥group “111”没有捕获出来。。。
idiszerg 2009-07-05
  • 打赏
  • 举报
回复
            string s = "a:127.0.0.1;b2:128.0.0.1;c1:129.0.0.1;d21:999.12.1.2.33.4";

Regex re = new Regex(@"([a-z0-9]+)+:([\d+\.]+)", RegexOptions.None);

MatchCollection mc = re.Matches(s);
string delimStr = ".";
char[] delimiter = delimStr.ToCharArray();
string[] ret;
foreach (Match ma in mc)
{
ret = ma.Groups[2].Value.Split(delimiter);
Console.Write("获得数据为:");
for(int i=0;i<ret.Count();i++)
Console.Write(i+"#="+ret[i] +" ");
Console.WriteLine("\r\n");
}


结果:
获得数据为:0#=127 1#=0 2#=0 3#=1

获得数据为:0#=128 1#=0 2#=0 3#=1

获得数据为:0#=129 1#=0 2#=0 3#=1

获得数据为:0#=999 1#=12 2#=1 3#=2 4#=33 5#=4

我要的是这些数据
十八道胡同 2009-07-05
  • 打赏
  • 举报
回复
[Quote=引用 11 楼 idiszerg 的回复:]

我的问题是重复定义里面的捕获为什么只捕获了最后一个
([a-z].*?):((\d*)\.?)+;?
这里面的((\d*)\.?)+捕获部分(\d*)其实是捕获了最后一个数字的
比如127.0.0.1他只捕获到1的
[/Quote]
你看下面

 Regex re = new Regex(@"([a-z].*?):((\d*)\.?)+;?");


answer:a:127.0.0.1;
请按任意键继续. . .

 Regex re = new Regex(@"(([a-z].*?):((\d*)\.?)+;?)+");

answer:a:127.0.0.1;b2:128.0.0.1;c1:129.0.0.1;d21:999.12.1.2.33.4
请按任意键继续. . .


((\d*)\.?)+;?书捕获了所有的 数字. 的组
加载更多回复(12)
中文名: 正则表达式经典实例 原名: Regular Expression Cookbook 作者: (美)高瓦特斯(Goyvaerts,J.) (美)利维森(Levithan,S.)译者: 郭耀 资源格式: PDF 版本: 扫描版 出版社: 人民邮电出版社书号: 9787115228321发行时间: 2010年06月01日 地区: 大陆 语言: 简体中文 简介: 编辑推荐 每个程序员都会遇到需要使用正则表达式的情况,但是要用好正则表达式却并不容易。本书提供了100多个实例,以帮助读者使用正则表达式处理数据和文本。即使有经验的用户也经常会遇到性能不佳、误报、漏报等让人挠头的错误,本书对于如何使用正则表达式来解决一些常见的问题给出了按部就班的解决方案,其中包括c#、Java、JavaScript、Perl、PHP、Python、Ruby和VB.NET的实例。   本书主要包括以下内容:   通过一个精练的教程理解正则表达式的基本原理和技巧;   在不同的编程语言和脚本语言中有效使用正则表达式;   学习如何对输入进行合法性检查和格式化;   处理单词、文本行、特殊字符和数值;   学习如何在URL、路径、标记语言和数据交换中使用正则   表达式;   学习更高深的正则表达式特性中的微妙之处;   理解在不同语言中正则表达式的APl、语法和行为之间的   区别;   创建更好的正则表达式来满足个性化的需求。 内容简介 本书讲解了基于8种常用的编程语言使用正则表达式的经典实例。书中提供了上百种可以在实战中使用的实例,以帮助读者使用正则表达式来处理数据和文本。对于如何使用正则表达式来解决性能不佳、误报、漏报等常见的错误以及完成一些常见的任务,本书给出了涉及基于C#、Java、JavaScript、Perl、PHP、Python、Ruby和VB.NET等编程语言的解决方案。   本书的读者对象是对正则表达式感兴趣的软件开发人员和系统管理员。本书旨在教会读者很多新的技巧以及如何避免语言特定的陷阱,读者可以通过本书提供的实例解决方案库来解决实践中的复杂问题。 作者简介 Jan Goyvaerts领导着Just Great Software公司,他在这个公司设计和开发了一些最流行的正则表达式软件。他的产品中包括RegexBuddy,世界上唯一可以模拟l5种正则表达式流派特性的正则表达式编辑器,以及PowerGREP,Microsoft Windows平台上功能最强大的9rep工具。 目录: 第1章 正则表达式简介 1.1 正则表达式的定义 1.2 使用正则表达式的工具 第2章 正则表达式的基本技巧 2.1 匹配字面文本 2.2 匹配不可打印字符 2.3 匹配多个字符之一 2.4 匹配任意字符 2.5 匹配文本行起始和/或文本行结尾 2.6 匹配整个单词 2.7 Unicode代码点、属性、区块和脚本 2.8 匹配多个选择分支之一 2.9 分组和捕获匹配中的子串 2.10 再次匹配先前匹配的文本 2.11 捕获和命名匹配子串 2.12 把正则表达式的一部分重复多次 2.13 选择最小和最大重复次数 2.14 消除不必要的回溯 2.15 避免重复逃逸 2.16 检查一个匹配,但不添加到整体匹配中 2.17 根据条件匹配两者之一 2.18 向正则表达式中添加注释 2.19 在替代文本中添加字面文本 2.20 在替代文本中添加正则匹配 2.21 把部分的正则匹配添加到替代文本中 2.22 把匹配上下文插入到替代文本中 第3章 使用正则表达式编程 3.1 在源代码中使用字面正则表达式 3.2 导入正则表达式函数库 3.3 创建正则表达式对象 3.4 设置正则表达式选项 3.5 检查是否可以在目标字符串中找到匹配 3.6 检查正则表达式能否整个匹配目标字符串 3.7 获取匹配文本 3.8 决定匹配的位置和长度 3.9 获取匹配文本的一部分 3.10 获取所有匹配的列表 3.11 遍历所有匹配 3.12 在过程代码中对匹配结果进行验证 3.13 在另一个匹配中查找匹配 3.14 替换所有匹配 3.15 使用匹配的子串来替换匹配 3.16 使用代码中生成的替代文本来替换匹配 3.17 替换另一个正则式匹配中的所有匹配 3.18 替换另一个正则式匹配之间的所有匹配 3.19 拆分字符串 3.20 拆分字符串,保留正则匹配 3.21 逐行查找 第4章 合法性验证和格式化 4.1 E-mail地址的合法性验证 4.2 北美电话号码的合法性验证和格式化 4.3 国际电话号码的合法性验证 4.4 传统日期格式
中文名: 正则表达式经典实例 原名: Regular Expression Cookbook 作者: (美)高瓦特斯(Goyvaerts,J.) (美)利维森(Levithan,S.)译者: 郭耀 资源格式: PDF 版本: 扫描版 出版社: 人民邮电出版社书号: 9787115228321发行时间: 2010年06月01日 地区: 大陆 语言: 简体中文 简介: 编辑推荐 每个程序员都会遇到需要使用正则表达式的情况,但是要用好正则表达式却并不容易。本书提供了100多个实例,以帮助读者使用正则表达式处理数据和文本。即使有经验的用户也经常会遇到性能不佳、误报、漏报等让人挠头的错误,本书对于如何使用正则表达式来解决一些常见的问题给出了按部就班的解决方案,其中包括c#、Java、JavaScript、Perl、PHP、Python、Ruby和VB.NET的实例。   本书主要包括以下内容:   通过一个精练的教程理解正则表达式的基本原理和技巧;   在不同的编程语言和脚本语言中有效使用正则表达式;   学习如何对输入进行合法性检查和格式化;   处理单词、文本行、特殊字符和数值;   学习如何在URL、路径、标记语言和数据交换中使用正则   表达式;   学习更高深的正则表达式特性中的微妙之处;   理解在不同语言中正则表达式的APl、语法和行为之间的   区别;   创建更好的正则表达式来满足个性化的需求。 内容简介 本书讲解了基于8种常用的编程语言使用正则表达式的经典实例。书中提供了上百种可以在实战中使用的实例,以帮助读者使用正则表达式来处理数据和文本。对于如何使用正则表达式来解决性能不佳、误报、漏报等常见的错误以及完成一些常见的任务,本书给出了涉及基于C#、Java、JavaScript、Perl、PHP、Python、Ruby和VB.NET等编程语言的解决方案。   本书的读者对象是对正则表达式感兴趣的软件开发人员和系统管理员。本书旨在教会读者很多新的技巧以及如何避免语言特定的陷阱,读者可以通过本书提供的实例解决方案库来解决实践中的复杂问题。 作者简介 Jan Goyvaerts领导着Just Great Software公司,他在这个公司设计和开发了一些最流行的正则表达式软件。他的产品中包括RegexBuddy,世界上唯一可以模拟l5种正则表达式流派特性的正则表达式编辑器,以及PowerGREP,Microsoft Windows平台上功能最强大的9rep工具。 目录: 第1章 正则表达式简介 1.1 正则表达式的定义 1.2 使用正则表达式的工具 第2章 正则表达式的基本技巧 2.1 匹配字面文本 2.2 匹配不可打印字符 2.3 匹配多个字符之一 2.4 匹配任意字符 2.5 匹配文本行起始和/或文本行结尾 2.6 匹配整个单词 2.7 Unicode代码点、属性、区块和脚本 2.8 匹配多个选择分支之一 2.9 分组和捕获匹配中的子串 2.10 再次匹配先前匹配的文本 2.11 捕获和命名匹配子串 2.12 把正则表达式的一部分重复多次 2.13 选择最小和最大重复次数 2.14 消除不必要的回溯 2.15 避免重复逃逸 2.16 检查一个匹配,但不添加到整体匹配中 2.17 根据条件匹配两者之一 2.18 向正则表达式中添加注释 2.19 在替代文本中添加字面文本 2.20 在替代文本中添加正则匹配 2.21 把部分的正则匹配添加到替代文本中 2.22 把匹配上下文插入到替代文本中 第3章 使用正则表达式编程 3.1 在源代码中使用字面正则表达式 3.2 导入正则表达式函数库 3.3 创建正则表达式对象 3.4 设置正则表达式选项 3.5 检查是否可以在目标字符串中找到匹配 3.6 检查正则表达式能否整个匹配目标字符串 3.7 获取匹配文本 3.8 决定匹配的位置和长度 3.9 获取匹配文本的一部分 3.10 获取所有匹配的列表 3.11 遍历所有匹配 3.12 在过程代码中对匹配结果进行验证 3.13 在另一个匹配中查找匹配 3.14 替换所有匹配 3.15 使用匹配的子串来替换匹配 3.16 使用代码中生成的替代文本来替换匹配 3.17 替换另一个正则式匹配中的所有匹配 3.18 替换另一个正则式匹配之间的所有匹配 3.19 拆分字符串 3.20 拆分字符串,保留正则匹配 3.21 逐行查找 第4章 合法性验证和格式化 4.1 E-mail地址的合法性验证 4.2 北美电话号码的合法性验证和格式化 4.3 国际电话号码的合法性验证 4.4 传统日期格式的合法性验证 4.5 对传统日期格式进行精确的合法性验证 4.6 传统时间格式的合法性验证 4.7 检查ISO 8601格式的日期和时间 4.8 限制输入只能为字母数字字符 4.9 限制文本长度 4.10 限制文本中的行数 4.11 肯定响应的检查 4.12 社会安全号码的合法性验证 4.13 ISBN的合法性验证 4.14 ZIP代码的合法性验证 4.15 加拿大邮政编码的合法性验证 4.16 英国邮政编码的合法性验证 4.17 查找使用邮局信箱的地址 4.18 转换姓名格式 4.19 信用卡号码的合法性验证 4.20 欧盟增值税代码 第5章 单词、文本行和特殊字符 5.1 查找一个特定单词 5.2 查找多个单词之一 5.3 查找相似单词 5.4 查找除某个单词之外的任意单词 5.5 查找后面不跟着某个特定单词的任意单词 5.6 查找不跟在某个特定单词之后的任意单词 5.7 查找临近单词 5.8 查找重复单词 5.9 删除重复的文本行 5.10 匹配包含某个单词的整行内容 5.11 匹配不包含某个单词的整行 5.12 删除前导和拖尾的空格 5.13 把重复的空白替换为单个空格 5.14 对正则表达式元字符进行转义 第6章 数字 6.1 整数 6.2 十六进制数字 6.3 二进制数 6.4 删除前导 6.5 位于某个特定范围之内的整数 6.6 在某个特定范围之内的十六进制数 6.7 浮点数 6.8 含有千位分隔符的数 6.9 罗马数字 第7章 URL、路径和Internet地址 7.1 URL合法性验证 7.2 在全文中查找URL 7.3 在全文中查找加引号的URL 7.4 在全文中寻找加括号的URL 7.5 把URL转变为链接 7.6 URN合法性验证 7.7 通用URL的合法性验证 7.8 从URL中提取通信协议方案 7.9 从URL中抽取用户名 7.10 从URL中抽取主机名 7.11 从URL中抽取端口号 7.12 从URL中抽取路径 7.13 从URL中抽取查询 7.14 从URL中抽取片段 7.15 域名合法性验证 7.16 匹配IPv4地址 7.17 匹配IPv6地址 7.18 Windows路径的合法性验证 7.19 分解Windows路径 7.20 从Windows路径中抽取盘符 7.21 从UNC路径中抽取服务器和共享名 7.22 从Windows路径中抽取文件夹 7.23 从Windows路径中抽取文件名 7.24 从Windows路径中抽取文件扩展名 7.25 去除文件名中的非法字符 第8章 标记语言和数据交换 8.1 查找XML风格的标签 8.2 把标签b替换为strong 8.3 删掉除em和strong之外的所有XML风格标签 8.4 匹配XML名称 8.5 添加p和br标签将纯文本转换为HTML 8.6 在XML风格的标签中查找某个特定属性 8.7 向不包含cellspacing属性的 table标签中添加该属性 8.8 删除XML风格的注释 8.9 在XML风格的注释中查找单词 8.10 替换在CSV文件中使用的分隔符 8.11 抽取某个特定列中的CSV域 8.12 匹配INI段头 8.13 匹配INI段块 8.14 匹配INI名称-值对

110,534

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术 C#
社区管理员
  • C#
  • Web++
  • by_封爱
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧