c#中正则表达式的匹配问题

Anew_G 2012-03-03 02:22:15

我想匹配<div id="XXX">和 YYY</a> 之间的内容

XXX可以是不定长的数字比如2343或45945等等 YYY是几个中文

我的正则表达式是这样的 (?<=<div\u0020id=\u0022\d+\u0022)[^YYY]+") 这个表达式刚好可以匹配出<div id="XXX">和YYY之间的内容。

我更改了下，变成这样 (?<=<div\u0020id=\u0022\d+\u0022)[^YYY</a>]+") 为什么就不行了呢？

\u0020 \u0022是空格和双引号

...全文

860 21 打赏收藏转发到动态举报

写回复

用AI写文章

21 条回复

切换为时间正序

请发表友善的回复…

发表回复

Anew_G 2012-03-03

打赏
举报

[Quote=引用 13 楼 sxldfang 的回复:]

这样试试：

Regex.Matchs(html,@"(?is)(?<=<div\s+id=""\d+"">).*?(?=程序员</a></div>)));
[/Quote]

你的也可以感谢多了几个括号呵呵

Anew_G 2012-03-03

打赏
举报

[Quote=引用 18 楼 lxcnn 的回复:]

引用 17 楼 anew_g 的回复:
我的意思就是想定位到以“XXXXX”和“YYYYY”之间的字符串内容，XXXXX和YYYYY是我自己定的。

(?is)(?<=XXXXX)(?:(?!YYYYY).)*(?=YYYYY)
[/Quote]

搞定！

-过客- 2012-03-03

打赏
举报

[Quote=引用 17 楼 anew_g 的回复:]
我的意思就是想定位到以“XXXXX”和“YYYYY”之间的字符串内容，XXXXX和YYYYY是我自己定的。[/Quote]

(?is)(?<=XXXXX)(?:(?!YYYYY).)*(?=YYYYY)

Anew_G 2012-03-03

打赏
举报

[Quote=引用 15 楼 lxcnn 的回复:]

这个是你要的结果吗？
C# code
string test = "<div id=\"232314\">dfdsfa<a href=\"a.html\">程序员</a></div>";
Regex reg = new Regex(@"(?is)(?<=<div\s*id=""232314"">(?:(?!</div).)*)<a[^>]*>.*?</a>");
Match m = reg.……
[/Quote]

我的意思就是想定位到以“XXXXX”和“YYYYY”之间的字符串内容，XXXXX和YYYYY是我自己定的。

基拉 2012-03-03

打赏
举报

[Quote=引用 1 楼 yysyangyangyangshan 的回复:]
用正则表达式截取指定字符之间的内容，参考最后一段

或参考网页抓取
[/Quote]

顶上。楼主解决问题了吗？！

-过客- 2012-03-03

打赏
举报

这个是你要的结果吗？

string test = "<div id=\"232314\">dfdsfa<a href=\"a.html\">程序员</a></div>";

Regex reg = new Regex(@"(?is)(?<=<div\s*id=""232314"">(?:(?!</div).)*)<a[^>]*>.*?</a>");

Match m = reg.Match(test);

if (m.Success)

{

    richTextBox2.Text = m.Value;

}

/*-----输出-----

<a href="a.html">程序员</a>

*/

Anew_G 2012-03-03

打赏
举报

[Quote=引用 12 楼 lxcnn 的回复:]

刚看到10楼的例子，用下面的正则提取其中的链接

C# code
(?is)(?<=<div\s*id="232314">(?:(?!</div).)*)<a[^>]*>.*?</a>
[/Quote]

嗯以前我都理解错了谢谢讲解

另外，你给的例子里(?<=<div\s*id="232314">(?:(?!</div).)*)<a[^>]*>.*?</a>是不是打错了，匹配失败

要排除字符串，需要用到环视(?!</a>) 比如10L的例子我要排除"程序员</a>"这个字符串
环视(?!</a>)里面的内容要怎么打？

sxldfang 2012-03-03

打赏
举报

这样试试：

Regex.Matchs(html,@"(?is)(?<=<div\s+id=""\d+"">).*?(?=程序员</a></div>)));

-过客- 2012-03-03

打赏
举报

刚看到10楼的例子，用下面的正则提取其中的链接

(?is)(?<=<div\s*id="232314">(?:(?!</div).)*)<a[^>]*>.*?</a>

-过客- 2012-03-03

打赏
举报

楼主首先要认识你一个错误，[^YYY]和[^YYY</a>]这种写法是不对的，[]字符组，能够匹配所包含的一系列字符中的任意一个。需要注意的是，[]虽然能匹配其中的任意一个字符，但匹配的结果只能是一个字符，不是多个。

同样的[^]排除型字符组，它所排除的也只是一些无序的字符，而不能排除一个有序字符序列，也就是字符串
要排除字符串，需要用到环视(?!</a>)

另外，要解决问题，你需要给出要匹配的字符串的具体的例子

参考
[ ] 字符组(Character Classes)

Anew_G 2012-03-03

打赏
举报

比如说这样一个例子：
<div id="232314">dfdsfa<a href="a.html">程序员</a></div>

我用 (?<=<div\u0020id=\u0022\d+\u0022)[^程序员]+") 就能把dfdsfa<a href="a.html">给匹配出来。

我现在是怕出现这种情况：

<div id="232314">dfd程序员<a href="a.html">程序员</a></div>

我刚刚的正则表达式就匹配到第一个程序员就停止了，我需要的<a href="a.html">没有匹配出来，所以我改成 (?<=<div\u0020id=\u0022\d+\u0022)[^程序员</a>]+") 希望能精确匹配到第二个程序员。但是什么都没匹配到

[^ABC]+ 我觉得应该就是一旦发现字符串ABC就在那里停止，否则不停止。不知道我是不是理解错了

yhmni 2012-03-03

打赏
举报

写个具体的例子

Anew_G 2012-03-03

打赏
举报

我想匹配<div id="XXX">和 YYY</a> 之间的内容。

(?<=<div\u0020id=\u0022\d+\u0022)[^YYY</a>]+")

我把</a>去掉

变成(?<=<div\u0020id=\u0022\d+\u0022)[^YYY]+")

就成功了匹配出了<div id="XXX">和 YYY 之间的内容

为什么加了个</a>就匹配不出来了呢？

Anew_G 2012-03-03

打赏
举报

目前为止没1个是匹配成功的。。。。

Anew_G 2012-03-03

打赏
举报

[Quote=引用 1 楼 yysyangyangyangshan 的回复:]

用正则表达式截取指定字符之间的内容，参考最后一段

或参考网页抓取
[/Quote]

谢了！收了以后继续学习这次比较急用，先放着

yangzhi070 2012-03-03

打赏
举报

按楼主的意思，建议这么写：

(?:<div\s+id="\d+"\s*>)(?<match>.*)(?:YYY</a>)

匹配结果取名为match的匹配项

这个能严格限制 "<div id="XXX">匹配内容YYY</a>" 中要抓取内容两端的字符串

porschev 2012-03-03

打赏
举报





Regex re = new Regex("(?<=<div\\s*id=\"\\d+\">)[^YYY]+(?=YYY)", RegexOptions.None);

huangwenquan123 2012-03-03

打赏
举报

            string str = @"<div id=""123456"">和 YYY</a>";

            Regex reg = new Regex(@"(?is)(?<=<div\s*id=""\d+"">).*?(?=YYY</a>)");

            Console.WriteLine(reg.Match(str).Value);

huangwenquan123 2012-03-03

打赏
举报

            string str = @"<div id=""123456"">和 YYY</a>";

            Regex reg = new Regex(@"(?is)(?<=<div\s*id=""\d+"">)(?:(?!YYY</a>).)*");

            Console.WriteLine(reg.Match(str).Value);