求教一个数据采集的正则问题？类似([^<]*)

jasonpower 2010-03-14 11:39:09

最近在做一个数据采集的东西，其他都没问题。在正则匹配时遇到麻烦了.

情况大致是这样，A：strIn = "<a href="">我要获得的字符串</a>"， Match Match1 = Regex.Match(strIn, ">([^<]*)</a>", RegexOptions.IgnoreCase | RegexOptions.Multiline); //strIn 是待匹配字符串. 这样是没问题的，我可以获得我想要的结果。

但是遇到 B：strIn =
@"<li class="ttttt"><em>名称：</em>
<div class="tt"><span>我想要的名称</span>"这样的情况时，我想用Match Match2 = Regex.Match(strArr[i], "<em>名称：([^<]*)</span>", RegexOptions.IgnoreCase | RegexOptions.Multiline); 获得“：</em><div class="tt"><span>我想要的名称”（然后再replace多余部分），就无法匹配成功了。

问题应该是出在“([^<]*)” 这里。这段正则我也是很早以前用过，这次做新项目就照搬过来。其实也不是很理解，按我目前所知的：^是文本开头；^<应该是是以左尖括号开始；[]不确定该怎么理解？；*代表可以匹配0或者n次（如果是0次，貌似这段正则也就没什么意义了。但是不写也不对，因为不写的话A也匹配不出来）。

求教一下这段正则该怎么写，最好能有注释。觉得分不够可以再加，谢谢！！

...全文

96 8 打赏收藏转发到动态举报

写回复

用AI写文章

8 条回复

切换为时间正序

请发表友善的回复…

发表回复

小_虎 2010-03-14

打赏
举报

-过客- 2010-03-14

打赏
举报

入门其实还是很容易的，只不过正则比较抽象，需要经常练习，加深理解，否则忘记比入门更容易

小_虎 2010-03-14

打赏
举报

To楼上过客大哥。。

多久能入门？

我怎么看了又忘了。。

-过客- 2010-03-14

打赏
举报

try...

string strIn = @"<li class=""ttttt""><em>名称：</em>

<div class=""tt""><span>我想要的名称</span>";

Regex reg = new Regex(@"(?isn)<em>名称：((?!</?span\b).)*<span>(?<name>((?!</?span\b).)*)</span>");

Match m = reg.Match(strIn);

if (m.Success)

{

    richTextBox2.Text = m.Groups["name"].Value;

}

至于正则的解释，不是三两句话能说清楚的，有兴趣的话可以看下我的博客

-过客- 2010-03-14

打赏
举报

至于(?isn)的含义，参考

.NET正则基础之——.NET正则匹配模式

-过客- 2010-03-14

打赏
举报

正则不是为这个目的而存在的

正则因抽象所以可以处理很多情况，但所处理的情况永远都只能算是个例，而不会是所有情况

楼主的需求，虽然可以在一定程度上实现，但总会有不满足的时候的

string strIn = @"<li class=""ttttt""><em>名称：</em>

<div class=""tt""><span>我想要的名称</span>";

string start = Regex.Escape("<em>名称：");

string end = Regex.Escape("</span>");

Regex reg = new Regex(@"(?isn)(?<=" + start + @")((?!" + end + ").)*(?=" + end + ")");

Regex regTag = new Regex(@"<[^>]*>");

Match m = reg.Match(strIn);

if (m.Success)

{

    richTextBox2.Text = regTag.Replace(m.Value, "").Trim();

}

这里的冗余代码，只能是完全已知的，或是html标签，其它情况处理不了

xupeihuagudulei 2010-03-14

打赏
举报

那些意思当时看的时候是知道的
不过过段时间不看又给忘了
哎

jasonpower 2010-03-14

打赏
举报

To lxcnn (过客)：

您的正则表达式是OK的，而且可以一次把需要的内容匹配出来。不过通用性不理想。

其实我只是想要一个通用一点的正则，可以把符合“头”“尾”定义的字符串摘取出来，（有其他冗余代码的，再replace掉，或者做第二次正则匹配），并不需要一步到位。“((?!</?span\b).)*<span>(?<name>((?!</?span\b).)*)”这个正则很正确没错，但是遇到其他情况我不知道该如何调整

另外问一下，“(?isn)”起什么作用呢？

目前，业界有一种错误的较为普遍的意识，即“深度学习最终可能会淘汰掉其他所有机器学习算法”。这种意识的产生主要是因为，当下深度学习在计算机视觉、自然语言处理领域的应用远超过传统的机器学习方法，并且媒体对深度学习进行了大肆夸大的报道。深度学习，作为目前最热的机器学习方法，但并不意味着是机器学习的终点。起码目前存在以下问题：1.深度学习模型需要大量的训练数据，才能展现出神奇的效果，但现实生活中往往会遇到小样本问题，此时深度学习方法无法入手，传统的机器学习方法就可以处理；

使用webmagic采集博客类的网站示例

上下滑动效果文本显示，如何分割文件程序在2.1模拟器能运行，但用真机测试不能运行，求解！~ 请教给TextView设置margin的问题. 請教Android遠程登錄后保存cookie的原理紧急求救~在android上配置lucene整合庖丁解牛的具体步骤问一个关于broadcastreceiver的问题关于WebView的复制粘贴的问题跪求高手赐...

今日偶然翻到，感慨万千 1：申述：版主，是否扣了我的专家分？ 2：100分急求，随机输出十个小写字母，但是，要求这十个字母不相同 3：求Sn=a+aa+aaa+…+aaa…a（n个a）之值 4：数组题望高手帮忙！ 5：呵呵，来推荐一下我的网站，本站提供大量当今流行的免费的音乐和免费电影，常用软件、游戏、精美图库下载,希望对网友有帮助!顺便散分! 6：VBA请教怎

1这么一个范围，这是没有问题的，那么嗯如果我有一个比较大的k，比如说k我取五，那也就是说这个比值呢在0。2的时候。其实我就认为它的值已经达到一了，再大它也它也还就是一了对吗，也就是说这个比值我就只看0~0点二之间，这么一比值，而这个比值会告诉我哦，呃它的阴影会从零变到一，那如果我k我取100。那我基本上来说就是就这个这个比值，在0。