正则表达式获取数字规则

wuyanteng1 2009-02-09 10:34:00

是这样的我想得到一个网站的数据
比如他站有 111.html 333.html 而有的是 www.xxx.com/111.html www.xxx.com/222.html\
我要的是他没www的站的数据也就是111.html 333.html 要这样的数据，
正则表达式不知道要怎么写？高手教下！

...全文

152 5 打赏收藏转发到动态举报

写回复

用AI写文章

5 条回复

切换为时间正序

请发表友善的回复…

发表回复

-过客- 2009-02-10

打赏
举报

汗，这几天CSDN抽风，贴出来的正则都有问题，用下面的正则替换上面的正则部分

@"<a[^>]*href=(['""]?)(?<url>[^/.""'\s>]+\.html)\1[^>]*>(?<text>[\s\S]*?)</a>"

-过客- 2009-02-10

打赏
举报

那<li> <a href="" title=""> </a> </li> 这个怎么算？

这样？

MatchCollection mc = Regex.Matches(yourStr, @"<a[^>]*href=(['""]?)(?<url>[^/.""'\s>]+\.html)\1[^>]*>(?<text>[\s\S]*?)</a>", RegexOptions.IgnoreCase);

foreach (Match m in mc)

{

    richTextBox2.Text += m.Groups["url"].Value + "\n";

    richTextBox2.Text += m.Groups["text"].Value + "\n";

}

wackyboy 2009-02-10

打赏
举报



(?<!/)\d+\.html

wuyanteng1 2009-02-09

打赏
举报

可能说的够不清楚
我举个例

<li><a href="1275922.html" title="第6章最弱小的支脉">第6章最弱小的支脉</a></li>
<li><a href="1276305.html" title="第七章家族危机">第七章家族危机</a></li>
<li><a href="1276344.html" title="第八章宗祠洗礼的奥秘！">第八章宗祠洗礼的奥秘！</a></li>
<li><a href="1279373.html" title="第九章八十年">第九章八十年</a></li>

<li><a href="1279419.html" title="第十章化龙池">第十章化龙池</a></li>
<li><a href="1279884.html" title="第十一章天赋神通">第十一章天赋神通</a></li>
<li><a href="1279899.html" title="第十二章 ‘龙吟’的威力">第十二章 ‘龙吟’的威力</a></li>
<li><a href="" title=""></a></li>

<li><a href="http://www.xiaoshuom.com/22222.html" title="小说迷防采集">请到小说迷来看后面最新章节,网址:http://www.xiaoshuom.com小说迷防采集</a></li>

上面的代码我要获取
<li><a href="1275922.html" title="第6章最弱小的支脉">第6章最弱小的支脉</a></li>
<li><a href="1276305.html" title="第七章家族危机">第七章家族危机</a></li>
<li><a href="1276344.html" title="第八章宗祠洗礼的奥秘！">第八章宗祠洗礼的奥秘！</a></li>
<li><a href="1279373.html" title="第九章八十年">第九章八十年</a></li>

<li><a href="1279419.html" title="第十章化龙池">第十章化龙池</a></li>
<li><a href="1279884.html" title="第十一章天赋神通">第十一章天赋神通</a></li>
<li><a href="1279899.html" title="第十二章 ‘龙吟’的威力">第十二章 ‘龙吟’的威力</a></li>
<li><a href="" title=""></a></li>

而
<li><a href="http://www.xiaoshuom.com/22222.html" title="小说迷防采集">请到小说迷来看后面最新章节,网址:http://www.xiaoshuom.com小说迷防采集</a></li>
要过滤
其实也就是要获取没带地址的数据，也就是数字开头的HTML那些像这个1279899.html
而www.xiaoshuom.com/22222.html的带了地址WWW的那些不要

-过客- 2009-02-09