正则表达式获取数字规则

wuyanteng1 2009-02-09 10:34:00
是这样的我想得到一个网站的数据
比如他站有 111.html 333.html 而有的是 www.xxx.com/111.html www.xxx.com/222.html\
我要的是他没www的站的数据 也就是111.html 333.html 要这样的数据,
正则表达式不知道要怎么写?高手教下!
...全文
151 5 打赏 收藏 转发到动态 举报
写回复
用AI写文章
5 条回复
切换为时间正序
请发表友善的回复…
发表回复
-过客- 2009-02-10
  • 打赏
  • 举报
回复
汗,这几天CSDN抽风,贴出来的正则都有问题,用下面的正则替换上面的正则部分


@"<a[^>]*href=(['""]?)(?<url>[^/.""'\s>]+\.html)\1[^>]*>(?<text>[\s\S]*?)</a>"
-过客- 2009-02-10
  • 打赏
  • 举报
回复
那<li> <a href="" title=""> </a> </li> 这个怎么算?

这样?

MatchCollection mc = Regex.Matches(yourStr, @"<a[^>]*href=(['""]?)(?<url>[^/.""'\s>]+\.html)\1[^>]*>(?<text>[\s\S]*?)</a>", RegexOptions.IgnoreCase);
foreach (Match m in mc)
{
richTextBox2.Text += m.Groups["url"].Value + "\n";
richTextBox2.Text += m.Groups["text"].Value + "\n";
}
wackyboy 2009-02-10
  • 打赏
  • 举报
回复

(?<!/)\d+\.html
wuyanteng1 2009-02-09
  • 打赏
  • 举报
回复
可能说的够不清楚
我举个例

<li><a href="1275922.html" title="第6章 最弱小的支脉">第6章 最弱小的支脉</a></li>
<li><a href="1276305.html" title="第七章 家族危机">第七章 家族危机</a></li>
<li><a href="1276344.html" title="第八章 宗祠洗礼的奥秘!">第八章 宗祠洗礼的奥秘!</a></li>
<li><a href="1279373.html" title="第九章 八十年">第九章 八十年</a></li>


<li><a href="1279419.html" title="第十章 化龙池">第十章 化龙池</a></li>
<li><a href="1279884.html" title="第十一章 天赋神通">第十一章 天赋神通</a></li>
<li><a href="1279899.html" title="第十二章 ‘龙吟’的威力">第十二章 ‘龙吟’的威力</a></li>
<li><a href="" title=""></a></li>


<li><a href="http://www.xiaoshuom.com/22222.html" title="小说迷防采集">请到小说迷来看后面最新章节,网址:http://www.xiaoshuom.com小说迷防采集</a></li>

上面的代码我要获取
<li><a href="1275922.html" title="第6章 最弱小的支脉">第6章 最弱小的支脉</a></li>
<li><a href="1276305.html" title="第七章 家族危机">第七章 家族危机</a></li>
<li><a href="1276344.html" title="第八章 宗祠洗礼的奥秘!">第八章 宗祠洗礼的奥秘!</a></li>
<li><a href="1279373.html" title="第九章 八十年">第九章 八十年</a></li>


<li><a href="1279419.html" title="第十章 化龙池">第十章 化龙池</a></li>
<li><a href="1279884.html" title="第十一章 天赋神通">第十一章 天赋神通</a></li>
<li><a href="1279899.html" title="第十二章 ‘龙吟’的威力">第十二章 ‘龙吟’的威力</a></li>
<li><a href="" title=""></a></li>


<li><a href="http://www.xiaoshuom.com/22222.html" title="小说迷防采集">请到小说迷来看后面最新章节,网址:http://www.xiaoshuom.com小说迷防采集</a></li>
要过滤
其实也就是要获取没带地址的数据,也就是数字开头的HTML那些 像这个1279899.html
而www.xiaoshuom.com/22222.html的带了地址WWW的那些不要
-过客- 2009-02-09
  • 打赏
  • 举报
回复
需求那是相当的不明确,从哪取,说不明白就给个源字符串的例子看看

[^/.]+\.html

1,978

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术 其他语言讨论
社区管理员
  • 其他语言社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧