正则提取链接

暖光 2011-07-19 11:31:23
<a onMouseDown="return inpmv(1340);"
href="/p-4074.html" target="docin_p_end">

<a target="docin_p_end" href="/p-41751927.html" title="影响中国孩子的名人故事(三)" onMouseDown="return inpmv(1293);">


<a target="docin_p_end" href="/p-19312068.html" title="世界杯走过的路" onMouseDown="return inpmv(1293);">
怎样将网页中的上面的类似的代码中的 href="/p-4074.html"
href="/p-41751927.html"
用正则提取后是 http://www.docin.com/p-4074.html
http://www.docin.com/p-685275.html 这种形式的?
...全文
130 7 打赏 收藏 转发到动态 举报
写回复
用AI写文章
7 条回复
切换为时间正序
请发表友善的回复…
发表回复
  • 打赏
  • 举报
回复
正则是个好东西,抓取网页常用
有兴趣的朋友可以加入net开源交流群,共同探讨学习69594961
q107770540 2011-07-19
  • 打赏
  • 举报
回复

void Main()
{
string html=@"<a onMouseDown=""return inpmv(1340);""
href=""/p-4074.html"" target=""docin_p_end"">

<a target=""docin_p_end"" href=""/p-41751927.html"" title=""影响中国孩子的名人故事(三)"" onMouseDown=""return inpmv(1293);"">


<a target=""docin_p_end"" href=""/p-19312068.html"" title=""世界杯走过的路"" onMouseDown=""return inpmv(1293);"">";
foreach(Match m in Regex.Matches(html,@"(?i)<a[^>]*?href=(['""\s]?)(?<href>[^'""\s]+)\1[^>]*?>"))
{
Console.WriteLine("http://www.docin.com"+m.Groups["href"].Value);
}

/*
http://www.docin.com/p-4074.html
http://www.docin.com/p-41751927.html
http://www.docin.com/p-19312068.html
*/
}
aXen 2011-07-19
  • 打赏
  • 举报
回复
(?is)(?<=<a.*href=").*?(?=")

自己加上"http://www.docin.com"
q107770540 2011-07-19
  • 打赏
  • 举报
回复
[Quote=引用 3 楼 nuanguang1990 的回复:]

一楼的匹配的范围还是有些广啊,把网页中其他的一些也匹配进来了,我现在只要“p-41751927”这种形式的,即
http://www.docin.com/p-4074.html
只要http://www.docin.com/p-然后加4个或8个数字,然后 .html 这种形式的。该怎样配?
[/Quote]
那就修改一下此句:
foreach(Match m in Regex.Matches(html,@"(?i)<a[^>]*?href=(['""\s]?)(?<href>/p-\d{4,8}\.html)\1[^>]*?>"))
huangwenquan123 2011-07-19
  • 打赏
  • 举报
回复
            string str = @"<a onMouseDown=""return inpmv(1340);"" href=""/p-4074.html"" target=""docin_p_end"">
<a target=""docin_p_end"" href=""/p-41751927.html"" title=""影响中国孩子的名人故事(三)"" onMouseDown=""return inpmv(1293);"">
<a target=""docin_p_end"" href=""/p-41755.html"" title=""影响中国孩子的名人故事(三)"" onMouseDown=""return inpmv(1293);"">
<a target=""docin_p_end"" href=""/p-19312068.html"" title=""世界杯走过的路"" onMouseDown=""return inpmv(1293);"">";
Regex reg = new Regex(@"(?is)<a[^>]*?href=(['""]?)(/p-(?:\d{4}|\d{8})\.html)\1[^>]*?>");
foreach (Match m in reg.Matches(str))
Console.WriteLine("http://www.docin.com" + m.Groups[2].Value);
Console.ReadLine();
/*
http://www.docin.com/p-4074.html
http://www.docin.com/p-41751927.html
http://www.docin.com/p-19312068.html
*/
暖光 2011-07-19
  • 打赏
  • 举报
回复
一楼的匹配的范围还是有些广啊,把网页中其他的一些也匹配进来了,我现在只要“p-41751927”这种形式的,即
http://www.docin.com/p-4074.html
只要http://www.docin.com/p-然后加4个或8个数字,然后 .html 这种形式的。该怎样配?
huayy 2011-07-19
  • 打赏
  • 举报
回复
参考一楼
提供的源码资源涵盖了Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 适合毕业设计、课程设计作业。这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。 所有源码均经过严格测试,可以直接运行,可以放心下载使用。有任何使用问题欢迎随时与博主沟通,第一时间进行解答!

62,046

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术交流专区
javascript云原生 企业社区
社区管理员
  • ASP.NET
  • .Net开发者社区
  • R小R
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

.NET 社区是一个围绕开源 .NET 的开放、热情、创新、包容的技术社区。社区致力于为广大 .NET 爱好者提供一个良好的知识共享、协同互助的 .NET 技术交流环境。我们尊重不同意见,支持健康理性的辩论和互动,反对歧视和攻击。

希望和大家一起共同营造一个活跃、友好的社区氛围。

试试用AI创作助手写篇文章吧