正则提取文档问题

woshimaikou 2012-11-28 11:45:24
模拟登陆后抓取指定页面的源代码,分析。
抓取过程已完成。分析时用正则有些问题。想获取到<body>之间的内容。
部分代码:

Regex reg = new Regex(@"(?<=<body .*>).*(?=</body>)", RegexOptions.IgnoreCase & RegexOptions.Multiline);

Match m = reg.Match(HttpUtility.HtmlEncode(pageSource));
if (m.Success)
{
Response.Write(m.Value);
}

pageSource是已经抓取的页面源代码。现在输不出匹配后的结果。
...全文
144 8 打赏 收藏 转发到动态 举报
写回复
用AI写文章
8 条回复
切换为时间正序
请发表友善的回复…
发表回复
EnForGrass 2012-11-28
  • 打赏
  • 举报
回复
引用 4 楼 lxcnn 的回复:
1、HtmlEncode的问题,楼上几位已经说了 2、正则问题,这里的正则写的不对,Multiline也用的不对 C# code?1Regex reg = new Regex(@"(?is)(?<=<body[^>]*>).*(?=</body>)");
试了4楼的没有? Regex reg = new Regex(@"(?is)(?<=<body[^>]*>).*?(?=</body>)");
woshimaikou 2012-11-28
  • 打赏
  • 举报
回复
引用 1 楼 caozhy 的回复:
HtmlEncode后<>都转义了,当然不行。
去了也不好使啊!
-过客- 2012-11-28
  • 打赏
  • 举报
回复
1、HtmlEncode的问题,楼上几位已经说了 2、正则问题,这里的正则写的不对,Multiline也用的不对
Regex reg = new Regex(@"(?is)(?<=<body[^>]*>).*(?=</body>)");
  • 打赏
  • 举报
回复
(?is)<body[^>]*>((?!</body>)[\s\S])*</body>
bdmh 2012-11-28
  • 打赏
  • 举报
回复
是啊,HtmlEncode干嘛
threenewbee 2012-11-28
  • 打赏
  • 举报
回复
HtmlEncode后<>都转义了,当然不行。
-过客- 2012-11-28
  • 打赏
  • 举报
回复
参考我的博客 .NET正则基础之——.NET正则匹配模式 Multiline 影响的是^和$的匹配行为,而你的正则中是没有这两个元字符的 Singleline 影响的是.的匹配行为,所以这里应该用Singleline
woshimaikou 2012-11-28
  • 打赏
  • 举报
回复
引用 4 楼 lxcnn 的回复:
1、HtmlEncode的问题,楼上几位已经说了 2、正则问题,这里的正则写的不对,Multiline也用的不对 C# code?1Regex reg = new Regex(@"(?is)(?<=<body[^>]*>).*(?=</body>)");
已试 ,可用。感谢。主要是正则的问题啊。Multiline那么用不对吗?

62,041

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术交流专区
javascript云原生 企业社区
社区管理员
  • ASP.NET
  • .Net开发者社区
  • R小R
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

.NET 社区是一个围绕开源 .NET 的开放、热情、创新、包容的技术社区。社区致力于为广大 .NET 爱好者提供一个良好的知识共享、协同互助的 .NET 技术交流环境。我们尊重不同意见,支持健康理性的辩论和互动,反对歧视和攻击。

希望和大家一起共同营造一个活跃、友好的社区氛围。

试试用AI创作助手写篇文章吧