正则提取文档问题

woshimaikou 2012-11-28 11:45:24

模拟登陆后抓取指定页面的源代码，分析。
抓取过程已完成。分析时用正则有些问题。想获取到<body>之间的内容。
部分代码：



 Regex reg = new Regex(@"(?<=<body .*>).*(?=</body>)", RegexOptions.IgnoreCase & RegexOptions.Multiline);

                

                Match m = reg.Match(HttpUtility.HtmlEncode(pageSource));

                if (m.Success)

                {                   

                    Response.Write(m.Value);

                }

pageSource是已经抓取的页面源代码。现在输不出匹配后的结果。

...全文

144 8 打赏收藏转发到动态举报

写回复

用AI写文章

8 条回复

切换为时间正序

请发表友善的回复…

发表回复

EnForGrass 2012-11-28

打赏
举报

引用 4 楼 lxcnn 的回复:

1、HtmlEncode的问题，楼上几位已经说了 2、正则问题，这里的正则写的不对，Multiline也用的不对 C# code?1Regex reg = new Regex(@"(?is)(?<=<body[^>]*>).*(?=</body>)");

试了4楼的没有？ Regex reg = new Regex(@"(?is)(?<=<body[^>]*>).*?(?=</body>)");

woshimaikou 2012-11-28

打赏
举报

引用 1 楼 caozhy 的回复:

HtmlEncode后<>都转义了，当然不行。

去了也不好使啊！

-过客- 2012-11-28

打赏
举报

1、HtmlEncode的问题，楼上几位已经说了 2、正则问题，这里的正则写的不对，Multiline也用的不对

Regex reg = new Regex(@"(?is)(?<=<body[^>]*>).*(?=</body>)");

骑着蜗牛去爬山 2012-11-28

打赏
举报

(?is)<body[^>]*>((?!</body>)[\s\S])*</body>

bdmh 2012-11-28

打赏
举报

是啊，HtmlEncode干嘛

threenewbee 2012-11-28

打赏
举报

HtmlEncode后<>都转义了，当然不行。

-过客- 2012-11-28

打赏
举报

参考我的博客 .NET正则基础之——.NET正则匹配模式 Multiline 影响的是^和$的匹配行为，而你的正则中是没有这两个元字符的 Singleline 影响的是.的匹配行为，所以这里应该用Singleline

woshimaikou 2012-11-28

打赏
举报

引用 4 楼 lxcnn 的回复:

1、HtmlEncode的问题，楼上几位已经说了 2、正则问题，这里的正则写的不对，Multiline也用的不对 C# code?1Regex reg = new Regex(@"(?is)(?<=<body[^>]*>).*(?=</body>)");

已试，可用。感谢。主要是正则的问题啊。Multiline那么用不对吗？

利用正则表达式进行文档处理（提取文档版本，发布日期等）

asp.net利用正则在HTML中提取图片路径（asp.net正则表达式过滤出HTML代码中图片路径）.txtasp.net利用正则在HTML中提取图片路径（asp.net正则表达式过滤出HTML代码中图片路径）.txt

内容简介：正则表达式，又称正规表示法、常规表示法(英语:Regular Expression，在代码中常简写为regex、regexp或RE)。计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串...

我想用javascript正则提取asp代码中 SQL行的表达式但是写来写去都不行，各位辛苦帮忙看看！想提取引号中的SQL表达式 strSql=”Select * from project354 where ID = “&Request(“id”)& and Name=...

本文档对JAVA的正则表达式从语法规则到实例应用，都作了归纳总结，并附有完整的测试代码，可以直接编译运行。

.NET社区

62,041

社区成员

669,051

社区内容

发帖

与我相关

我的任务

javascript云原生企业社区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

.NET 社区是一个围绕开源 .NET 的开放、热情、创新、包容的技术社区。社区致力于为广大 .NET 爱好者提供一个良好的知识共享、协同互助的 .NET 技术交流环境。我们尊重不同意见，支持健康理性的辩论和互动，反对歧视和攻击。

希望和大家一起共同营造一个活跃、友好的社区氛围。

试试用AI创作助手写篇文章吧

+ 用AI写文章