【高分求】如何使用正则表达式获取WEB上所有链接？

xieyj 2007-04-12 02:43:26

RT

...全文

258 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

蒋晟 2007-04-13

打赏
举报

回复

HTML is a non-regular language. Like balanced parenthesis, matching balanced HTML tags is impossible to do with Regular Expressions (in CS terms, an NFA or DFA) alone. Impossible as in "halting problem" impossible.

You can write complex RegExs that will work on the sample documents you have, but you can never find a correct RegEx that will work on all valid HTML, what to speak of invalid HTML. What you *can* do is use regular expressions to match individual open and close tags and use a stack to keep track of your depth. In CS terms, this would be a Push-down Automata, or PDA.

The .NET Regular Expression engine does give away a method to imitate a simple PDA(http://www.oreilly.com/catalog/regex2/chapter/ch09.pdf)

Here is a regular expression that will match the balanced <a> tags.

(?:<a.*?href=[""'](?<url>.*?)[""'].*?>)(?<name>(?><a[^<]*>(?<DEPTH>)|</a>(?<-DEPTH>)|.)+)(?(DEPTH)(?!))(?:</a>)

xiaocai800322 2007-04-12

打赏
举报

回复

关注

正则表达式中的特殊字符一览〓简介〓字符意义：对于字符，通常表示按字面意义，指出接着的字符为特殊字符，不作解释。例如：/b/匹配字符'b',通过在b 前面加一个反斜杠，也就是/b/...

正则表达式作为一种强大的文本匹配和处理工具，广泛应用于数据清洗、日志分析、表单验证等场景。在实际开发中，测试正则表达式的正确性与效率至关重要，因此选择合适的测试工具成为开发者必备技能。本章将系统介绍...

下载的兄弟注意了，点击下载后，可以在url中看到后缀名：），如果把后缀名改错了就看不了了，所有的资料都有人下载过了，应该都能看。 Python相关的资料还可以看： http://jythoner.javaeye.com/blog/569987...

对于 Linux 和编程的新用户来说，可能不清楚正则表达式为处理数据带来的强大功能。在其最简单的形式中，正则表达式可以理解为在一组数据中搜索短语或模式。以下简单的例子展示了如何匹配所有邮件项目，其中标题和/或...

正则就是用一些具有特殊含义的符号组合到一起（称为正则表达式）来描述字符或者字符串的方法.或者说：正则就是用来描述一类事物的规则.（在Python中）它内嵌在Python中,并通过 re 模块实现.正则表达式模式被编译成一...

网络通信/分布式开发

1,594

社区成员

32,957

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章