如何用正则表达式解析HTML

princeforest 2006-10-16 11:11:18

试图用Pattern从HTML中提取形如<a href="http://tech.tom.com/2006-07-16/04BI/08261701.html" target=_blank class=clink>科研经费提成合法不合理多位大学校长呼吁改革</a><br>的字符串，
需要支持中文的提取，请问该如何编写相应的正则表达式?

...全文

356 5 打赏收藏转发到动态举报

写回复

5 条回复

切换为时间正序

请发表友善的回复…

发表回复

zzhzzh204553 2006-11-15

打赏
举报

回复

你把标签去部去掉就可以啊.
<.*?>可以找出所有标签,替换成"",
剩下的就是文本了.

gzpoplar 2006-11-15

打赏
举报

回复

mark

lip009 2006-10-18

打赏
举报

回复

从HTML代码中提取连接地址:
<script>
var str="ksldfjk<a href='a.jsp'>aaa</a><a href='a.jsp'>aaa</a><a href='a.jsp'>aaa</a>";
var url=[];
var i=0;
str.replace(/<a\s+href=[\"']?([^<>\"']*)[\"']?>/g,function($0,$1){url[i]=$1;i++});
alert(url);
</script>

zh__ua 2006-10-18

打赏
举报

回复

<a\s+href=.+?>.+?</a>

princeforest 2006-10-18

打赏
举报

回复

<a href=([^>]*)>[\u4e00-\u9fa5]+</a>

本文分享了一位高手使用正则表达式解析HTML和XHTML的详细教程，介绍了两个复杂正则表达式的功能和用途，能有效解析HTML结构，识别各种标签、属性和内容。

本文介绍正则表达式基础知识、HTML标签匹配技巧和内容提取方法，以及在JavaScript中的应用。阐述了正则表达式特点、语法、边界匹配、分组引用等，指出其解析HTML的局限性，推荐使用专门HTML解析器处理复杂文档。

本文介绍了如何使用Python中的正则表达式来解析HTML文档并提取所需的数据，包括内容和属性值。通过具体示例展示了正则表达式在HTML解析中的应用。

这篇博客介绍了如何使用PHP的正则表达式来解析HTML中的表格内容。通过匹配和替换特定标签，如table、tr和td，将HTML表格转换为便于处理的数组结构。内容包括去除HTML标签、空白字符以及换行符，并使用特定字符串分隔数组，最后通过array_pop和array_shift操作处理数组边缘元素。

本文介绍了如何使用Jsoup解析HTML文档以获取body部分的数据，以及利用正则表达式提取script标签内的信息。通过Jsoup的select方法选择特定元素，并通过attr和text方法获取属性值和文本内容。同时，使用正则表达式处理script内容，通过零宽断言和分组匹配获取所需数据，展示了在网页数据爬取过程中的实用技巧。

62,622

社区成员

307,257

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章