请问如何用HTMLparser或者其他工具包遍历一个HTML中的所有子节点，并筛选？谢谢

ymy1248227142 2013-05-09 11:15:51

比如
<html>
<l1>谢谢</l1>
。。。。。。中间还有很多节点以及子节点。。。。。。。。。。。
<l2>不客气</l2>

</html>
我现在要做的是把里面的<script>标签的内容删除掉，其余的全部留下，并将剩余的内容文本提取出来
该怎么做呢，纠结啊，在线等，谢谢

...全文

96 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

miameng 2013-05-16

打赏
举报

回复

用正则去掉脚本然后用htmlparser的NodeClassFilter过滤出TextNode.class类的结点即可

ImN1 2013-05-09

打赏
举报

回复

各种语言有自己的写法一般用dom + xpath('//script')就行

艾伦图灵 2013-05-09

打赏
举报

回复

这个要使用服务器端技术。取得html后，去掉script及css后，再用正则去掉所有html标记，余下的就是纯文本了

起初考虑用正则表达式去匹配网页源码，经过咨询有经验人士，推荐使用xpath去获取页面内容能获得更好的效率。但是对于html这种宽松语法要求的语言来说，不可能100%地完全符合xml标准，那么就没法使用xpath，说得更直接点就是：不能把html源码直接加载到xmldocument中。为了使用xpath，只能对html内容进行转换或者规范，于是就写了这么一个方法。该方法比较地偷懒，借助了开源工具htmlparser获取html源码中的所有节点，然后遍历各个节点，转换为对应的xmlnode。

本文转自 http://jackyrong.javaeye.com/blog/692456 ，供大家啊学习研究
htmlparser是个优秀的网页信息抓取工具，下面小结其一些基本的用法：

1 创建parser对象，有两种方式
Parser parser=new Parser(String html)
传入的html
第2种为：
//通过指定URLConnection对象创建Parser对象

引言目前在 Java 中，解析 HTML 工具主要包含以下几种： jsoup：强大的 HTML 解析工具，支持以 jQuery 中 CSS Selector 的方式提取 HTML 中的元素，学习成本较低。 HtmlCleaner：另外一款开源的 Java 语言的 HTML 文档解析器，支持以 XPath 的方式提取 HTML 中的元素。另外，在此说明，学习 XPath 语法对于使用另外一款...

在线API文档：http://tool.oschina.net/apidocs/apidoc?api=HTMLParser htmlparser是个优秀的网页信息抓取工具，下面理清一下Node节点与节点之间的关系及NodeFilter的全部实现类。 Interface Node |||All Known Subinterfaces: Remark（RemarkNode ）,

htmlparser是个优秀的网页信息抓取工具，下面小结其一些基本的用法： 1 创建parser对象，有两种方式 Parser parser=new Parser(String html) 传入的html 第2种为： //通过指定URLConnection对象创建Parser对象 Parser parser = new Parser((HttpURLConnection)(

61,112

社区成员

60,730

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章