社区
CSS
帖子详情
请问如何用HTMLparser或者其他工具包遍历一个HTML中的所有子节点,并筛选?谢谢
ymy1248227142
2013-05-09 11:15:51
比如
<html>
<l1>谢谢</l1>
。。。。。。中间还有很多节点以及子节点。。。。。。。。。。。
<l2>不客气</l2>
</html>
我现在要做的是把里面的<script>标签的内容删除掉,其余的全部留下,并将剩余的内容文本提取出来
该怎么做呢,纠结啊,在线等,谢谢
...全文
96
3
打赏
收藏
请问如何用HTMLparser或者其他工具包遍历一个HTML中的所有子节点,并筛选?谢谢
比如 谢谢 。。。。。。中间还有很多节点以及子节点。。。。。。。。。。。 不客气 我现在要做的是把里面的标签的内容删除掉,其余的全部留下,并将剩余的内容文本提取出来 该怎么做呢,纠结啊,在线等,谢谢
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
3 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
miameng
2013-05-16
打赏
举报
回复
用正则去掉脚本 然后用htmlparser的NodeClassFilter过滤出TextNode.class类的结点即可
ImN1
2013-05-09
打赏
举报
回复
各种语言有自己的写法 一般用dom + xpath('//script')就行
艾伦图灵
2013-05-09
打赏
举报
回复
这个要使用服务器端技术。 取得html后,去掉script及css后,再用正则去掉所有html标记,余下的就是纯文本了
利用
html
parser
把
html
转成xlm
起初考虑用正则表达式去匹配网页源码,经过咨询有经验人士,推荐使用xpath去获取页面内容能获得更好的效率。但是对于
html
这种宽松语法要求的语言来说,不可能100%地完全符合xml标准,那么就没法使用xpath,说得更直接点就是:不能把
html
源码直接加载到xmldocument
中
。为了使用xpath,只能对
html
内容进行转换或者规范,于是就写了这么
一个
方法。该方法比较地偷懒,借助了开源工具
html
parser
获取
html
源码
中
的所有节点,然后
遍历
各个节点,转换为对应的xmlnode。
html
parser
详解
本文转自 http://jackyrong.javaeye.com/blog/692456 ,供大家啊学习研究
html
parser
是个优秀的网页信息抓取工具,下面小结其一些基本的用法:
1 创建parser对象,有两种方式
Parser parser=new Parser(String
html
)
传入的
html
第2种为:
//通过指定URLConnection对象创建Parser对象
HTML
和 XML 数据的分析与解析
引言 目前在 Java
中
,解析
HTML
工具主要包含以下几种: jsoup:强大的
HTML
解析工具,支持以 jQuery
中
CSS Selector 的方式提取
HTML
中
的元素,学习成本较低。
Html
Cleaner:另外一款开源的 Java 语言的
HTML
文档解析器,支持以 XPath 的方式提取
HTML
中
的元素。另外,在此说明,学习 XPath 语法对于使用另外一款...
html
parser
整理
在线API文档:http://tool.oschina.net/apidocs/apidoc?api=
HTML
Parser
html
parser
是个优秀的网页信息抓取工具, 下面理清一下Node节点与节点之间的关系及NodeFilter的全部实现类。 Interface Node |||All Known Subinterfaces: Remark(RemarkNode ),
HTML
PARSER
学习小结
html
parser
是个优秀的网页信息抓取工具,下面小结其一些基本的用法: 1 创建parser对象,有两种方式 Parser parser=new Parser(String
html
) 传入的
html
第2种为: //通过指定URLConnection对象创建Parser对象 Parser parser = new Parser((HttpURLConnection)(
CSS
61,112
社区成员
60,730
社区内容
发帖
与我相关
我的任务
CSS
层叠样式表(英文全称:Cascading Style Sheets)是一种用来表现HTML(标准通用标记语言的一个应用)或XML(标准通用标记语言的一个子集)等文件样式的计算机语言。
复制链接
扫一扫
分享
社区描述
层叠样式表(英文全称:Cascading Style Sheets)是一种用来表现HTML(标准通用标记语言的一个应用)或XML(标准通用标记语言的一个子集)等文件样式的计算机语言。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章