请问如何用HTMLparser或者其他工具包遍历一个HTML中的所有子节点,并筛选?谢谢

ymy1248227142 2013-05-09 11:15:51
比如
<html>
<l1>谢谢</l1>
。。。。。。中间还有很多节点以及子节点。。。。。。。。。。。
<l2>不客气</l2>

</html>
我现在要做的是把里面的<script>标签的内容删除掉,其余的全部留下,并将剩余的内容文本提取出来
该怎么做呢,纠结啊,在线等,谢谢
...全文
96 3 打赏 收藏 转发到动态 举报
写回复
用AI写文章
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
miameng 2013-05-16
  • 打赏
  • 举报
回复
用正则去掉脚本 然后用htmlparser的NodeClassFilter过滤出TextNode.class类的结点即可
ImN1 2013-05-09
  • 打赏
  • 举报
回复
各种语言有自己的写法 一般用dom + xpath('//script')就行
艾伦图灵 2013-05-09
  • 打赏
  • 举报
回复
这个要使用服务器端技术。 取得html后,去掉script及css后,再用正则去掉所有html标记,余下的就是纯文本了

61,112

社区成员

发帖
与我相关
我的任务
社区描述
层叠样式表(英文全称:Cascading Style Sheets)是一种用来表现HTML(标准通用标记语言的一个应用)或XML(标准通用标记语言的一个子集)等文件样式的计算机语言。
社区管理员
  • HTML(CSS)社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧