有没有Java类可以解析html文件并生成树?

weakwater 2011-03-04 12:13:59
本人想解析一个html文件,并生成相应的dom tree,然后在tree你们取一些信息来用,也就是网页信息抓取。

请问,有什么现成的类可以使用吗?

我现在使用ParserDelegator,它只是解析html文化后,碰到tag时把tag和属性通过回调函数传回,碰到tag结束调用相应的回调函数,这样还是需要我自己去建立树。

有没有直接解析完毕就是一个dom tree,然后通过dom tree的方法获取你们的信息?

Java的类这么丰富,我想应该有吧,如果没有,有什么好的tree结构可以使用了?

偶是Java新手,对类不熟,烦请高手指教。
...全文
213 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
runer 2011-03-04
  • 打赏
  • 举报
回复
解析具体的网页 提取内容

最好用的是正则表达式


html不是强格式的

可能会不规范
weakwater 2011-03-04
  • 打赏
  • 举报
回复
这么说,还是需要自己生产dtree了

OK,我试一下
goodsun00 2011-03-04
  • 打赏
  • 举报
回复
用开源组件dtree吧 再结合extjs 或 ajax 实现 你要的功能吧~~我觉得dtree还行啊
rockay2006 2011-03-04
  • 打赏
  • 举报
回复
吼吼 使用jsoup

81,091

社区成员

发帖
与我相关
我的任务
社区描述
Java Web 开发
社区管理员
  • Web 开发社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧