htmlparser解析html文档

肖邦 2012-03-13 12:28:15
我看到了一篇论文利用关于提取网页主题信息的。里面说的了利用htmlparser解析html文档生成DOM树,我不理解是怎么个生成法?请问有没有人能帮我解答一下疑惑。
...全文
51 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
小菜鸟的博客 2012-03-13
  • 打赏
  • 举报
回复
建议楼主去学习一下dom的知识 就明白了 加油
聪头 2012-03-13
  • 打赏
  • 举报
回复
同意一楼。

就是解析xml,根据不同的标签获取相应的数据。
weilunhui123 2012-03-13
  • 打赏
  • 举报
回复
html其实就是标记性语言,跟xml一样,当读取时将整个根叶元素读入到内存,然后进行增删改查。
肖邦 2012-03-13
  • 打赏
  • 举报
回复
[Quote=引用 1 楼 weilunhui123 的回复:]
html其实就是标记性语言,跟xml一样,当读取时将整个根叶元素读入到内存,然后进行增删改查。
[/Quote]

是不是我没说清楚呢,xml解析的到dom树我能知道怎么做,因为有确定的格式,但是我现在爬虫得到的网页代码没有确定的格式的,我怎么能和解析xml一样的去得到网页的html文档的dom树结构呢?

62,614

社区成员

发帖
与我相关
我的任务
社区描述
Java 2 Standard Edition
社区管理员
  • Java SE
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧