htmlparser解析html文档

肖邦 2012-03-13 12:28:15

我看到了一篇论文利用关于提取网页主题信息的。里面说的了利用htmlparser解析html文档生成DOM树，我不理解是怎么个生成法？请问有没有人能帮我解答一下疑惑。

...全文

51 4 打赏收藏转发到动态举报

写回复

用AI写文章

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

小菜鸟的博客 2012-03-13

打赏
举报

建议楼主去学习一下dom的知识就明白了加油

聪头 2012-03-13

打赏
举报

同意一楼。

就是解析xml，根据不同的标签获取相应的数据。

weilunhui123 2012-03-13

打赏
举报

html其实就是标记性语言，跟xml一样，当读取时将整个根叶元素读入到内存，然后进行增删改查。

肖邦 2012-03-13

打赏
举报

[Quote=引用 1 楼 weilunhui123 的回复:]
html其实就是标记性语言，跟xml一样，当读取时将整个根叶元素读入到内存，然后进行增删改查。
[/Quote]

是不是我没说清楚呢，xml解析的到dom树我能知道怎么做，因为有确定的格式，但是我现在爬虫得到的网页代码没有确定的格式的，我怎么能和解析xml一样的去得到网页的html文档的dom树结构呢？