怎样得到一个网页的DOM表示

winterlight09 2010-10-15 04:10:43
想编个网络蜘蛛去抓取网页,这个任务不是太难吧。但是有这样一种情况:
比如一个页面名为index.html,它的内容是空的,它只在<META里面定义了在2S之后跳转到另一个更深的页面。
我的爬虫爬到了index.html这个页面之后,理所当然,在BODY里面什么内容也没找到,就停止了。
关键在于我的爬虫程序不会自动处理页面跳转,不会解析里面的META标记,也不理解JAVASCRIPT代码,怎样才能解决这个问题呢?
CHROME浏览器我感觉做得特别好,能得到一个完整的DOM树。
我想用HTTPCLIENT类库来实现,可是也跳转不了。请教高手!!
...全文
83 3 打赏 收藏 转发到动态 举报
写回复
用AI写文章
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
winterlight09 2010-10-19
  • 打赏
  • 举报
回复
[Quote=引用 1 楼 yodlove 的回复:]

httpclient也是先要分析下源代码才行的,你可以匹配里面内容看看有没有链接什么的,有的话就去访问它
[/Quote]
在一个网页里引用另一个网页方法太多了,我不想分析,也不会,要分析工程量太大。那简直是做个浏览器内核似的。
yodlove 2010-10-15
  • 打赏
  • 举报
回复
httpclient也是先要分析下源代码才行的,你可以匹配里面内容看看有没有链接什么的,有的话就去访问它

67,513

社区成员

发帖
与我相关
我的任务
社区描述
J2EE只是Java企业应用。我们需要一个跨J2SE/WEB/EJB的微容器,保护我们的业务核心组件(中间件),以延续它的生命力,而不是依赖J2SE/J2EE版本。
社区管理员
  • Java EE
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧