怎样得到一个网页的DOM表示
想编个网络蜘蛛去抓取网页,这个任务不是太难吧。但是有这样一种情况:
比如一个页面名为index.html,它的内容是空的,它只在<META里面定义了在2S之后跳转到另一个更深的页面。
我的爬虫爬到了index.html这个页面之后,理所当然,在BODY里面什么内容也没找到,就停止了。
关键在于我的爬虫程序不会自动处理页面跳转,不会解析里面的META标记,也不理解JAVASCRIPT代码,怎样才能解决这个问题呢?
CHROME浏览器我感觉做得特别好,能得到一个完整的DOM树。
我想用HTTPCLIENT类库来实现,可是也跳转不了。请教高手!!