怎样得到一个网页的DOM表示

winterlight09 2010-10-15 04:10:43

想编个网络蜘蛛去抓取网页，这个任务不是太难吧。但是有这样一种情况：
比如一个页面名为index.html，它的内容是空的，它只在<META里面定义了在2S之后跳转到另一个更深的页面。
我的爬虫爬到了index.html这个页面之后，理所当然，在BODY里面什么内容也没找到，就停止了。
关键在于我的爬虫程序不会自动处理页面跳转，不会解析里面的META标记，也不理解JAVASCRIPT代码，怎样才能解决这个问题呢？
CHROME浏览器我感觉做得特别好，能得到一个完整的DOM树。
我想用HTTPCLIENT类库来实现，可是也跳转不了。请教高手！！

...全文

83 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

winterlight09 2010-10-19

打赏
举报

回复

[Quote=引用 1 楼 yodlove 的回复:]

httpclient也是先要分析下源代码才行的，你可以匹配里面内容看看有没有链接什么的，有的话就去访问它
[/Quote]
在一个网页里引用另一个网页方法太多了，我不想分析，也不会，要分析工程量太大。那简直是做个浏览器内核似的。

yodlove 2010-10-15

打赏
举报

回复

httpclient也是先要分析下源代码才行的，你可以匹配里面内容看看有没有链接什么的，有的话就去访问它

opengraph-java, 一种网页开放图协议的Java对象表示用于表示开放图协议( 可以从 http://opengraphprotocol.org/ 获得)的OpenGraph是一个小类这个项目是由于代码的大小而完全开源的，所以请用代码做任何事情。...

当创建了一个网页并把它加载到Web浏览器中时，就会在幕后创建一个文档对象模型  DOM表示被加载到浏览器窗口里的当前页面：浏览器向我们提供了当前页面的模型，而我们可以通过JavaScript访问这个模型  DOM把一份...

课程目标：本课程带领大家学习，网页中的实际功能的开发，如：轮播图片、购物车、右击菜单、表单验证等等功能的实现课程简介：第一章：BOM 第二章：DOM基础第三章：DOM操作CSS 第四章：DOM节点操作第五章：事件...

DOM的目的是为程序提供一个界面，以更改网页的结构，样式和内容。 DOM将文档表示为节点和对象。除其他外，这允许编程语言以交互方式更改页面和HTML！您将看到DOM和HTML创建了元素层次结构。这种结构和底层元素的...

DOM的目的是为程序提供一个界面，以更改网页的结构，样式和内容。 DOM将文档表示为节点和对象。除其他外，这允许编程语言以交互方式更改页面和HTML！您将看到DOM和HTML创建了元素层次结构。这种结构和底层元素...

67,513

社区成员

225,879

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章