用C#做的网络爬虫如何抓取动态页面?

hevhe 2008-10-23 10:45:17

正在用C#做一个网络爬虫,对静态页面的抓取已经基本搞定,但不知道动态页面抓取如何入手,希望有高手能够提高一些资料,网站等,能够提供源程序参考则更好!谢谢!

...全文

618 12 打赏收藏转发到动态举报

写回复

12 条回复

切换为时间正序

请发表友善的回复…

发表回复

鲁虾 2012-08-13

打赏
举报

回复

静态的和动态的有区别么？都是url获取到html代码，你只要分析好url就可以抓取了吧

lanlanjinjinfenfen 2012-08-07

打赏
举报

回复

正在用C#做一个网络爬虫,对静态页面的抓取已经基本搞定,但不知道动态页面抓取如何入手,希望有高手能够提高一些资料,网站等,能够提供源程序参考则更好!谢谢!

楼主所做程序源码能不能粘出来！

loud1984 2009-04-16

打赏
举报

回复

[Quote=引用楼主 hevhe 的帖子:]
正在用C#做一个网络爬虫,对静态页面的抓取已经基本搞定,但不知道动态页面抓取如何入手,希望有高手能够提高一些资料,网站等,能够提供源程序参考则更好!谢谢!
[/Quote]网络爬虫好像只能爬取静态的页面内容，动态的内容无法爬取。因为动态网页像PHP，JSP这些都是动态生成的，依靠用户的触发点击，在服务器端执行的。
一般如果用手工保存的网页没有的内容，用爬虫基本上就无法爬取。

jiangfeng999 2009-04-02

打赏
举报

回复

楼上的能不能不要到处发广告了.整个CSDN都是你的广告

jiangfeng999 2009-04-02

打赏
举报

回复

抓取动态网页和静态的没有什么区别的呀,都是向服务器发送web请求
例如你发送XXX.aspx?ID=给服务器,就可以把网页接收回来,要是还有疑问请把代码贴出来继续讨论

netwar 2009-03-19

打赏
举报

回复

呵，我写了一个简单的，可以交流下。

jackyu2008 2008-10-31

打赏
举报

回复

商业气氛浓
凑热闹:
http://www.webscraping.com.cn

hevhe 2008-10-26

打赏
举报

回复

许多数据是放在数据库的网站，是否能够获得这些信息？？

hevhe 2008-10-24

打赏
举报

回复

没人？自己顶下

首先，简单介绍下网络爬虫　　网络爬虫是通过网页的链接地址来寻找网页，从网站某一个页面（设置为主页）开始，读取网页的内容，找到网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到这个网站所有的网页都抓取完为止。实际上，由于抓取技术的限制以及存储技术、处理技术的限制，要完全抓取网站的所有网页是不可能的，也是不实际的！本着从用户需要为出发点，实际需要抓取的网页往往是有限的，只需抓取符合用户要求的网页即可！抓取网页的策略在抓取网页的时候，网络爬虫一般有两种策略（即两种搜索方法），广度优先和深度优先。广度优先：是指网络爬虫会先抓取起始网页中链接的所有网页，然后再选择其中的一个链接网页，继续抓取在此页面中链接的所有页面。这是最常用的方式，广度优先的搜索策略可以并行处理，提高抓取速度。深度优先：是指网络爬虫会从起始页开始，一个链接一个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续跟踪链接。这种策略较易实现，但是抓取速度慢。由于一般不可能抓取网站的所有链接，一般会设置访问层数，即搜索深度。起始页的深度为0，起始页中的链接url深度为1，依此类推。构造C#语言的爬虫程序 C#已经封装了HTTP访问和多线程，这对编写网络爬虫提供了方便，而要C#网络爬虫程序需要解决以下问题： HTML分析：需要某种HTML解析器来分析爬虫程序遇到的每一个页面。页面处理：需要处理每一个下载得到的页面。下载得到的内容需要保存起来，以便进一步分析处理。

精华志蜘蛛爬虫，递归抓取页面的URL 抓取页面URL 京华志&精华志出品分享资源 C# ASP.NET SQL DBA 源码

各种采集页面爬虫抓取

用C#写的一个简单爬取页面源码的程序，可以设置定时，每隔多长时间自动爬取，获得的源码存放在当前目录下，文件名用当前时间命名。

超级简单网页抓取源码，js加载完成抓取源码，抓取动态加载页面的源码。适合初学者，很简单。看懂很容易。页面加载完成抓取源码适合新手，赚点资源分但是内容绝对有效简单明了。

搜索引擎技术

2,760

社区成员

2,052

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章