用C#做的网络爬虫如何抓取动态页面?

hevhe 2008-10-23 10:45:17
正在用C#做一个网络爬虫,对静态页面的抓取已经基本搞定,但不知道动态页面抓取如何入手,希望有高手能够提高一些资料,网站等,能够提供源程序参考则更好!谢谢!
...全文
618 12 打赏 收藏 转发到动态 举报
写回复
用AI写文章
12 条回复
切换为时间正序
请发表友善的回复…
发表回复
鲁虾 2012-08-13
  • 打赏
  • 举报
回复
静态的和动态的有区别么?都是url获取到html代码,你只要分析好url就可以抓取了吧
lanlanjinjinfenfen 2012-08-07
  • 打赏
  • 举报
回复
正在用C#做一个网络爬虫,对静态页面的抓取已经基本搞定,但不知道动态页面抓取如何入手,希望有高手能够提高一些资料,网站等,能够提供源程序参考则更好!谢谢!


楼主所做程序源码能不能粘出来!
loud1984 2009-04-16
  • 打赏
  • 举报
回复
[Quote=引用楼主 hevhe 的帖子:]
正在用C#做一个网络爬虫,对静态页面的抓取已经基本搞定,但不知道动态页面抓取如何入手,希望有高手能够提高一些资料,网站等,能够提供源程序参考则更好!谢谢!
[/Quote]网络爬虫好像只能爬取静态的页面内容,动态的内容无法爬取。因为动态网页像PHP,JSP这些都是动态生成的,依靠用户的触发点击,在服务器端执行的。
一般如果用手工保存的网页没有的内容,用爬虫基本上就无法爬取。
jiangfeng999 2009-04-02
  • 打赏
  • 举报
回复
楼上的能不能不要到处发广告了.整个CSDN都是你的广告
jiangfeng999 2009-04-02
  • 打赏
  • 举报
回复
抓取动态网页和静态的没有什么区别的呀,都是向服务器发送web请求
例如你发送XXX.aspx?ID=给服务器,就可以把网页接收回来,要是还有疑问请把代码贴出来继续讨论
netwar 2009-03-19
  • 打赏
  • 举报
回复
呵,我写了一个简单的,可以交流下。
jackyu2008 2008-10-31
  • 打赏
  • 举报
回复
商业气氛浓
凑热闹:
http://www.webscraping.com.cn
hevhe 2008-10-26
  • 打赏
  • 举报
回复
许多数据是放在数据库的网站,是否能够获得这些信息??
hevhe 2008-10-24
  • 打赏
  • 举报
回复
没人?自己顶下
首先,简单介绍下网络爬虫   网络爬虫是通过网页的链接地址来寻找网页,从网站某一个页面(设置为主页)开始,读取网页的内容,找到网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到这个网站所有的网页都抓取完为止。实际上,由于抓取技术的限制以及存储技术、处理技术的限制,要完全抓取网站的所有网页是不可能的,也是不实际的!本着从用户需要为出发点,实际需要抓取的网页往往是有限的,只需抓取符合用户要求的网页即可! 抓取网页的策略 在抓取网页的时候,网络爬虫一般有两种策略(即两种搜索方法),广度优先和深度优先。 广度优先:是指网络爬虫会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此页面中链接的所有页面。这是最常用的方式,广度优先的搜索策略可以并行处理,提高抓取速度。 深度优先:是指网络爬虫会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这种策略较易实现,但是抓取速度慢。 由于一般不可能抓取网站的所有链接,一般会设置访问层数,即搜索深度。起始页的深度为0,起始页中的链接url深度为1,依此类推。 构造C#语言的爬虫程序 C#已经封装了HTTP访问和多线程,这对编写网络爬虫提供了方便,而要C#网络爬虫程序需要解决以下问题: HTML分析:需要某种HTML解析器来分析爬虫程序遇到的每一个页面页面处理:需要处理每一个下载得到的页面。下载得到的内容需要保存起来,以便进一步分析处理。

2,760

社区成员

发帖
与我相关
我的任务
社区描述
搜索引擎的服务器通过网络搜索软件或网络登录等方式,将Internet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库。
社区管理员
  • 搜索引擎技术社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧