社区
搜索引擎技术
帖子详情
用C#做的网络爬虫如何抓取动态页面?
hevhe
2008-10-23 10:45:17
正在用C#做一个网络爬虫,对静态页面的抓取已经基本搞定,但不知道动态页面抓取如何入手,希望有高手能够提高一些资料,网站等,能够提供源程序参考则更好!谢谢!
...全文
618
12
打赏
收藏
用C#做的网络爬虫如何抓取动态页面?
正在用C#做一个网络爬虫,对静态页面的抓取已经基本搞定,但不知道动态页面抓取如何入手,希望有高手能够提高一些资料,网站等,能够提供源程序参考则更好!谢谢!
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
12 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
鲁虾
2012-08-13
打赏
举报
回复
静态的和动态的有区别么?都是url获取到html代码,你只要分析好url就可以抓取了吧
lanlanjinjinfenfen
2012-08-07
打赏
举报
回复
正在用C#做一个网络爬虫,对静态页面的抓取已经基本搞定,但不知道动态页面抓取如何入手,希望有高手能够提高一些资料,网站等,能够提供源程序参考则更好!谢谢!
楼主所做程序源码能不能粘出来!
loud1984
2009-04-16
打赏
举报
回复
[Quote=引用楼主 hevhe 的帖子:]
正在用C#做一个网络爬虫,对静态页面的抓取已经基本搞定,但不知道动态页面抓取如何入手,希望有高手能够提高一些资料,网站等,能够提供源程序参考则更好!谢谢!
[/Quote]网络爬虫好像只能爬取静态的页面内容,动态的内容无法爬取。因为动态网页像PHP,JSP这些都是动态生成的,依靠用户的触发点击,在服务器端执行的。
一般如果用手工保存的网页没有的内容,用爬虫基本上就无法爬取。
jiangfeng999
2009-04-02
打赏
举报
回复
楼上的能不能不要到处发广告了.整个CSDN都是你的广告
jiangfeng999
2009-04-02
打赏
举报
回复
抓取动态网页和静态的没有什么区别的呀,都是向服务器发送web请求
例如你发送XXX.aspx?ID=给服务器,就可以把网页接收回来,要是还有疑问请把代码贴出来继续讨论
netwar
2009-03-19
打赏
举报
回复
呵,我写了一个简单的,可以交流下。
jackyu2008
2008-10-31
打赏
举报
回复
商业气氛浓
凑热闹:
http://www.webscraping.com.cn
hevhe
2008-10-26
打赏
举报
回复
许多数据是放在数据库的网站,是否能够获得这些信息??
hevhe
2008-10-24
打赏
举报
回复
没人?自己顶下
网络
爬虫
的设计和实现
首先,简单介绍下
网络
爬虫
网络
爬虫
是通过网页的链接地址来寻找网页,从网站某一个
页面
(设置为主页)开始,读取网页的内容,找到网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到这个网站所有的网页都
抓取
完为止。实际上,由于
抓取
技术的限制以及存储技术、处理技术的限制,要完全
抓取
网站的所有网页是不可能的,也是不实际的!本着从用户需要为出发点,实际需要
抓取
的网页往往是有限的,只需
抓取
符合用户要求的网页即可!
抓取
网页的策略 在
抓取
网页的时候,
网络
爬虫
一般有两种策略(即两种搜索方法),广度优先和深度优先。 广度优先:是指
网络
爬虫
会先
抓取
起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续
抓取
在此
页面
中链接的所有
页面
。这是最常用的方式,广度优先的搜索策略可以并行处理,提高
抓取
速度。 深度优先:是指
网络
爬虫
会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这种策略较易实现,但是
抓取
速度慢。 由于一般不可能
抓取
网站的所有链接,一般会设置访问层数,即搜索深度。起始页的深度为0,起始页中的链接url深度为1,依此类推。 构造
C#
语言的
爬虫
程序
C#
已经封装了HTTP访问和多线程,这对编写
网络
爬虫
提供了方便,而要
C#
网络
爬虫
程序需要解决以下问题: HTML分析:需要某种HTML解析器来分析
爬虫
程序遇到的每一个
页面
。
页面
处理:需要处理每一个下载得到的
页面
。下载得到的内容需要保存起来,以便进一步分析处理。
精华志 蜘蛛
爬虫
,递归
抓取
页面
的URL
抓取
页面
URL
精华志 蜘蛛
爬虫
,递归
抓取
页面
的URL
抓取
页面
URL 京华志&精华志出品 分享资源
C#
ASP.NET SQL DBA 源码
HttpHelper-V2.2.97
c#
爬虫
抓取
类
各种采集
页面
爬虫
抓取
C#
定时
爬虫
用
C#
写的一个简单爬取
页面
源码的程序,可以设置定时,每隔多长时间自动爬取,获得的源码存放在当前目录下,文件名用当前时间命名。
网页
爬虫
,网页
抓取
,js加载后网页
抓取
,超简单。
超级简单网页
抓取
源码,js加载完成
抓取
源码,
抓取
动态
加载
页面
的源码。适合初学者,很简单。看懂很容易。
页面
加载完成
抓取
源码 适合新手,赚点资源分但是内容绝对有效简单明了。
搜索引擎技术
2,760
社区成员
2,052
社区内容
发帖
与我相关
我的任务
搜索引擎技术
搜索引擎的服务器通过网络搜索软件或网络登录等方式,将Internet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库。
复制链接
扫一扫
分享
社区描述
搜索引擎的服务器通过网络搜索软件或网络登录等方式,将Internet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章