社区
C#
帖子详情
抓取网页动态内容
SHIMMER8711
2011-01-06 09:14:28
需要从这个网址:http://www.hshfy.sh.cn/shfy/gweb/ktgg_search.jsp 抓取数据。
抓取的是当天所有的开庭公告信息,并把这些数据存储到数据库中。
我看了一下这个网页的源码,它有分页,分页参数是hidden变量,还有一个日期参数。
但这些参数都是直接提交,然后处理的。
求解决方案。。。
怎么获得当天的所有法院开庭公告信息,谢谢
...全文
346
14
打赏
收藏
抓取网页动态内容
需要从这个网址:http://www.hshfy.sh.cn/shfy/gweb/ktgg_search.jsp 抓取数据。 抓取的是当天所有的开庭公告信息,并把这些数据存储到数据库中。 我看了一下这个网页的源码,它有分页,分页参数是hidden变量,还有一个日期参数。 但这些参数都是直接提交,然后处理的。 求解决方案。。。 怎么获得当天的所有法院开庭公告信息,谢谢
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
14 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
f852013
2011-07-30
打赏
举报
回复
怎么解决的呀?????????????????
aqzts
2011-07-03
打赏
举报
回复
楼主是怎么解决的,请指导~
SHIMMER8711
2011-01-10
打赏
举报
回复
问题已解决,我用的是HttpWebRequest。
谢谢大家,,结贴
Fuller
2011-01-07
打赏
举报
回复
这个网页的翻页部分用了一小段Javascript代码,如果要编写抓取器,一种比较直接的方法是将Javascript引擎嵌入进去,这样,抓取器对AJAX网页是透明的,不用关心是否是AJAX。例如,免费软件MetaSeeker就是这样做的,调用XPCOM组件,实现了一个完整的浏览器。可以到gooseeker网站上下一个,大部分代码可以阅读。
同样使用COM也可以做一个仿IE的抓取器,但是微软技术很多不开源,控制起来不一定那么灵活。
如果只需要使用这些数据,可以用MetaSeeker抓取这个网站即可,抓取规则已经定义好了,名字是demo_court_shanghai
dexter1986
2011-01-06
打赏
举报
回复
那只能一页一页读取 再合并了,
SHIMMER8711
2011-01-06
打赏
举报
回复
你们没明白我的意思,获取整个网页内容是可以的,但是这个网页内容是不全的,它存在分页,存在条件选择。
比如说我发的那个网址,它只能获得当前日期内第一页的数据,那第二页,,第三页,,,第N页的数据呢?怎么获得?
这个才是关键
dexter1986
2011-01-06
打赏
举报
回复
[Quote=引用 2 楼 qq7300 的回复:]
用WebRequest对其网址发送请求,你会收到一个返回的WebResponse,里面包含了整个网页内容。你再从中把内容截取出来,轻松解决。你可以查一下WebRequest的相关资料。
[/Quote]
正解
wanghao2979
2011-01-06
打赏
举报
回复
Winista.HtmlParser.dll 这个学习了。。。
SHIMMER8711
2011-01-06
打赏
举报
回复
恩,这个网页我是获得的,但是这个网页时分页的。。。
客户的要求是每天自动获得当天的法院公告所有信息,可是这个网页的公告内容是动态的,而且还分页,它的默认数据是一个月的所有数据。。
你们明白我的意思吗?
我现在用HttpWebRequest是可以获得当前网页的数据,可是它只有一页啊
xiaohuaduo
2011-01-06
打赏
举报
回复
搜索一下Winista.HtmlParser.dll
这个用来分析html源码的,可以方便你获取数数据
再加上HttpWebRequest和HttpWebResponse就差不多了
QQ7300
2011-01-06
打赏
举报
回复
用WebRequest对其网址发送请求,你会收到一个返回的WebResponse,里面包含了整个网页内容。你再从中把内容截取出来,轻松解决。你可以查一下WebRequest的相关资料。
bdmh
2011-01-06
打赏
举报
回复
自己解析吧,解析html代码,建议用正则取
wuyq11
2011-01-06
打赏
举报
回复
分页抓取数据
http://topic.csdn.net/u/20100429/15/bb3de72e-50bf-4301-b6cb-57d927bd96cd.html
wanghao2979
2011-01-06
打赏
举报
回复
WebRequest 可以处理 coockie吗?? 表示关注
模拟浏览器
抓取
网页
内容
(审查元素中
内容
)
利用HtmlAgilityPack可以轻松获取
网页
内容
,但是无法获取
动态
加载的
内容
, 通过webBrowser模拟浏览器,获取
网页
内容
。 大致思路: 1、webBrowser加载
网页
(如有Ajax
动态
加载分页的网站,需要配合页面动作,直到页面...
网页
动态
抓取
动态
抓取
网页
内容
,生成word文件,包含具体demo和所需jar包
PHP获取微信公众号
网页
授权和用户信息(code、access_token、openid等)
PHP获取微信公众号
网页
授权和用户信息(code、access_token、openid等) 01-PHP获取微信公众号
网页
授权和用户信息演示 02-官方文档概要和需要提前准备的 03-PHP获取
网页
返回
内容
04-PHP获取微信用户
网页
授权同意 05-...
java根据json规则
抓取
(新浪新闻、百度新闻、微博
动态
)的
网页
内容
源码
java根据自定义json格式规则
抓取
新浪新闻、百度新闻、微博
动态
内容
的网络爬虫源码 例子中的源码功能: 导入Hbase的jar包即可直接返回Put对象数据、可以返回map对象数据、支持自定义json格式
抓取
指定
网页
的
内容
、
抓取
...
Java爬虫Jsoup+httpclient获取
动态
生成的数据
主要介绍了Java爬虫Jsoup+httpclient获取
动态
生成的数据的相关资料,需要的朋友可以参考下
C#
110,536
社区成员
642,578
社区内容
发帖
与我相关
我的任务
C#
.NET技术 C#
复制链接
扫一扫
分享
社区描述
.NET技术 C#
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
让您成为最强悍的C#开发者
试试用AI创作助手写篇文章吧
+ 用AI写文章