采集网页:第二页如何采集呀?

ghao0 2015-10-29 03:47:42
例如如下网页:
http://www.sse.com.cn/assortment/stock/list/name/#
第二页如何采集呀?
同理:[终止上市公司]如何采集?
当然,要程序采集,别说手动的复制,粘贴
...全文
251 11 打赏 收藏 转发到动态 举报
写回复
用AI写文章
11 条回复
切换为时间正序
请发表友善的回复…
发表回复
本拉灯 2015-10-30
  • 打赏
  • 举报
回复
引用 10 楼 ghao0 的回复:
[quote=引用 7 楼 wyd1520 的回复:] http://query.sse.com.cn/commonQuery.do?jsonCallBack=jsonpCallback90529&isPagination=true&sqlId=COMMON_SSE_ZQPZ_GPLB_MCJS_SSAG_L&pageHelp.pageSize=50&pageHelp.pageNo=2&pageHelp.beginPage=1&pageHelp.endPage=5&_=1446111385123 pageHelp.pageNo=2 当前页 下面这两个用于一次性加载1-5页的数据,只要在这5页之内就不会再请求了。你可以更改这两个数值就可以了如1 - 50 这样你根本就不用翻页了, &pageHelp.beginPage=1 这个是数据开始页 &pageHelp.endPage=5 数据结束页 返回的JSON自己处理就可以了,这是很简单的采集了,如果这也不会,那玩个蛋蛋了,还写怎么采集。。
引用 7 楼 wyd1520 的回复:
http://query.sse.com.cn/commonQuery.do?jsonCallBack=jsonpCallback90529&isPagination=true&sqlId=COMMON_SSE_ZQPZ_GPLB_MCJS_SSAG_L&pageHelp.pageSize=50&pageHelp.pageNo=2&pageHelp.beginPage=1&pageHelp.endPage=5&_=1446111385123 pageHelp.pageNo=2 当前页 下面这两个用于一次性加载1-5页的数据,只要在这5页之内就不会再请求了。你可以更改这两个数值就可以了如1 - 50 这样你根本就不用翻页了, &pageHelp.beginPage=1 这个是数据开始页 &pageHelp.endPage=5 数据结束页 返回的JSON自己处理就可以了,这是很简单的采集了,如果这也不会,那玩个蛋蛋了,还写怎么采集。。
出现错误! 远程服务器返回错误: (403) 已禁止。 ---- 相关js脚本,看不懂! var ssgsdm = new Container(true,"dateList","dateList_container"); params = {'isPagination':true,'sqlId':sqlId1,'pageHelp.pageSize':50}; $("#dateList").empty(); ssgsdm.init(headersA); ssgsdm.getDataByAjax(url, params, null); [/quote] 他这个要把相应Cookies或Referer URL一起传过去。
ghao0 2015-10-30
  • 打赏
  • 举报
回复
引用 7 楼 wyd1520 的回复:
http://query.sse.com.cn/commonQuery.do?jsonCallBack=jsonpCallback90529&isPagination=true&sqlId=COMMON_SSE_ZQPZ_GPLB_MCJS_SSAG_L&pageHelp.pageSize=50&pageHelp.pageNo=2&pageHelp.beginPage=1&pageHelp.endPage=5&_=1446111385123 pageHelp.pageNo=2 当前页 下面这两个用于一次性加载1-5页的数据,只要在这5页之内就不会再请求了。你可以更改这两个数值就可以了如1 - 50 这样你根本就不用翻页了, &pageHelp.beginPage=1 这个是数据开始页 &pageHelp.endPage=5 数据结束页 返回的JSON自己处理就可以了,这是很简单的采集了,如果这也不会,那玩个蛋蛋了,还写怎么采集。。
引用 7 楼 wyd1520 的回复:
http://query.sse.com.cn/commonQuery.do?jsonCallBack=jsonpCallback90529&isPagination=true&sqlId=COMMON_SSE_ZQPZ_GPLB_MCJS_SSAG_L&pageHelp.pageSize=50&pageHelp.pageNo=2&pageHelp.beginPage=1&pageHelp.endPage=5&_=1446111385123 pageHelp.pageNo=2 当前页 下面这两个用于一次性加载1-5页的数据,只要在这5页之内就不会再请求了。你可以更改这两个数值就可以了如1 - 50 这样你根本就不用翻页了, &pageHelp.beginPage=1 这个是数据开始页 &pageHelp.endPage=5 数据结束页 返回的JSON自己处理就可以了,这是很简单的采集了,如果这也不会,那玩个蛋蛋了,还写怎么采集。。
出现错误! 远程服务器返回错误: (403) 已禁止。 ---- 相关js脚本,看不懂! var ssgsdm = new Container(true,"dateList","dateList_container"); params = {'isPagination':true,'sqlId':sqlId1,'pageHelp.pageSize':50}; $("#dateList").empty(); ssgsdm.init(headersA); ssgsdm.getDataByAjax(url, params, null);
ghao0 2015-10-29
  • 打赏
  • 举报
回复
引用 7 楼 wyd1520 的回复:
http://query.sse.com.cn/commonQuery.do?jsonCallBack=jsonpCallback90529&isPagination=true&sqlId=COMMON_SSE_ZQPZ_GPLB_MCJS_SSAG_L&pageHelp.pageSize=50&pageHelp.pageNo=2&pageHelp.beginPage=1&pageHelp.endPage=5&_=1446111385123 pageHelp.pageNo=2 当前页 下面这两个用于一次性加载1-5页的数据,只要在这5页之内就不会再请求了。你可以更改这两个数值就可以了如1 - 50 这样你根本就不用翻页了, &pageHelp.beginPage=1 这个是数据开始页 &pageHelp.endPage=5 数据结束页 返回的JSON自己处理就可以了,这是很简单的采集了,如果这也不会,那玩个蛋蛋了,还写怎么采集。。
你说的好像有点靠谱. 我就是一个采集数据的初学者呀,我自己先查查JSON如何处理吧
ajianchina 2015-10-29
  • 打赏
  • 举报
回复
我看你要采集的也不多,也就是针对这一个网站。 你用WebBrowser控件,在加载完成后的事件中通过WebBrowser.Document.body.innerText可以取到该页通过js生成的html,你可以采集该页,然后按html里的翻页的1、2、3..页码中js的翻页函数进行模拟点击进行翻页,循环这个过程一直到最后一页,这样就可以了。
本拉灯 2015-10-29
  • 打赏
  • 举报
回复
http://query.sse.com.cn/commonQuery.do?jsonCallBack=jsonpCallback90529&isPagination=true&sqlId=COMMON_SSE_ZQPZ_GPLB_MCJS_SSAG_L&pageHelp.pageSize=50&pageHelp.pageNo=2&pageHelp.beginPage=1&pageHelp.endPage=5&_=1446111385123 pageHelp.pageNo=2 当前页 下面这两个用于一次性加载1-5页的数据,只要在这5页之内就不会再请求了。你可以更改这两个数值就可以了如1 - 50 这样你根本就不用翻页了, &pageHelp.beginPage=1 这个是数据开始页 &pageHelp.endPage=5 数据结束页 返回的JSON自己处理就可以了,这是很简单的采集了,如果这也不会,那玩个蛋蛋了,还写怎么采集。。
ghao0 2015-10-29
  • 打赏
  • 举报
回复
引用 5 楼 ajianchina 的回复:
这一页的给个你 http://www.sse.com.cn/js/common/ssesuggestdataAll.js;pv8798bb42c9cb6117 不要翻页 后面的字符串感觉可能明天就会不一样 终止上市公司的查找方式类似,自己研究研究吧,我只是来蹭点分而已。
js代码,难呀. http://query.sse.com.cn/commonQuery.do?jsonCallBack=jsonpCallback39362&isPagination=true&sqlId=COMMON_SSE_ZQPZ_GPLB_MCJS_SSAG_L&pageHelp.pageSize=50&_=1446108829127 就是知道这,也难呀!
ajianchina 2015-10-29
  • 打赏
  • 举报
回复
这一页的给个你 http://www.sse.com.cn/js/common/ssesuggestdataAll.js;pv8798bb42c9cb6117 不要翻页 后面的字符串感觉可能明天就会不一样 终止上市公司的查找方式类似,自己研究研究吧,我只是来蹭点分而已。
ghao0 2015-10-29
  • 打赏
  • 举报
回复
引用 1 楼 u010341022 的回复:
首先获取到一共多少页?这个比较容易 其次,获取下一页按钮, 然后,做循环获取页面内容,每循环一次,执行下一页按钮
引用 3 楼 u010341022 的回复:
网上可以找到这种方法的,获取网页上一个按钮的事件,然后 你在调用这个事件就行了
你说的好像都是废话呀!
u010341022 2015-10-29
  • 打赏
  • 举报
回复
网上可以找到这种方法的,获取网页上一个按钮的事件,然后 你在调用这个事件就行了
ghao0 2015-10-29
  • 打赏
  • 举报
回复
引用 1 楼 u010341022 的回复:
首先获取到一共多少页?这个比较容易 其次,获取下一页按钮, 然后,做循环获取页面内容,每循环一次,执行下一页按钮
获取首页内容不需要问了.但是第二页呢,能具体的说吗? "执行下一页按钮" 获取第二页页面内容 有具体网页,如何进行呢.这个网页可是有难度的. 能给出具体代码吗?
u010341022 2015-10-29
  • 打赏
  • 举报
回复
首先获取到一共多少页?这个比较容易 其次,获取下一页按钮, 然后,做循环获取页面内容,每循环一次,执行下一页按钮

62,047

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术交流专区
javascript云原生 企业社区
社区管理员
  • ASP.NET
  • .Net开发者社区
  • R小R
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

.NET 社区是一个围绕开源 .NET 的开放、热情、创新、包容的技术社区。社区致力于为广大 .NET 爱好者提供一个良好的知识共享、协同互助的 .NET 技术交流环境。我们尊重不同意见,支持健康理性的辩论和互动,反对歧视和攻击。

希望和大家一起共同营造一个活跃、友好的社区氛围。

试试用AI创作助手写篇文章吧