ASP.NET如何抓取深交所中的各个公司利润表、资产负债表数据

翘楚时代 2012-03-21 02:58:58
ASP.NET如何抓取深交所中的各个公司利润表、资产负债表数据

如题:各个公司每一年、每半年、每个季度都会向深交所提交公司年度报告,此份报告中包含有利润表、资产负债表信息,在网页上可具体查询出某个公司的这两张表单信息,问题:
1、如何提取网页中这两个表单内容到Excel?
2、如果不能抓取网页表单,我可以手动下载PDF格式的年度报告,那么如何提取PDF中的这两张表单数据?

PS:这两张表单都是固定格式,除非国家政策,否则不会变化。求高手~!
...全文
229 7 打赏 收藏 转发到动态 举报
写回复
用AI写文章
7 条回复
切换为时间正序
请发表友善的回复…
发表回复
yyl8781697 2012-03-22
  • 打赏
  • 举报
回复
[Quote=引用 4 楼 yanlele424 的回复:]

比如 :http://stockdata.stock.hexun.com/2009_zcfz_002050.shtml

如何把这张表单采集出来呢?
[/Quote]
不知道LZ有没有用过网页采集或者自己配过规则,
他们是通过对html代码中特定唯一的头尾标签来获取你需要的html代码,并按需求对其内容进行一定的过滤或者替换,
比如LZ给的页面中想要单单获取表格的话:头标签<div id="zaiyaocontent">
尾标签:</div>
<!-- zaiyaocontent end -->
这两个在那个html源码里面都是唯一的,你所需要的表格就在这两个标签的内级里面,
上面仅仅是思路,LZ想要具体实现去网上搜搜采集的源码,很多的
http://www.cnblogs.com/linyechengwei/archive/2008/11/06/1328241.html
http://www.21shipin.com/html/83651.shtml
希望对LZ有帮助
myhope88 2012-03-22
  • 打赏
  • 举报
回复
抓取然后正则提取,但是pdf可能比较不好抓了
翘楚时代 2012-03-22
  • 打赏
  • 举报
回复
比如 :http://stockdata.stock.hexun.com/2009_zcfz_002050.shtml

如何把这张表单采集出来呢?
huayy 2012-03-21
  • 打赏
  • 举报
回复
在老衲看来,抓取HTML远比抓取PDF要简单很多。
即2楼所述~
  • 打赏
  • 举报
回复
1.利用WebClient得到网页内容
2.分析内容,利用正则或者HtmlParse取得匹配想要的数据
3.保存或者导出
SomethingJack 2012-03-21
  • 打赏
  • 举报
回复
又是数据采集哇哦~友情顶`

62,067

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术交流专区
javascript云原生 企业社区
社区管理员
  • ASP.NET
  • .Net开发者社区
  • R小R
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

.NET 社区是一个围绕开源 .NET 的开放、热情、创新、包容的技术社区。社区致力于为广大 .NET 爱好者提供一个良好的知识共享、协同互助的 .NET 技术交流环境。我们尊重不同意见,支持健康理性的辩论和互动,反对歧视和攻击。

希望和大家一起共同营造一个活跃、友好的社区氛围。

试试用AI创作助手写篇文章吧