我在做些从网页中采集数据的程序。例如股票数据吧,例如这个网页:
http://stock.jrj.com.cn/share,600036.shtml
可以看到页面一部分是这样的:
我想把这些部分数据用程序采集下来:
昨收:18.36元 最高:18.86元 涨停:20.20元
今开:18.60元 最低:18.41元 跌停:16.52元
数据采集的思路很容易,用CHttpSession取回它的html,再分析提取就可以了。我希望取回的html是这样:
......
<TD>昨收:18.36元</TD>
<TD>最高:18.86元</TD>
<TD>涨停:20.20元</TD>
......
这样我就好做分析和提取了。但我检查了上述页面,它的html居然是这样的:
......
<TD>昨收:<EM id=quote_lcp>--</EM></TD>
<TD>最高:<EM id=quote_hp>--</EM></TD>
<TD>涨停:<EM id=quote_hhp>--</EM></TD>
......
没有具体数据在html里面。我就没法从这个html提取我要的数据了。
它的数据好像是调用不知道什么地方然后实时从网上取得的。因为如果我断开网络,打开这个html文件,它就是这样的情况:
所有的数据都变“--”了。如果连上网络就正常了。我很想搞清楚这个网页到底是如何取得数据的?是调了哪个js函数吗?怎么知道是哪个?貌似跟<EM>标签有关?因为如果我去掉这些<EM>标签之后,不管有没有联网,浏览器显示也是上图这样了。但<EM>标签我百度了下,不是这是强调用只是影响字体的吗?怎么会跟数据有关系呢?我不太懂html和css,请大家指教,告诉我这个网页的实时数据是怎么取到的?或者直接告诉我这个网页的数据怎么提取?
非常感谢!