这个网页是如何取得实际数据的?

wrongagain98 2015-04-29 09:02:00
我在做些从网页中采集数据的程序。例如股票数据吧,例如这个网页:
http://stock.jrj.com.cn/share,600036.shtml
可以看到页面一部分是这样的:


我想把这些部分数据用程序采集下来:
昨收:18.36元 最高:18.86元 涨停:20.20元
今开:18.60元 最低:18.41元 跌停:16.52元

数据采集的思路很容易,取回它的html,再分析提取就可以了。我希望取回的html是这样:
......
<TD>昨收:18.36元</TD>
<TD>最高:18.86元</TD>
<TD>涨停:20.20元</TD>
......
这样我就好做分析和提取了。但我检查了上述页面,它的html居然是这样的:
......
<TD>昨收:<EM id=quote_lcp>--</EM></TD>
<TD>最高:<EM id=quote_hp>--</EM></TD>
<TD>涨停:<EM id=quote_hhp>--</EM></TD>
......
没有具体数据在html里面。我就没法从这个html提取我要的数据了。
它的数据好像是调用不知道什么地方然后实时从网上取得的。因为如果我断开网络,打开这个html文件,它就是这样的情况:

所有的数据都变“--”了。如果连上网络就正常了。我很想搞清楚这个网页到底是如何取得数据的?是调了哪个js函数吗?怎么知道是哪个?貌似跟<EM>标签有关?因为如果我去掉这些<EM>标签之后,不管有没有联网,浏览器显示也是上图这样了。但<EM>标签我百度了下,不是这是强调用只是影响字体的吗?怎么会跟数据有关系呢?我不太懂html和css,请大家指教,告诉我这个网页的实时数据是怎么取到的?非常感谢!
...全文
127 点赞 收藏 7
写回复
7 条回复
slwsss 2015年04月29日
分析脚本 浏览器 f12 Network标签页 看记录
回复 点赞
天际的海浪 2015年04月29日
http://qmx.jrjimg.cn/stocks/pubdata/hotHqData.js
回复 点赞
wrongagain98 2015年04月29日
引用 4 楼 slwsss 的回复:
这是ajax加载过来的,你要找到数据源(那些数据的真正url)
我就是问如何找这些真正的数据源?
回复 点赞
slwsss 2015年04月29日
这是ajax加载过来的,你要找到数据源(那些数据的真正url)
回复 点赞
wrongagain98 2015年04月29日
引用 1 楼 slwsss 的回复:
http://www.cnblogs.com/me115/archive/2011/05/09/2040826.html http://hq.sinajs.cn/list=sh600036
这个文章我也看过,但我要提取的不只是股票信息。我只是举个例子。我就是想有个办法提取像1楼那样网页的数据
回复 点赞
天际的海浪 2015年04月29日
这是用ajax技术做的 去看看ajax方面的资料你就明白了
回复 点赞
slwsss 2015年04月29日
回复 点赞
发动态
发帖子
CSS
创建于2007-09-28

3.1w+

社区成员

6.0w+

社区内容

层叠样式表(英文全称:Cascading Style Sheets)是一种用来表现HTML(标准通用标记语言的一个应用)或XML(标准通用标记语言的一个子集)等文件样式的计算机语言。
社区公告
暂无公告