python 抓取动态网页的问题

sunman1982 2009-04-17 11:35:11
hello 大家好, 小弟是python新手, 最近遇到一个问题,查了很多地方不知道怎么解决,
上来请教下大家, 例如下面这个网页:
http://stockhtm.finance.qq.com/hcenter/index.htm#
我想取得上面的股票信息,可是网页是动态的,上面的数据用 urllib 抓不回来,
不知道这种情况该怎么解决呢? 按理说, 数据已经在本地了。
...全文
1187 13 打赏 收藏 转发到动态 举报
写回复
用AI写文章
13 条回复
切换为时间正序
请发表友善的回复…
发表回复
sharp_future 2009-06-26
  • 打赏
  • 举报
回复
用正则表达式吧
xueshi 2009-06-22
  • 打赏
  • 举报
回复
用python的cPAMIE模块写

它获取网页的源代码是 动态生成后的代码

mrshelly 2009-06-20
  • 打赏
  • 举报
回复
http://stockqt.gtimg.cn/cgi-bin/hcenter/q?v=1&id=0&t=003&r=3791554520

http://stockqt.gtimg.cn/cgi-bin/hcenter/q?v=1&id=1&r=4866310788
梦无痕123 2009-06-19
  • 打赏
  • 举报
回复
gz
kingsonchen 2009-04-22
  • 打赏
  • 举报
回复
抓下来后还需要用正则把数据分离出来的。
到http://www.lamp9.cn/python.html 找下,也许有你想要东西。
sharp_future 2009-04-21
  • 打赏
  • 举报
回复
楼主需要在python上加点东西,做起来就简单了。
jquery在做html内容提取,分析的时候很方便。而python做类似的工作就麻烦一点,原来我都是用正则表达式或者HtmlParser的。
两者用着都不是太爽,今天发现了一个好东西 pyquery ,一个类似jquery的python库。
摘抄一段使用说明

>>> from pyquery import PyQuery as pq
>>> from lxml import etree
>>> d = pq("<html></html>")
>>> d = pq(etree.fromstring("<html></html>"))
>>> d = pq(url='http://google.com/')
>>> d = pq(filename=path_to_html_file)

Now d is like the $ in jquery:

>>> d("#hello")
[<p#hello.hello>]
>>> p = d("#hello")
>>> p.html()
'Hello world !'
>>> p.html("you know <a href='http://python.org/'>Python</a> rocks")
[<p#hello.hello>]
>>> p.html()
'you know <a href="http://python.org/">Python</a> rocks'
>>> p.text()
'you know Python rocks'

简单吧,安装也很简单
下载
http://pypi.python.org/packages/source/p/pyquery/pyquery-0.3.tar.gz
解压缩
python setup.py install
就可以了,可能要安装ezsetup
现在的版本是0.3,还有一些jquery的东西没有实现,比如:radio,:password,以及一些ajax的功能,但是已经够用了,强烈推荐。
赶紧试试吧。

wwwljc 2009-04-20
  • 打赏
  • 举报
回复
我也用过python抓取动态网页内容的程序。

实现起来还是很简单的。

主要是通过urllib.urlopen()函数来实现。

你可以试试这种方式
chg_lele 2009-04-20
  • 打赏
  • 举报
回复
来学习的!
tony_413 2009-04-20
  • 打赏
  • 举报
回复
mark 接分
duzif 2009-04-18
  • 打赏
  • 举报
回复
DIVE INTO PYTHON中有一章专门讲解对html的处理,相信对你会有帮助

首先你要分析网页中的股票信息放在什么标签中
然后重载unknown_endtag(self, tag),unknown_starttag(self, tag, attrs)等方法提取数据
lixq2000 2009-04-18
  • 打赏
  • 举报
回复
路过学习
zhanglongnihao 2009-04-18
  • 打赏
  • 举报
回复
利用HTMLParser。 现用urlopen打开,在利用自己编写的tag解析函数来解析某一固定块

我也不知道这个方法可不可行,以前在某一本书上看到利用这种方法获得网页的天气信息。
king6o60 2009-04-17
  • 打赏
  • 举报
回复
看它js脚本,分析需要哪些参数,将该js架设在自己的服务器上,利用分析所得的参数来获取。
总的来说是比较麻烦的事情。

37,741

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • WuKongSecurity@BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧