python自动抓取网页图片问题

oceanpaw 2012-11-29 05:18:08
有时候会经常浏览某个网站的图片,一个一个点击下载太慢了,于是想用python写个自动脚本下载,使用urllib,urllib2,sgmllib模块,分析网页内容使用
opener = urllib2.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/5.0')]
page = opener.open(self.url).read()
可以通过sgmllib.SGMLParser分析出超链接,然后使用正则表达式获取图片的地址,但问题是,比如一个网页上命名有一个图片,但是在网页源码中却看不到这个图片的链接,使用chrome的审查元素可以查看到,但是查看网页源码里面却没有,求大神指点一二。
...全文
344 7 打赏 收藏 转发到动态 举报
写回复
用AI写文章
7 条回复
切换为时间正序
请发表友善的回复…
发表回复
qq120848369 2012-12-02
  • 打赏
  • 举报
回复
如果是js设置的地址,那么可能在js代码里找到真相,当然js可能会计算生成地址,那你得读js代码,看怎么生成的,需要页面里的什么数据,你就去正则匹配出来再计算。如果是ajax拉的数据,那你读js代码找到相关代码,直接ajax去请求也可以。 web前端是没有安全性可谈的,只能混淆不能保密,所以任何浏览器可以展现的效果你都可以编程实现。
tkminigame 2012-12-01
  • 打赏
  • 举报
回复
引用 2 楼 alienpaw 的回复:
引用 1 楼 tkminigame 的回复:估计是用js生成的代码,所以源码中没有。 那知道怎么提取出来吗?python有相关的模块实现吗?
以前写了个下图片的,但不是网页上抓,而是直接从图片Url入手。用firefox,打开控制台,再开网页,你就知道图片的实际下载地址了,如果url是有规律的,就自己拼字符串了。
ImN1 2012-11-30
  • 打赏
  • 举报
回复
旁观,也遇到类似问题,其实还不会写py,是预想会有这个问题 除了用V8 for py还有其他解决方案不? V8不支持3.3,2.7我又不会,很郁闷……
黄哥Python培训 2012-11-30
  • 打赏
  • 举报
回复
请提供网站地址,帮你分析一下。这个每一个网站都不一样。有的用ajax或加密了。
Gloveing 2012-11-29
  • 打赏
  • 举报
回复
网页源码中却看不到这个图片的链接,使用chrome的审查元素可以查看到 ========================================== css文件里面的?
oceanpaw 2012-11-29
  • 打赏
  • 举报
回复
引用 1 楼 tkminigame 的回复:
估计是用js生成的代码,所以源码中没有。
那知道怎么提取出来吗?python有相关的模块实现吗?
tkminigame 2012-11-29
  • 打赏
  • 举报
回复
估计是用js生成的代码,所以源码中没有。

37,719

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • IT.BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧