python自动抓取网页图片问题

oceanpaw 2012-11-29 05:18:08

有时候会经常浏览某个网站的图片，一个一个点击下载太慢了，于是想用python写个自动脚本下载，使用urllib,urllib2,sgmllib模块，分析网页内容使用
opener = urllib2.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/5.0')]
page = opener.open(self.url).read()
可以通过sgmllib.SGMLParser分析出超链接，然后使用正则表达式获取图片的地址，但问题是，比如一个网页上命名有一个图片，但是在网页源码中却看不到这个图片的链接，使用chrome的审查元素可以查看到，但是查看网页源码里面却没有，求大神指点一二。

...全文

417 7 打赏收藏转发到动态举报

写回复

7 条回复

切换为时间正序

请发表友善的回复…

发表回复

qq120848369 2012-12-02

打赏
举报

回复

如果是js设置的地址，那么可能在js代码里找到真相，当然js可能会计算生成地址，那你得读js代码，看怎么生成的，需要页面里的什么数据，你就去正则匹配出来再计算。如果是ajax拉的数据，那你读js代码找到相关代码，直接ajax去请求也可以。 web前端是没有安全性可谈的，只能混淆不能保密，所以任何浏览器可以展现的效果你都可以编程实现。

tkminigame 2012-12-01

打赏
举报

回复

引用 2 楼 alienpaw 的回复:

引用 1 楼 tkminigame 的回复:估计是用js生成的代码，所以源码中没有。那知道怎么提取出来吗？python有相关的模块实现吗？

以前写了个下图片的，但不是网页上抓，而是直接从图片Url入手。用firefox，打开控制台，再开网页，你就知道图片的实际下载地址了，如果url是有规律的，就自己拼字符串了。

ImN1 2012-11-30

打赏
举报

回复

旁观，也遇到类似问题，其实还不会写py，是预想会有这个问题除了用V8 for py还有其他解决方案不？ V8不支持3.3，2.7我又不会，很郁闷……

黄哥Python培训 2012-11-30

打赏
举报

回复

请提供网站地址，帮你分析一下。这个每一个网站都不一样。有的用ajax或加密了。

Gloveing 2012-11-29

打赏
举报

回复

网页源码中却看不到这个图片的链接，使用chrome的审查元素可以查看到 ========================================== css文件里面的？

oceanpaw 2012-11-29

打赏
举报

回复

引用 1 楼 tkminigame 的回复:

估计是用js生成的代码，所以源码中没有。

那知道怎么提取出来吗？python有相关的模块实现吗？

tkminigame 2012-11-29

打赏
举报

回复

估计是用js生成的代码，所以源码中没有。

博主研究自动发帖器，先解决网页抓取、分析和提交问题。使用Python和lxml进行HTML分析，给出相关代码示例。但验证码是一大难题，如百度贴吧用ajax取验证码图片，首次抓取页面不含该图片，后续还需解决诸多问题。

本文介绍了如何利用Python爬虫技术抓取网页中的图片和视频资源，并将其自动保存到本地。文章详细讲解了使用requests、BeautifulSoup和urllib等库进行网页请求、解析和文件保存的方法，涵盖了单张/多张图片抓取、视频下载及命名策略等内容。同时提到了实际应用中可能遇到的反爬虫机制和文件处理问题。

文章介绍了如何使用Python和selenium库编写脚本，处理JavaScript动态渲染的网页图片下载问题，包括半自动版本和全自动版本，通过模拟浏览器行为和处理反爬虫机制实现高效图片抓取。

本文介绍了一个使用Python批量下载网页中的图片的方法。通过解析指定网页的HTML源码并抓取图片链接，实现自动化下载。该脚本能够处理多个页面，并考虑到了网页编码的问题。

作者使用Python自动化抓取网页列表（如nptel.ac.in课程页面），但遇到问题，PDF输出仅包含文本，图片缺失。文章探讨如何修复wkhtmltopdf配置以加载图片，以及优化去除重复数字。

37,738

社区成员

34,211

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章