python爬虫怎样爬取百度百科的一个相册图片

ZJ729286823 2016-07-28 04:51:17

最近在自学爬虫，这是我要爬取图片的页面地址http://baike.baidu.com/view/367981.htm
我要把网页下部分两个词条相册中的图片都爬取出来保存在本地文件夹。
下面是给出的一份代码，怎么修改啊。通过查看网页代码写正则表达式出错。我要爬的是相册音乐台的照片

import urllib

import urllib2

import re



def getHtml(url):

    page = urllib2.urlopen(url)

    html = page.read()

    return html



def getImg(html):

    # http://imgsrc.baidu.com/forum/w%3D580/sign=92c3414f32292df597c3ac1d8c315ce2/5b8f95eef01f3a292bd851ae9125bc315d607c9d.

    # http://d.hiphotos.baidu.com/baike/s%3D235/sign=b3e17b2497cad1c8d4bbfb244a3f67c4/962bd40735fae6cdf826c06a0db30f2442a70f2e.jpg

    #reg = r'src="(.+?\.jpg)" '

    #reg = r'http://file.nju.gov.cn/manage/upgl/upfiles/\d+\.jpg'

    reg = r'http://+.+\.hiphotos.baidu.com/baike/'

    imgre = re.compile(reg)

    imglist = re.findall(imgre,html)



    x = 0

    for imgurl in imglist:

        urllib.urlretrieve(imgurl,'D:\E\%s.jpg' % x)

        x=x+1

html = getHtml('http://baike.baidu.com/view/367981.htm')

getImg(html)

...全文

454 8 打赏收藏转发到动态举报

写回复

8 条回复

切换为时间正序

请发表友善的回复…

发表回复

ZJ729286823 2016-08-01

打赏
举报

回复

api的接口链接好长啊按照http://blog.csdn.net/lenovo403/article/details/50721609的方法怎样得到输出的中山陵音乐台景色图片

ZJ729286823 2016-08-01

打赏
举报

回复

http://blog.csdn.net/lenovo403/article/details/50721609 这位博出提出的方法可是我搜索的关键字“中山陵雨花台” 查看chrome怎么没有api接口出来啊

ZJ729286823 2016-07-29

打赏
举报

回复

它是由这个页面进去新的页面，拿这行代码里面的url不用修改吗？ html = getHtml('http://baike.baidu.com/view/367981.htm') 在当前页面抓取相册中的抓取不到吧

shaode01 2016-07-29

打赏
举报

回复

这个相册点击会到一个新的页面，地址在href后面，你需要得到那个页面的源代码然后匹配图片

ZJ729286823 2016-07-29

打赏
举报

回复

网页上是这两个相册，相册里面的图片是怎么抓取的啊，其余的我都可以弄下来，相册需要点开出现一张一张的图片。
刚刚学习，希望有人能指点一下。
http://baike.baidu.com/view/367981.htm 这是网站地址
这个相册的正则表达式书写不会

shaode01 2016-07-29

打赏
举报

回复

题主不妨把网页代码复制到可以正则查找的文本编辑器里面比如notepad++，然后写好正则表达式

shaode01 2016-07-29

打赏
举报

回复

抓包分析百度搜索提交的请求，是post还是get，然后组装成一样的

ZJ729286823 2016-07-29

打赏
举报

回复

搞定了谢谢还有个想请教一下我百度图片百度出来的结果怎样实现爬虫爬取这些图片

python爬取百度百科词条

以前段时间《青春有你2》为例，我们使用Python来爬取百度百科中《青春有你2》所有参赛选手的信息。什么是爬虫？为了获取大量的互联网数据，我们自然想到使用爬虫代替我们完成这些重复的工作。爬虫的过程，就是模仿浏览器的行为，往目标站点发送请求，接收服务器的响应数据，提取需要的信息，并进行保存的过程。Python为爬虫的实现提供了工具:requests模块、BeautifulSoup库接下来我们就会使用...

我自认为这是自己写过博客中一篇比较优秀的文章，同时也是在深夜凌晨2点满怀着激情和愉悦之心完成的。首先通过这篇文章，你能学到以下几点： 1.可以了解Python简单爬取图片的一些思路和方法 2.学习Selenium自动、测试分析动态网页和正则表达式的区别和共同点 3.了解作者最近学习得比较多的搜索引擎和知识图谱的整体框架 4.同时作者最近找工作，里面的一些杂谈和建议也许对即将成为应届生的你有所帮助 5.当然，最重要的是你也可以尝试使用这个爬虫去爬取自己比较喜欢的图片总之，希望文章对你有所帮助。如果作者又不足

实践作业二：爬虫任务描述本次实践使用Python来爬取百度百科中《青春有你2》所有参赛选手的信息。数据获取：https://baike.baidu.com/item/青春有你第二季爬虫程序: 模拟浏览器 --> 往目标站点发送请求 --> 接收响应数据 --> 提取有用的数据 --> 保存到本地/数据库。爬虫的过程：发送请求（requests模块）获取响应数据（服务器返回）解析并提取数据（BeautifulSoup查找或者re正则）保存数据 1. 插件 requ

斗图啦表情包+B站壁纸娘相册+某博客的文章头图

37,743

社区成员

34,213

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章