python爬虫怎样爬取百度百科的一个相册图片

ZJ729286823 2016-07-28 04:51:17
最近在自学爬虫,这是我要爬取图片的页面地址http://baike.baidu.com/view/367981.htm
我要把网页下部分两个词条相册中的图片都爬取出来保存在本地文件夹。
下面是给出的一份代码,怎么修改啊。通过查看网页代码写正则表达式出错。我要爬的是相册音乐台的照片

import urllib
import urllib2
import re

def getHtml(url):
page = urllib2.urlopen(url)
html = page.read()
return html

def getImg(html):
# http://imgsrc.baidu.com/forum/w%3D580/sign=92c3414f32292df597c3ac1d8c315ce2/5b8f95eef01f3a292bd851ae9125bc315d607c9d.
# http://d.hiphotos.baidu.com/baike/s%3D235/sign=b3e17b2497cad1c8d4bbfb244a3f67c4/962bd40735fae6cdf826c06a0db30f2442a70f2e.jpg
#reg = r'src="(.+?\.jpg)" '
#reg = r'http://file.nju.gov.cn/manage/upgl/upfiles/\d+\.jpg'
reg = r'http://+.+\.hiphotos.baidu.com/baike/'
imgre = re.compile(reg)
imglist = re.findall(imgre,html)

x = 0
for imgurl in imglist:
urllib.urlretrieve(imgurl,'D:\E\%s.jpg' % x)
x=x+1
html = getHtml('http://baike.baidu.com/view/367981.htm')
getImg(html)

...全文
406 8 打赏 收藏 转发到动态 举报
写回复
用AI写文章
8 条回复
切换为时间正序
请发表友善的回复…
发表回复
ZJ729286823 2016-08-01
  • 打赏
  • 举报
回复
api的接口链接好长啊 按照http://blog.csdn.net/lenovo403/article/details/50721609的方法 怎样得到输出的中山陵音乐台景色图片
ZJ729286823 2016-08-01
  • 打赏
  • 举报
回复
http://blog.csdn.net/lenovo403/article/details/50721609 这位博出提出的方法 可是我搜索的关键字“中山陵雨花台” 查看chrome怎么没有api接口出来啊
ZJ729286823 2016-07-29
  • 打赏
  • 举报
回复
它是由这个页面进去新的页面,拿这行代码里面的url不用修改吗? html = getHtml('http://baike.baidu.com/view/367981.htm') 在当前页面抓取相册中的抓取不到吧
shaode01 2016-07-29
  • 打赏
  • 举报
回复
这个相册点击会到一个新的页面,地址在href后面,你需要得到那个页面的源代码然后匹配图片
ZJ729286823 2016-07-29
  • 打赏
  • 举报
回复


网页上是这两个相册,相册里面的图片是怎么抓取的啊,其余的我都可以弄下来,相册需要点开出现一张一张的图片。
刚刚学习,希望有人能指点一下。
http://baike.baidu.com/view/367981.htm 这是网站地址
这个相册的正则表达式书写不会
shaode01 2016-07-29
  • 打赏
  • 举报
回复
题主不妨把网页代码复制到可以正则查找的文本编辑器里面比如notepad++,然后写好正则表达式
shaode01 2016-07-29
  • 打赏
  • 举报
回复
抓包分析百度搜索提交的请求,是post还是get,然后组装成一样的
ZJ729286823 2016-07-29
  • 打赏
  • 举报
回复
搞定了 谢谢 还有个想请教一下 我百度图片百度出来的结果怎样实现爬虫爬取这些图片

37,719

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • IT.BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧