Python爬虫抓取下来的内容跟网页的源码不一样?

miangmiang咩 2015-07-19 09:44:22
最近在学习爬虫,想把http://image.baidu.com/activity/starfans/2220260263?&albumtype=0上面的刘亦菲的图片全抓取下来,但是使用python抓取下来的网页内容跟网页的源码不一样,以致于使用beautiful soup或者正则表达式都无法找到匹配的内容,代码如下所示:

import requests
import bs4

url = "http://image.baidu.com/activity/starfans/2220260263?&albumtype=0"
r = requests.get(url)
if r.status_code == 200:
re_file = r.text
soup = bs4.BeautifulSoup(re_file)
#print soup.prettify()
print soup.find(name="div", attrs={"class":"img-container"}) #找到"<div class=img-container"这个模块,由于无法找到该模#块,所以还没有写匹配项

else:
print("error 404!...")


其使用urllib2的urlopen()函数也是一样的结果



...全文
5542 3 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
qq_28262591 2018-06-13
  • 打赏
  • 举报
回复
可以用第三方库试试,像selenium
胖胖的飞象 2018-02-23
  • 打赏
  • 举报
回复
同楼上建议先看下是静态加载还是动态加载,解析是否解析正确,建议可以学下xpath比bs4好用
miangmiang咩 2015-09-18
  • 打赏
  • 举报
回复
因为是这是动态网页,里面加载了js,所以源码跟审查元素的内容不一样

2,760

社区成员

发帖
与我相关
我的任务
社区描述
搜索引擎的服务器通过网络搜索软件或网络登录等方式,将Internet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库。
社区管理员
  • 搜索引擎技术社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧