Python爬虫抓取下来的内容跟网页的源码不一样？

miangmiang咩 2015-07-19 09:44:22

最近在学习爬虫，想把http://image.baidu.com/activity/starfans/2220260263?&albumtype=0上面的刘亦菲的图片全抓取下来，但是使用python抓取下来的网页内容跟网页的源码不一样，以致于使用beautiful soup或者正则表达式都无法找到匹配的内容，代码如下所示：



import requests

import bs4



url = "http://image.baidu.com/activity/starfans/2220260263?&albumtype=0" 

r = requests.get(url)

if r.status_code == 200:

	re_file = r.text

	soup = bs4.BeautifulSoup(re_file)

	#print soup.prettify()

	print soup.find(name="div", attrs={"class":"img-container"}) #找到"<div class=img-container"这个模块，由于无法找到该模#块，所以还没有写匹配项

	

else:

	print("error 404!...")

其使用urllib2的urlopen()函数也是一样的结果

...全文

5622 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

qq_28262591 2018-06-13

打赏
举报

回复

可以用第三方库试试，像selenium

胖胖的飞象 2018-02-23

打赏
举报

回复

同楼上建议先看下是静态加载还是动态加载，解析是否解析正确，建议可以学下xpath比bs4好用

miangmiang咩 2015-09-18

打赏
举报

回复

因为是这是动态网页，里面加载了js，所以源码跟审查元素的内容不一样

本文是Python网络数据爬虫教程的第一部分，介绍了如何使用Python抓取网页数据并存储到Excel。首先，文章澄清了爬虫与网页抓取的区别，并通过实例演示了如何使用Python的requests_html库获取网页内容，解析HTML，提取链接，并存储到数据框中，最后将数据导出到Excel。重点讲述了如何利用Google Chrome的检查功能找到标记路径，以及如何使用Pandas进行数据处理。

网络爬虫是自动化获取网页信息的工具，Python因其简单易学的特点常用于爬虫开发。合法使用爬虫需遵守Robots协议，避免对服务器造成压力和非法获利。HTTP协议是网络通信的基础，涉及请求和响应模型。了解这些基础知识对于构建和理解网络爬虫至关重要。

本文介绍了Python网络爬虫的基础知识，包括爬虫的定义、基本原理，推荐了爬虫工具和语言，并重点讲解了Python中的Selenium库，包括其作用、安装方式和元素定位方法。通过一个抓取豆瓣电影Top250的实例，展示了Selenium的使用过程。

本文详细介绍了网络爬虫的基本原理，通过模拟浏览器的工作流程，利用Python实现了一个简单的网络爬虫程序，用于抓取京东商品评论数据，包括品牌名、用户昵称、购物时间和评论内容。

本文介绍了网络爬虫的基本概念，包括通用爬虫、聚焦爬虫和增量式爬虫，并详细讲解了HTTP/HTTPS协议、requests模块的使用以及常见的请求头和响应头信息。通过实例展示了如何使用requests发起GET请求并保存网页源码。同时，讨论了反爬与反反爬策略，如robots.txt协议和User-Agent伪装。最后，提供了一个简易的网页搜索关键字爬虫代码，演示了动态参数设置和网页内容的抓取与存储。

搜索引擎技术

2,759

社区成员

2,049

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章