为什么使用python中的urllib获取到的网页和用浏览器看到的网页源代码不一样？

Sarify 2014-03-16 09:28:32

我在用python写一个小爬虫，在使用python的urllib来获取网页信息的时候，发现python得到的网页信息跟我用chrome查看网页源代码得到的信息有点不一样，例如我获取http://www.zhihu.com/question/23049278这个页面的信息的一个不同之处如下：
用urllib读取到的：

用chrome查看源代码看到的：

请问为什么会出现这种状况呢，怎么样才能获取到跟浏览器显示相同的网页源代码？

...全文

1435 10 打赏收藏转发到动态举报

写回复

10 条回复

切换为时间正序

请发表友善的回复…

发表回复

huangwilliam1 2016-04-09

打赏
举报

回复

你好，我也有一样的问题，能否恳求你把源代码共享给我？因为我实在是着急，然后编程基础实在太差，一天内学不会。跪求能分享给我，万分感谢！

GreeceZeus 2015-07-15

打赏
举报

回复

浏览器打开html文件时会自动下载关联的脚本 Javascript的运行就有可能会修改html文件浏览器中是修改之后的html urllib请求的只是第一手的html

ForestDB 2015-07-14

打赏
举报

回复

Web本身是动态的。你可能需要模拟各种动态，比如session、cookie、js等等。

miangmiang咩 2015-07-14

打赏
举报

回复

那怎么处理呀？

乌拉拉_ 2015-07-14

打赏
举报

回复

应该是cookie的问题，把自己的登录信息加到cookie里再发请求就行了~~

Sarify 2014-03-17

打赏
举报

回复

我知道原因了，我用浏览器是用账户登陆了的，用urllib来获取网页的时候是没有登陆的，所以信息会不一样

Sarify 2014-03-17

打赏
举报

回复

引用 1 楼 bugs2k 的回复:

试试设置下User-Agent 为对应的浏览器

改了还是跟原来一样

Sarify 2014-03-17

打赏
举报

回复

引用 2 楼 CDSoftwareWj 的回复:

应该是一样的啊，唯一不一样的可能就是JS动态运行后的结果了，这个需要JS引擎了。。。

还有一点忘记说了，用urllib抓取的同一个网页内，有些人的信息可以显示，有些人不能显示，应该不是js引擎的问题吧，要不然应该都显示不了啊

CDSoftwareWj 2014-03-16

打赏
举报

回复

应该是一样的啊，唯一不一样的可能就是JS动态运行后的结果了，这个需要JS引擎了。。。

bugs2k 2014-03-16

打赏
举报

回复

试试设置下User-Agent 为对应的浏览器

最近在入门爬虫，遇到了一个问题，就是我用requests.get()之后得到的源代码跟浏览器里面的不一样（爬的是百度搜索“美女”之后的网页），今天看了崔庆才的《python3网络爬虫开发实战》在2.3.3节找到了答案：我们用urllib或requests获取到的是HTML源代码，但是这个网页是用js渲染的，上面两个库不会像浏览器那样继续运行后面请求来的js模块，所以不一样。还有一个问题，就是我用Beautiful Soup的find_all()方法找不到的标签，用正则表达式找到了，可能也跟上面有关？还需要

爬虫的数据爬取量非常大，显然不可能对每个页面都手动复制源代码，因此就有必要使用自动化的方式来获取网页源代码。

本文主要介绍了使用urllib结合基础知识爬取网页源代码，图片和视频。

简介在可供使用的网络库中，urllib和urllib2可能是投入产出比最高的两个，是Python中操作url的官方标准库。它们让你能够通过网络访问文件，就像这些文件位于你的计算机中一样。只需一个简单的函数调用，就几乎可将统一资源定位符（URL）可指向的任何动作作为程序的输入。结合re模块使用将发挥强大威力！模块urllib和urllib2的功能差不多，简单来说urllib2是urllib的增强——urllib2更好一些，但是中有urllib2中所没有的函数。对于简单的下载，urllib绰绰有余。

版本号：Python2.7.5，Python3改动较大，各位另寻教程。所谓网页抓取，就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地。类似于使用程序模拟IE浏览器的功能，把URL作为HTTP请求的内容发送到服务器端，然后读取服务器端的响应资源。在Python中，我们使用urllib2这个组件来抓取网页。urllib2是Python的一个获取URLs(Uniform Resource...

37,719

社区成员

34,238

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章