python 抓取新浪网页时，有时候得不到HTML代码

Peter_A 2014-03-11 04:39:32

程序如下：

url = "http://tech.sina.com.cn/";

    headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}

    request= urllib2.Request(url,headers=headers);

    resp = urllib2.urlopen(request);

    respHtml = resp.read();

    print "respHtml=",respHtml;

有的时候，可以得到网页的HTML代码，但是有的时候却不能，结果如图

请问这是为什么，难道是我调试程序太频繁，新浪不允许？

...全文

359 7 打赏收藏转发到动态举报

写回复

7 条回复

切换为时间正序

请发表友善的回复…

发表回复

qq_34433865 2016-07-29

打赏
举报

回复

我也遇到这样的问题，请问你是怎样解决的呢？

ImN1 2014-03-18

打赏
举报

回复

新浪tech我没爬过，但blog和weibo爬过，我这边100M光纤也不能保证一次抓完，通常都要目测鉴别一下特别是我这边ISP DNS超负荷，时不时404很“正常”，几乎所有网络节点都可能引起你说的问题如果你确认其他（超过30个以上）网站没问题，就只有新浪有问题，可以从cookies入手检查

Peter_A 2014-03-18

打赏
举报

回复

引用 5 楼 snmr_com 的回复:

新浪tech我没爬过，但blog和weibo爬过，我这边100M光纤也不能保证一次抓完，通常都要目测鉴别一下特别是我这边ISP DNS超负荷，时不时404很“正常”，几乎所有网络节点都可能引起你说的问题如果你确认其他（超过30个以上）网站没问题，就只有新浪有问题，可以从cookies入手检查

谢谢！知道了

Peter_A 2014-03-14

打赏
举报

回复

引用 2 楼 iasky 的回复:

应该是你模拟的浏览器行为不够，使用工具看看浏览器访问的时候发送的header，自己构造

我尝试添加了header信息，模拟浏览器的代理设置，结果还是一样。我试了试其他网站，都没有这个问题，只是新浪有问题。

jeky_zhang2013 2014-03-12

打赏
举报

回复

访问可以设置超时吧，超过多长时间没有响应，可以循环几次获取，看见成功获取标志即可

iasky 2014-03-12

打赏
举报

回复

应该是你模拟的浏览器行为不够，使用工具看看浏览器访问的时候发送的header，自己构造

ImN1 2014-03-11

打赏
举报

回复

这个原因多的是，不能一概而论就算用浏览器访问，你也不是每次都顺利打开的吧？那刷新按钮可以去掉了

学习利用抓取股票信息

主要内容包括Python爬虫的基本原理，编写简单的爬虫，使用爬虫从百度下载比基尼美女图片、beautiful soup的详细使用方法，如何使用beautiful soup分析html代码，基于队列的爬虫、数据存储、数据拆分、爬虫限速、网页...

python对接微信公众平台，网页授权，学习python微信开发，微信测试号对接APi,让大家学习微信开发，你问我答案例，图来图往案例等。

8个常用python工具库 + 10小时以上视频课程 + 50个工作常用技能 + 4个爬虫案例 + 10个行业数据分析案例, 介绍python数据分析、爬虫基础技巧, 助你提升职场竞争力, 转行、应聘简历加分。课程介绍python数据读取、...

不会读源码的程序员不是绝对不是一个优秀的程序员，源码是编程语言之本，我将以深度剖析Python的源代码为目标，一步一个脚印的带领带领Python学习新历程。

37,720

社区成员

34,239

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章