python 爬取网页是出现的错误

zhongkouwei 2009-11-09 12:13:18

代码:
timeout = 10
socket.setdefaulttimeout(timeout)
sock = urllib2.urlopen(url)
html = sock.read()
一般情况能行，运行没问题，可有常常会突然报错
Traceback (most recent call last):
File "/usr/local/lib/python2.5/threading.py", line 486, in __bootstrap_inner
self.run()
File "spider_eastmoney.py", line 150, in run
next_page = parse_ (mysqlDB, http, html, mod_name)
File "spider_eastmoney.py", line 94, in parse_
page_html= http.get_html(pageurl)
File "/home/Spider/News/genericHttp.py", line 47, in get_html
File "/home/Spider/News/genericHttp.py", line 47, in get_html
html = sock.read()
File "/usr/local/lib/python2.5/socket.py", line 304, in read
data = self._sock.recv(rbufsize)
File "/usr/local/lib/python2.5/httplib.py", line 529, in read
s = self.fp.read(amt)
File "/usr/local/lib/python2.5/socket.py", line 328, in read
data = self._sock.recv(left)
timeout: timed out
这是什么问题，以前没遇过，我用了多线程，线程数我设为1，会不会是这个原因。

...全文

306 8 打赏收藏转发到动态举报

写回复

8 条回复

切换为时间正序

请发表友善的回复…

发表回复

zouhailin 2009-11-22

打赏
举报

回复

高人, 学到一招.

mrshelly 2009-11-21

打赏
举报

回复

while True:
try:

except:
time.sleep(2)
continue

if 数据正常 :
break

lsesunny 2009-11-20

打赏
举报

回复

[Quote=引用 5 楼 ddgg 的回复:]
用try...except把html = sock.read()包起来，在except里对异常进行捕捉，该忽略忽略，该重试重试。
[/Quote]
test

DDGG 2009-11-20

打赏
举报

回复

用try...except把html = sock.read()包起来，在except里对异常进行捕捉，该忽略忽略，该重试重试。

wangzheng7912 2009-11-16

打赏
举报

回复

这种情况需要你对它的Exception做个处理，具体可以参考python的网络编程

mrshelly 2009-11-15

打赏
举报

回复

网络情况造成的...

很正常....

Semigod 2009-11-09

打赏
举报

回复

这不是很明显地写着receive timeout吗

zhongkouwei 2009-11-09

打赏
举报

回复

我说，是什么原因造成的

Python爬虫入门所有代码，其中包括Python爬虫抓取网页、Python爬虫抓取图片以及使用Spider模仿用户行为抓取403错误网页

大家好，小编为大家解答利用python爬取简单网页数据步骤的问题。很多人还不知道python爬取网页数据步骤图解，现在让我们一起来看看吧！下面就按这个路线逐一讲讲各部分的内容；HTTP协议是一个应用层面向对象协议，也叫超文本传输协议。是基于TCP协议的可靠传输，采用客户端/服务器端模式，指定了客户端可能发送给服务器什么样的消息，以及服务端给出什么样的响应。HTTP协议请求由状态行、请求头和请求正文三部分组成；请求端的HTTP报文叫做请求报文，响应端的叫做响应报文，通常，并不一定要有报文主体。

通过不到1小时的时间帮助学员快速熟悉Python爬虫从入门到案例实战。从零开始敲代码，手把手带领大家感受从无到有的全过程。讲师是以企业里Python程序员的角度出发，换位思考以非常有效、高效的方式对接工作中可能涉及到各类角色，比如产品经理和运营人员等。主要包含：http请求、正则表达式和json、开源分词工具和简单的Web服务等。

大家好，小编为大家解答python爬取网页数据表格会超出索引的问题。很多人还不知道利用python爬取简单网页数据步骤，现在让我们一起来看看吧！下面就按这个路线逐一讲讲各部分的内容；HTTP协议是一个应用层面向对象协议，也叫超文本传输协议。是基于TCP协议的可靠传输，采用客户端/服务器端模式，指定了客户端可能发送给服务器什么样的消息，以及服务端给出什么样的响应。HTTP协议请求由状态行、请求头和请求正文三部分组成；请求端的HTTP报文叫做请求报文，响应端的叫做响应报文，通常，并不一定要有报文主体。

大家好，小编来为大家解答以下问题，利用python爬取简单网页数据步骤，如何利用python爬取网页内容，现在让我们一起来看看吧！下面就按这个路线逐一讲讲各部分的内容；HTTP协议是一个应用层面向对象协议，也叫超文本传输协议。是基于TCP协议的可靠传输，采用客户端/服务器端模式，指定了客户端可能发送给服务器什么样的消息，以及服务端给出什么样的响应。HTTP协议请求由状态行、请求头和请求正文三部分组成；请求端的HTTP报文叫做请求报文，响应端的叫做响应报文，通常，并不一定要有报文主体。

37,721

社区成员

34,239

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章