关于Python写的网页爬虫问题

悲酥清风 2009-08-14 04:45:34

我刚开始学，在网上找到一个爬虫代码想学习一下，但在执行的时候出错，不知道什么原因，请各位帮忙看一下，我装的是Python2.6.2
以下是代码：

#!/usr/bin/python

import urllib2

import re



def downURL(url,filename):

    print url

    print filename

    try:

        fp = urllib2.urlopen(url)

    except:

        print 'download exception'

        return 0

    op = open(filename,"wb")

    while 1:

        s = fp.read()

        if not s:

            break

        op.write(s)



    fp.close()

    op.close()

    return 1



#downURL('http://www.sohu.com','http.log')



def getURL(url):

    try:

        fp = urllib2.urlopen(url)

    except:

        print 'get url exception'

        return 0

    

    pattern = re.compile("http://sports.sina.com.cn/[^\>]+.shtml")

    while 1:

        s = fp.read()

        if not s:

            break

        urls = pattern.findall(s)

    fp.close()

    return urls



def spider(startURL,times):

    urls = []

    urls.append(startURL)

    i = 0

    while 1:

        if i > times:

            break;

        if len(urls)>0:

            url = urls.pop(0)

            print url,len(urls)

            downURL(url,str(i)+'.htm')

            i = i + 1

            if len(urls)<times:

                urllist = getURL(url)

                for url in urllist:

                    if urls.count(url) == 0:

                        urls.append(url)

        else:

            break

    return 1

spider('http://www.baidu.com',10)

错误提示：

http://www.baidu.com 0

http://www.baidu.com

0.htm

download exception

get url exception

Traceback (most recent call last):

  File "D:/test/papa.py", line 62, in <module>

    spider('http://www.baidu.com',10)

  File "D:/test/papa.py", line 56, in spider

    for url in urllist:

TypeError: 'int' object is not iterable

...全文

405 9 打赏收藏转发到动态举报

写回复

用AI写文章

9 条回复

切换为时间正序

请发表友善的回复…

发表回复

cppfaq 2009-08-25

打赏
举报

e,楼主的代码习惯不大好
吞异常
虽然except:了，但是调用代码没有判断方法的返回值

另外：
while 1:
if i > times:
break;
这样的写法也蛮奇怪的

iambic 2009-08-25

打赏
举报

如果不知道怎么处理异常就让它一直抛上来，别胡乱catch。

mrshelly 2009-08-25

打赏
举报



        print 'get url exception'

        return 0

改成



        print 'get url exception'

        return []

zymiao 2009-08-24

打赏
举报

学习一下来

haosimentu 2009-08-23

打赏
举报

应该是0.htm中的url无法open（url）导致download exception，然后
print 'get url exception'
return 0

在
urllist = getURL(url)
for url in urllist:
的时候，因为urllist=0，又导致TypeError: 'int' object is not iterable

DarkChampion 2009-08-17

打赏
举报

[Quote=引用 3 楼 gift_lbs 的回复:]
调用urlopen时传递的参数是url 不是str(i)+'.htm'
[/Quote]

哦，看错了

我运行了一下好像没问题，可以获取网页内容

gift_lbs 2009-08-17

打赏
举报

[Quote=引用 2 楼 darkchampion 的回复:]
Python codedownURL(url,str(i)+'.htm')
看到这句话没，i=0
所以请求的页面为0.htm
这个页面不存在，所以调用urlopen时肯定抛异常了
[/Quote]

调用urlopen时传递的参数是url 不是str(i)+'.htm'

DarkChampion 2009-08-14