求助！python 采集网页的问题

dongnanyanhai 2009-12-26 10:14:32

我想要采集一些网站的图片，网站的目录是这样的，有一个list页显示了图片页的链接地址，现在我想通过向程序提供该list页的网址，由程序来分析这个网址中某一部分中所有图片页的链接地址，然后把这些图片也得链接地址保存到一个列表中，再逐个打开这些地址，获得每一个图片网页中图片的链接地址，下载这些图片！

我使用HTMLParser模块来解析网页，但是如果我下载的网页编码是gb2312的话，就会出现错误了，我不知道怎么改变编码再将网页代码传递给HTMLParser才不会出错，求救！！！

另，这个程序应该是能够通过正则表达式来实现的，可惜我本来要采集的那个网页这几天好像被封了，现在给不了实例，郁闷啊！



#!/usr/bin/env python

# -*- coding:gb2312 -*-



"""

要实现的功能是 根据提供的目录网页(list)分析其子页面



将其子页面的链接保存在一个列表中，然后循环下载这些子页面



分析这些子页面中的图片，下载保存到本地硬盘上

"""



import os,sys,HTMLParser

import urllib,re

import httplib,urlparse





class main():

    def __init__(self):

        self.anatext = "111222"    #保存截取出来的要分析的网页

        

    def run(self):

        global chdurllist

        global picurllist 

        global urlstring

        #先要求提供一个目录页地址：

        parurl = raw_input("Please in the url of the website:")

        #判断能否正常链接到该地址：

        runn = self.httpExists(parurl)

        #如果地址能够访问，进行解析，提取网页中的子网页地址

        if runn == True:

            from urlparse import urlparse

            a = urlparse(parurl)

            urlstring = a[0]+'://'+a[1]+'/'

            

            """

            在这里控制整个程序的运行！

            """

            parstartstr = "<DIV class=list>"   #list页采集开始处的代码

            parendstr = "<DIV class=page>"     #list页采集结束处的代码



            chdstartstr = "<DIV class=\"center margintop border clear main\">"  #图片页采集开始处的代码

            chdendstr = "</DIV></A></div>"                                      #图片页采集结束处的代码



            self.paranalyze(parurl,parstartstr,parendstr)

                        

            lar = parselinks()

            

            lar.feed(self.anatext)#____问题出现在这里____提供的参数不符合规格！

            

            print "1"

            

            for url in chdurllist:

                self.paranalyze(url,chdstartstr,chdendstr)

                lar.feed(self.anatext)

                self.downpic()

                

            lar.close

                



            

        else:

            print "The url you input can not link!\nPlease input another url:"

        

    def paranalyze(self,url,anastart,anaend):

        #开始解析网页了！先获取网页内容

        webpage = urllib.urlopen(url)

        webtext = webpage.read()

        #print len(webtext)

        #开始解析网页内容

        a = webtext.find(anastart)

        b = webtext.find(anaend)

        #print webtext[a:b]

        ab = webtext[a:b]

        self.anatext = ab.decode("cp936")

        webpage.close()

    

    

    #开始下载图片urlretrieve

    def downpic(self):

        global chdurllist

        global picurllist   

        fildir = "c:\\123\\dmm\\"

        a = len(picurllist[1])

        filename = picurllist[1][a-4:]

        i = 10

        print '2'

        if picurllist[0]!=picurllist[1]:

            print '3'

            for url in picurllist:

                if httpExists(url):

                    print '4'

                    i += 1

                    urllib.urlretrieve(url,fildir+str(i)+filename)

                else:

                    return False

        else:

            return False               

        

    def httpExists(self,url):

        host , path = urlparse.urlsplit(url)[1:3]

        isok = False

        try:

            conn = httplib.HTTPConnection(host)

            conn.request("HEAD",path)

            resp = conn.getresponse()

            

            if resp.status == 200:

                isok = True

            else:

                isok = False

        except Exception, e:

            print e.__class__, e, url

            

        return isok



    #提取网页中文字链接的方法

class parselinks(HTMLParser.HTMLParser):

        

    def handle_starttag(self,tag,attrs):

        global chdurllist

        global picurllist

        global urlstring

        if tag == 'a':

            for name,value in attrs:

                if name == 'href':

                    #print value

                    chdurllist.append(urlstring+value)

                    

            

        if tag == 'img':

            for name,value in attrs:

                if name == 'src' :

                    #print value

                    picurllist.append(value)





    

if __name__ == '__main__':

    chdurllist = [] #保存子页面链接地址的列表

    picurllist = [] #保存从子页面获得的图片地址    

    urlstring = ""

    """ 

    lParser = parselinks()

    lParser.feed(urllib.urlopen("http://www.python.org/index.html").read())

    lParser.close()    

    """

    app = main()

    app.run()

...全文

601 10 打赏收藏转发到动态举报

写回复

用AI写文章

10 条回复

切换为时间正序

请发表友善的回复…

发表回复

dongnanyanhai 2010-01-05

打赏
举报

这就把贴结了吧！

dongnanyanhai 2010-01-05

打赏
举报

刚好今天就在看BeautifulSoup的中文说明，楼上给的答案应该能行。

我在windows下试了，代码如下：



#!/usr/bin/env python

#coding=utf-8



from BeautifulSoup import BeautifulSoup

import urllib2



page = urllib2.urlopen('http://www.baidu.com')

soup = BeautifulSoup(page)



for s in soup('a'):

    b = str(s)

    print b.decode('utf-8').encode("gb2312")

谢谢了！

dongnanyanhai 2010-01-05

打赏
举报

回家几天了，没得上网，这个问题还挂着，望高手相助，谢谢！

notax 2010-01-05

打赏
举报

看看Beautiful Soup 的库，用起来方便，
那本书Programming Collective Intelligence，也是用这个库，
在linux上，www.baidu.com 也没问题

#
#coding=utf-8

import urllib2
from BeautifulSoup import BeautifulSoup

page = urllib2.urlopen("http://www.baidu.com/")
soup = BeautifulSoup(page)

for s in soup('a'):
print s

$ python test.py
<a href="http://passport.baidu.com/?login&tpl=mn">登录</a>
<a onclick="s(this)" href="http://news.baidu.com">新闻</a>
<a onclick="s(this)" href="http://tieba.baidu.com">贴吧</a>
<a onclick="s(this)" href="http://zhidao.baidu.com">知道</a>
<a onclick="s(this)" href="http://mp3.baidu.com">MP3</a>
<a onclick="s(this)" href="http://image.baidu.com">图片</a>
<a onclick="s(this)" href="http://video.baidu.com">视频</a>
<a href="/gaoji/preferences.html">设置</a>
<a href="/gaoji/advanced.html">高级</a>

bodegap 2010-01-03

打赏
举报

这问题我也想知道，python编的爬虫程序确实强。向楼主学习，向能解答的高手致敬。

dongnanyanhai 2009-12-30

打赏
举报

[Quote=引用 4 楼 lzx1104 的回复:]
webtext = webpage.read()
webtext = webtext.decode('gbk')
[/Quote]

还是不行！

Semigod 2009-12-29

打赏
举报

提前解码成unicode，然后再feed给htmlparser

lzx1104 2009-12-29

打赏
举报

webtext = webpage.read()
webtext = webtext.decode('gbk')

dongnanyanhai 2009-12-28

打赏
举报

换个简单的角度来看问题，使用HTMLParser处理网页内容遇到中文是显示出错，请问该怎么解决？代码如下!

CODE=Python]
#!/usr/bin/env python
# -*- coding:gb2312 -*-

import HTMLParser
import urllib
import sys
class parselinks(HTMLParser.HTMLParser):

def handle_starttag(self,tag,attrs):
if tag == 'a':
for name,value in attrs:
if name == 'href':
print value
#print self.get_starttag_text()

s = urllib.urlopen("http://www.baidu.com").read()
x = unicode(s,"gb2312")
lParser = parselinks()
lParser.feed(s)
lParser.close()

[/CODE]