同是str类型,为什么一个有返回值,一个没有?

lioujian47 2008-07-09 05:19:06

两次调用getcontent(),只有一次能输出:(



def body(url1,url2):

    try:

        txt = urllib.urlopen(url1).read()

    except Exception, e:

        txt = urllib.urlopen(url2).read()

    txt = unicode(txt,"gbk")

    parser = html2txt()

    parser.feed(txt)

    parser.close()

    #print type(parser.text)  #<type 'unicode'>

    return parser.text

def cr2n(txt):

    #data = re.sub('(\s|\xa0)+','',txt.encode("gbk"))

    #data = data.replace('<NEWLINE>',"\n").strip()

    p = re.compile(r'(。|！|……|】)')

    t = p.sub('。\n',txt.encode("gbk"))

    #print type(t) # t is str

    return t

def getcontent(ar,txt):

    ctent = re.findall(ar,txt)

    for i in ctent:

        print i



url1 = 'http://docs.google.com/Doc?id=d8b2mxm_107cc3mgqgr' #

url2 = 'http://docs.google.com/Doc?id=d8b2mxm_107cc3mgqgr' #暂时用一样的



test = '需要匹配这个。'  # test是str

ar = '匹配'



k = cr2n(body(url1,url2)) #k 是 str

getcontent(ar,k)#这个没有输出:(

getcontent(ar,test) #这个工作正确

...全文

204 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

lioujian47 2008-07-10

打赏
举报

回复



txt = unicode(txt,"gbk")

要改成



txt = unicode(txt,"utf-8")

这就意味着,当抓取一个html的时候必须要看他的charset咯?

lioujian47 2008-07-10

打赏
举报

回复

困扰了我2天一夜.
我才发现原来是我的正则有问题.
谢谢你了

wx红杉树 2008-07-10

打赏
举报

回复

不是，只是按你设置的解码格式解码而已。

string str;...str.size() 的返回值类型是size_type 为什么不是int ? 因为int表示的范围太小，虽然我们不知道size_type的确切类型，但可以知道它是unsigned类型，它的长度是int所能存储的两倍

曾经遇到一个面试题——构造函数有没有返回值？今天调查一番后，给出确切的答案：构造函数没有返回值。我们使用构造函数构造一个String字符串str：String str = new String("abc");这里的new 是调用构造函数，在堆里...

昨天面试，他问我：构造函数有没有返回值？我告诉他说：构造函数没有返回值。他举了个反例： String str = new String("content"); new 的时候调用构造函数，返回给str; 再问：有没有方法...

场景这要是讲函数注释的用法没有返回值def function(ver: str):print(var)单个返回值def function(ver: str) -> dict:a=[ver,ver,ver]return a多个返回值您总是返回一个对象；使用return one, two只返回一个元组...

那为什么不可以是函数名相同，参数列表相同，函数的返回值不同呢？ 2. 从一个函数重载实例说起看下面的一个例子，来体会一下：实现一个打印函数，既可以打印int型、也可以打印字符串型。在C++中，我们...

37,743

社区成员

34,211

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章