urllib2 编码问题

多加旺 2011-12-24 08:40:39





def getWebContent(url):

    response = urllib2.urlopen(url, timeout=20)

    return response.read()



if __name__=="__main__":    

    print(getWebContent("http://www.hao123.com"))

显示的结果中:中文为
<meta name="keywords" content="\xe8\xae\xba\xe5\x9d\x9b" />

<meta name="description" content="\xe8\xae\xba\xe5\x9d\x9b " />

请问如何自动判断页面的编码得到正确的中文?

...全文

110 5 打赏收藏转发到动态举报

写回复

5 条回复

切换为时间正序

请发表友善的回复…

发表回复

freetstar 2011-12-29

打赏
举报

回复

有的可以通过encode后再decode获取，另外也是html页面charset决定得

ziank0111 2011-12-28

打赏
举报

回复

解析内容，获取编码
好像返回的头信息里一般也有编码类型，可以getHeader一下

binglex 2011-12-27

打赏
举报

回复

python的编码是个复杂的问题，需要先搞清楚，还有你想怎么保存数据，是原样还是统一转换为utf8

livesguan 2011-12-27

打赏
举报

回复

咋编的就咋解...

iambic 2011-12-24

打赏
举报

回复

google urllib2 charset

urllib3 is a python lib 1.线程安全 2.连接池 3.客户端SSL/TLS验证 4.文件分部编码上传 5.协助处理重复请求和HTTP重定位 6.支持压缩编码 7.支持HTTP和SOCKS代理

对于中文的参数如果不进行编码的话，python的urllib2直接处理会报错，我们可以先将中文转换成utf- 8编码，然后使用urllib2.quote方法对参数进行url编码后传递。 content = u'你好 sharejs.com' content = content....

Python中的urllib模块用来处理url相关的操作，unquote方法对应javascript中的urldecode方法，它对url进行解码，把类似”%xx”的字符替换成单个字符，例如：“法国红酒”解码后会转换成“法国红酒”，但是使用过程中...

keywd=urllib.request.quote(keywd)#对中文编码 url="http://www.baidu.com/s?wd="+keywd req=urllib.request.Request(url) data=urllib.request.urlopen(req).read() fh=open("D:/python/1.html","wb")#二进制写入 ...

2.发起请求:使用urlopen函数对指定的url发起请求，该函数返回一个响应对象，urlopen代表打开url ''' response = urllib.request.urlopen(url=url) # 3.获取响应对象中的页面数据:read函数可以获取响应对象中存储的...

37,719

社区成员

34,239

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章