urllib2 编码问题

多加旺 2011-12-24 08:40:39


def getWebContent(url):
response = urllib2.urlopen(url, timeout=20)
return response.read()

if __name__=="__main__":
print(getWebContent("http://www.hao123.com"))




显示的结果中:中文为
<meta name="keywords" content="\xe8\xae\xba\xe5\x9d\x9b" />

<meta name="description" content="\xe8\xae\xba\xe5\x9d\x9b " />


请问如何自动判断页面的编码得到正确的中文?


...全文
110 5 打赏 收藏 转发到动态 举报
写回复
用AI写文章
5 条回复
切换为时间正序
请发表友善的回复…
发表回复
freetstar 2011-12-29
  • 打赏
  • 举报
回复
有的可以通过encode后再decode获取,另外也是html页面charset决定得
ziank0111 2011-12-28
  • 打赏
  • 举报
回复
解析内容,获取编码
好像返回的头信息里一般也有编码类型,可以getHeader一下
binglex 2011-12-27
  • 打赏
  • 举报
回复
python的编码是个复杂的问题,需要先搞清楚,还有你想怎么保存数据,是原样还是统一转换为utf8
livesguan 2011-12-27
  • 打赏
  • 举报
回复
咋编的就咋解...
iambic 2011-12-24
  • 打赏
  • 举报
回复
google urllib2 charset

37,719

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • IT.BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧