python 抓取中文页面乱码问题咋解决

zwphumor 2014-06-22 03:20:58
使用urllib2抓去新浪的页面回来的,在chrome上察看编码是gbk,所以decode('gbk')一下,print出来还是不行的。。。请问这是怎么回事情啊??????????
...全文
490 16 打赏 收藏 转发到动态 举报
写回复
用AI写文章
16 条回复
切换为时间正序
请发表友善的回复…
发表回复
梦在waterloo 2014-07-28
  • 打赏
  • 举报
回复
引用 14 楼 zwphumor 的回复:
[quote=引用 11 楼 kui27 的回复:] 新浪的网页是压缩过的,貌似要用什么zip解压缩后才行。。
啥意思? 不过无所谓了,,本来是想预测个世界杯的,现在都结束了=。=[/quote] ...最后如何解决的?
33llng 2014-07-25
  • 打赏
  • 举报
回复
试试看gb18030?
zwphumor 2014-07-25
  • 打赏
  • 举报
回复
引用 11 楼 kui27 的回复:
新浪的网页是压缩过的,貌似要用什么zip解压缩后才行。。
啥意思? 不过无所谓了,,本来是想预测个世界杯的,现在都结束了=。=
ImN1 2014-07-21
  • 打赏
  • 举报
回复
decode("utf-8")试试
lsjfdjoijvtghu 2014-07-21
  • 打赏
  • 举报
回复
用chardet 检测一下编码试试看
kui27 2014-07-18
  • 打赏
  • 举报
回复
新浪的网页是压缩过的,貌似要用什么zip解压缩后才行。。
旅行帽 2014-07-16
  • 打赏
  • 举报
回复
首先,查看网页的编码格式。然后,抓到数据后,查看数据的编码格式。再解码后重新编码。 有可能你抓到的其实不是乱码,只是你的 IDE显示的编码格式有问题,所以最好存到TXT里看下。
The_Third_Wave 2014-06-22
  • 打赏
  • 举报
回复
叫你贴代码不愿意,编码问题不实践很难搞定。
zwphumor 2014-06-22
  • 打赏
  • 举报
回复
如果什么都不加的话是这样: <div><a target="_blank" href="http://sports.sina.com.cn/guest.html">¾º¼¼·ç±©Òâ¼û·´À¡ÁôÑÔ°å</a> <a target="_blank" href="mailto:sports2009@vip.sina.com">Ͷ¸åÐÅÏä</a> ¿Í·þÈÈÏߣº95105670 »¶Ó­ÅúÆÀÖ¸Õý<br/>
zwphumor 2014-06-22
  • 打赏
  • 举报
回复
decode('gbk')会这种显示: <div><a target="_blank" href="http://sports.sina.com.cn/guest.html">戮潞录录路莽卤漏脪芒录没路麓脌隆脕么脩脭掳氓</a> <a target="_blank" href="mailto:sports2009@vip.sina.com">脥露赂氓脨脜脧盲</a> 驴脥路镁脠脠脧脽拢潞95105670 禄露脫颅脜煤脝脌脰赂脮媒<br/>
zwphumor 2014-06-22
  • 打赏
  • 举报
回复
引用 5 楼 u013171165 的回复:
content.encode('GBK')
UnicodeEncodeError: 'gbk' codec can't encode character u'\xca' in position 251: illegal multibyte sequence
The_Third_Wave 2014-06-22
  • 打赏
  • 举报
回复
content.encode('GBK')
zwphumor 2014-06-22
  • 打赏
  • 举报
回复
代码就是提交get请求后获取到content,然后正则匹配一下,直接print content.decode('gbk').encode('utf8')
zwphumor 2014-06-22
  • 打赏
  • 举报
回复
引用 2 楼 u013171165 的回复:
# -*- coding: utf-8 -*-这句必须加,编码很坑的!
这句话加上了。。
The_Third_Wave 2014-06-22
  • 打赏
  • 举报
回复
# -*- coding: utf-8 -*-这句必须加,编码很坑的!
The_Third_Wave 2014-06-22
  • 打赏
  • 举报
回复
贴代码!不贴怎么知道问题之所在

37,719

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • IT.BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧