Python正则表达式调用后出现乱码

mwangwang 2014-11-11 08:20:21

Python调用正则后出现的数据时ascii数据，其中含有中文utf8编码，如：apple iPhone \xe4\xb8\x8d\xe8\xa6\x81\xe5\x82\xac\xe6\x88\x91\xef\xbc\x8c\xe6\x88\x91\xe4\xb8\x80\xe7\x9b\xb4\xe5\x
后边的是utf8格式的中文怎么转换成可读的中文？decode encode试过了，文件头增加utf8说明也试过了求解

...全文

463 2 打赏收藏转发到动态举报

写回复

用AI写文章

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

mwangwang 2014-11-12

打赏
举报

引用 1 楼 bugs2k 的回复:

>>> x = 'apple   iPhone  \xe4\xb8\x8d\xe8\xa6\x81\xe5\x82\xac\xe6\x88\x91\xef\xbc\x8c\xe6\x88\x91\xe4\xb8\x80\xe7\x9b\xb4'
>>> y = x.decode('utf-8')
>>> y
u'apple   iPhone  \u4e0d\u8981\u50ac\u6211\uff0c\u6211\u4e00\u76f4'
>>> print y
apple   iPhone  不要催我，我一直
>>>

谢谢，解决了原来是我直接将list转换编码所以总是不成功把list中每一项单拿出来转换就成功了不晓得为什么，我用的str（list），然后encode结果不成功的。感谢你的帮助

bugs2k 2014-11-11

打赏
举报

>>> x = 'apple   iPhone  \xe4\xb8\x8d\xe8\xa6\x81\xe5\x82\xac\xe6\x88\x91\xef\xbc\x8c\xe6\x88\x91\xe4\xb8\x80\xe7\x9b\xb4'
>>> y = x.decode('utf-8')
>>> y
u'apple   iPhone  \u4e0d\u8981\u50ac\u6211\uff0c\u6211\u4e00\u76f4'
>>> print y
apple   iPhone  不要催我，我一直
>>>