python27读一个UTF-8编码文件,但有些字节不在UTF8范围内会报错,大家如何解决的？

隐身 2014-05-13 05:50:30

有个文本文件确认是UTF8编码的，但文件中有一些字节不在UTF8范围内，用python读就报错了。
像这样的文件，就没法处理了吗？



f = codecs.open('filename', 'r', 'utf-8')

buf = f.read()   #报错了，提示

#UnicodeDecodeError: 'utf8' codec can't decode byte 0xa7 in position 232629: invalid start byte

...全文

559 7 打赏收藏转发到动态举报

写回复

用AI写文章

7 条回复

切换为时间正序

请发表友善的回复…

发表回复

隐身 2014-05-27

打赏
举报

引用 6 楼 tgbus18990140382 的回复:

问题搞定了没？我也遇到了，QScintilla读取utf-8报错的问题，如果解决了求解决办法啊。

换了种方法，直接open()读了自己解析的， codecs模块要求编码必须一至，要不然就报错。

唯夜 2014-05-17

打赏
举报

问题搞定了没？我也遇到了，QScintilla读取utf-8报错的问题，如果解决了求解决办法啊。

angel_su 2014-05-15

打赏
举报

设置合适的errors参数...

隐身 2014-05-15

打赏
举报

引用 2 楼 tgbus18990140382 的回复:

在你的脚本前面加上这几句试试
#!/usr/bin/python
#encoding=utf-8

import sys
reload(sys)
sys.setdefaultencoding("utf-8")

这样也不行，关键问题是codecs处理UTF-8格式时，必须保证文本全按UTF8编码，要有个其它编码的就崩了。

隐身 2014-05-15

打赏
举报

引用 1 楼 snmr_com 的回复:

你确定这个文本是utf-8么？utf-8是全编码，目前没有字符不在其范围内的 utf-8每个字符第一个字节最高两位一定是11开头，所以最小值也是c0，不会是a7

除了这个地方，其他地方还是确认是UTF-8的。

ImN1 2014-05-14

打赏
举报

你确定这个文本是utf-8么？utf-8是全编码，目前没有字符不在其范围内的 utf-8每个字符第一个字节最高两位一定是11开头，所以最小值也是c0，不会是a7

唯夜 2014-05-14

打赏
举报

在你的脚本前面加上这几句试试

#!/usr/bin/python
#encoding=utf-8

import sys
reload(sys)
sys.setdefaultencoding("utf-8")

本课程主要讲解python中针对文件的操作,主要内容如下:1. 文件作用2. 文件访问模式3. 文件打开4. 文件关闭5. 文件读取6. 文件写入7. 文件备份8. 批量修改文件

Unicode也叫万国码、单一码，是计算机科学领域里的一项业界标准，包括字符集、编码方案等。对于世界上所有的语言文字再unicode中都可以查看到。【汉】字的编码解释官网https://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=6C49 unicode编码就是为了统一世界上的编码，有一个统一的规范。但是它还存在一些问题。Unicode的问题需要注意的是，Unicode只是一个符号集，它只规定了符号的二进制代码，却没有规定这个二进制代码应该如何存

Python 解决读取文件报错 “unicodedecodeerror: ‘utf-8‘ codec can‘t decode byte 0x8c”

Python 3的字符串使用Unicode，直接支持多语言。 1、ASCII、Unicode、UTF-8 ASCII编码和Unicode编码的区别：ASCII编码是1个字节，扩展ASCII码是从128-255的字符。而Unicode只是一个符号集，通常是2个字节。本着节约的精神，又出现了把Unicode编码转化为“可变长编码”的UTF-8编码。UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节，常用的英文字母被编码成1个字节，汉字通常是3个字节，只有很生僻的字符才会被编码成4

ascii、unicode、utf-8、gbk简介 ascii ASCII 码使用指定的7 位或8 位二进制数组合来表示128 或256 种可能的字符，1bytes代表一个字符知识点：8bit = 1bytes Unicode 为了统一世界各国语言的不同，统一用2个bytes代表一个字符，特点：速度快，但浪费空间 utf-8 为了改变Unicode的这种缺点，规定一个英文字符用一个字节表示，一个中文字符用三个字节表示，特点：节省空间，速度慢 gbk 是中文的字符编码，用2个字节代表一个字符 python使

脚本语言

37,720

社区成员

34,239

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章