关于UTF－8问题

kingwmj78 2010-10-22 10:56:43

我在ubuntu 下用perl做文本对比，两个文件都是utf-8格式的，但是对比出来结果不对，有匹配的行，就是不认。
但是如果转到win下，用相同的程序和文本文件，utf-8的，也不认。但是把文本文件转成ASCII的字符集，结果就对了。
按道理，两个文本都是utf-8的，而且我的文本中都是英文和数字，没有怪字符，应该是可以进行对比的，有没有人遇到这样的问题呢？
如果perl在处理文本时，因文本的字符集选用不同而结果不同的话，会有很大的问题的。像这样的问题该如处理？
最方便，安全的办法是什么？
再问个问题：
有没有什么函数会提供警示功能（当两个文本，字符集不同时，或是无法处理的字符集）。

...全文

122 6 打赏收藏转发到动态举报

写回复

6 条回复

切换为时间正序

请发表友善的回复…

发表回复

iambic 2010-11-11

打赏
举报

回复

先diff下。

silverlove 2010-11-11

打赏
举报

回复

看一下两个文件的十六进制代码，是否是BOM的问题：ef bb bf。

jamseyang 2010-11-05

打赏
举报

回复

marking...

caizhanfei 2010-10-22

打赏
举报

回复

在文本的第一行写上所用的编码?

kingwmj78 2010-10-22

打赏
举报

回复

我用的是单词锚位\b \b，应该可以排除不可见字符。
也用过\s \s 都不行。

赵4老师 2010-10-22

打赏
举报

回复

里面有看不见的字符？
比如空格、tab字符、回车字符、全角空格……

前言：在写入csv文件中，出现了乱码的问题。解决：utf-8 改为utf-8-sig 区别如下： 1、”utf-8“ 是以字节为编码单元,它的字节顺序在所有系统中都是一样的,没有字节序问题,因此它不需要BOM,所以当用"utf-8"编码方式读取带有BOM的文件时,它会把BOM当做是文件内容来处理, 也就会发生类似上边的错误. 2、“uft-8-sig"中sig全拼为 signature 也就是...

UTF-8、en_US.UTF-8和zh_CN.UTF-8的区别 en_US.UTF-8、zh_CN.UTF-8叫做字符集，就是说‘A’、‘B’、‘中’、‘国’等对应的整数值， en_US.UTF-8只包含了ASCII码，zh_CN.UTF-8包含了6000多个汉字？如果是这样的话，那所谓UTF-8，就是把这些整数，编写成一串字节的方法？ UTF-8 是编码方式 en_US.UTF-8 和 zh_CN.UTF-8 是语言环境，也就是字符集 en_US.UTF-8 和 zh_CN....

写在前面在我们通常使用的windows系统中，我发现了一个有趣的现象。我新建一个空的文本文档，点击文件-另存为-编码选择UTF-8，然后保存。此时这个文件明明是空的，却占了3字节大小。原因在于：此时保存的编码方式自动会变为UTF-8 BOM 一、一个汉字在不同的编码方式中占多少字节？ 1.在UTF-8中，一个汉字占3个字节（一个字符占一个字...

先看图：但内容都一样，为什么相差了3个字节呢？如下图。多出来的 ef bb bf 就是上面相差三个字节的原因。为什么 with bom 要多着三个字节呢？ BOM——Byte Order Mark，就是字节序标记 bom是为utf-16和utf-32准备的，用于标记字节顺序。微软在utf-8中使用bom是因为这样可以把UTF-8和ASCII等编码区分开来，但这样的文件在windows之外的操作系统里会带来问题。不推荐使用 UTF-8 with BOM 如何将utf-8 w

从网上下载了别人的代码，导入自己的项目中，运行时出现了这样的问题：错误：编码UTF-8 的不可映射字符原因是下载下来的代码是很早很早以前用 eclipse 写的, 现在用AS，两者起冲突了…… 解决： 1.去往出现错误提示的画面，右下角有个“UTF-8”字样，把UTF-8 换成任意编码格式，换好之后，再把把“UTF-8” 换回来。编译，就能运行了！

37,720

社区成员

34,239

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章