如何判断字符是UTF－8的编码？

kunkunpp 2005-01-19 05:40:09

有没有办法直接判断出字符是UTF－8的编码？
有现成的库么？
请各位兄弟指教。

...全文

634 11 打赏收藏转发到动态举报

写回复

11 条回复

切换为时间正序

请发表友善的回复…

发表回复

zjxiaoyu 2005-01-20

打赏
举报

回复

我自己写过utf8和ucs2互相转换的函数。不是太麻烦。
如果只是判断的话，更简单了。

daylove 2005-01-20

打赏
举报

回复

不客气。

kunkunpp 2005-01-20

打赏
举报

回复

谢了。

daylove 2005-01-20

打赏
举报

回复

在网络上找到一点，希望对你有帮助：

BOM(byte order mark)检测
无BOM检测
BOM是用来标记UTF-8编码的开始，它为三个字节：0xEF, 0xBB, 0xBF，
必需在串的开始。因此函数中的循环最多检测前三个字符，如果是的话，
则退出循环，判断完毕。

但很多UTF-8编码的文件没有BOM字节，因此循环后面的方法就是利用了
UTF-8编码的规律来进行判断，具体的原理就不多说了，看一看我上面链
接的文章应该就清楚了，但你要知道UTF－8编码的规则才可以。

http://www.linuxforum.net/forum/showflat.php?Cat=&Board=python&Number=495520&page=12&view=collapsed&sb=5&o=&fpart=1

daylove 2005-01-20

打赏
举报

回复

http://www.linuxforum.net/books/UTF-8-Unicode.html

不知道，不过我想应该从UTF-8的特征去判断吧，检查到特定的细节，符合UTF-8特征，则就是了。

kunkunpp 2005-01-20

打赏
举报

回复

恩，这个贴到现在还没有人回的？？？

asmgirl 2005-01-19

打赏
举报

回复

关注

kunkunpp 2005-01-19

打赏
举报

回复

这个问题太难了么？
我想知道是否有现成的判断UTF-8的函数？

kunkunpp 2005-01-19

打赏
举报

回复

还有么？

dongyuanzhang 2005-01-19

打赏
举报

回复

http://www.douzi.org/blog/180.html
http://www.utf8.org/

kunkunpp 2005-01-19

打赏
举报

回复

我有一些数据存在数据库中，其中有些是utf－8的，有些不是，我主要目的是想查出那些不是utf-8的非法数据。希望各位兄弟指条道。

XML报文头格式<?xml version="1.0" encoding="utf-8"?> 报文头：<?xml version="1.0" encoding="utf-8"?> <?xml ?>：报文头格式，报文头内容放在xml和?符号中间 version="1.0"：声明使用的xml版本 encoding="utf-8"：声明用xml传输数据时候用的字符编码（字符集） ...

( Java面试题 | Java学习指南 ) 我们平时看到的文本文件，虽然都是文本，但有的是GBK编码，有的UTF-8编码。那么，对于一个阅读器，它在读取一个文本文件时如何知道它是GBK还是UTF-8呢？奥秘在于文件头部的几个字节。规定如下：当以UTF16或UTF-8编码存储时，头部需要添加几个字节作为标识。称为BOM UTF8：头部3个字节EF BB BF UTF16...

JS中文字符串和UTF-8编码字符串相互转换1.中文字符串转化为UTF-8编码，如“<汉字>”的UTF-8编码为“%3C%E6%B1%89%E5%AD%97%3E” 2.UTF-8编码字符串“%E6%B1%89%E5%AD%97”的中文为“<汉字>”function EncodeUtf8(s1) { var s = escape(s1); var sa = s.split(

UTF-8（Unicode Transformation Format - 8-bit）是一种可变长度的字符编码，用于表示Unicode字符集中的字符。它使用1到4个字节来编码不同的字符。‌：带有附加符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文及它拿字母则需要二个字节编码，使用了2个字节编码。‌：用于编码Unicode辅助平面的字符，如一些罕见字符或表情符号，使用了4个字节编码。UTF-8有四种编码组成，UTF8-1、UTF8-2、UTF8-3、UTF8-4。

Jackson自动检测源中使用的编码：根据JSON规范，只有有效编码为UTF-8，UTF-16和UTF-32。不能使用其他编码（如Latin-1）。因此，自动检测很容易并且由解析器完成 - 因此没有接受编码检测。因此，如果输入为UTF-8，则会被检测到。对于输出，UTF-8是默认值;但是，如果您明确要使用其他编码，则可以显式创建JsonGenerator（使用JsonEncoding的方法），并将其传递给ObjectMapper。或者在这两种情况下，您当然可以手动构建java.io.Reader

70,038

社区成员

243,247

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章