如何自动识别文件编码是用UTF-8或者GBK或其他字符级编码保存的?

ee4456 2008-05-04 07:32:52

如题,我知道ASCII码文件前无前缀字符,UTF-8的文本文件前会有EFBBBF三个字节。Unicode文件前会FFFE两个字节,Unicode big endian文件前会有FEFF00三个字节,但是具体怎么样判断我就不知道了..
有没有哪个高手帮帮忙,谢谢谢谢.....
并且我现在可以得到文件的byte[]数组..但是我直接输出byte[0],byte[1]这样好象是不行的饿。..

...全文

936 10 打赏收藏转发到动态举报

写回复

10 条回复

切换为时间正序

请发表友善的回复…

发表回复

ee4456 2008-05-04

打赏
举报

回复

老紫竹,你给的我没有权限看- -

ee4456 2008-05-04

打赏
举报

回复

TomyGuan
谢谢了/...

老紫竹 2008-05-04

打赏
举报

回复

我这里有一段检测编码类型的代码，成功率很高！ http://www.java2000.net/viewthread.jsp?tid=1679

ee4456 2008-05-04

打赏
举报

回复

if (b[0] == (byte)0xef && b[1] == (byte)0xbb && b[2] == (byte)0xbf)
guess = "UTF-8";
else if (b[0] == (byte)0xff && b[1] == (byte)0xfe)
guess = "UTF-16";
else if (b[0] == (byte)0xfe && b[1] == (byte)0xff && b[2] == (byte)0x00)
guess = "UTF-16BE";
我这样写了

nanjg 2008-05-04

打赏
举报

回复

sorry 发错了一个链接

讨论继续

nanjg 2008-05-04

打赏
举报

回复

http://topic.csdn.net/u/20080402/11/7ab3a3f3-1019-4c0a-ac99-35388f064b1e.html

TomyGuan 2008-05-04

打赏
举报

回复

用头二个字节来判断

TomyGuan 2008-05-04

打赏
举报

回复

byte [] buff = item.get();//把字符变成byte
if (buff[0]==-17 && buff[1]==-69 && buff[2]==-65){
this.str = new String(buff,"utf-8");//utf-8
}else if(buff[0]==-1 && buff[1]==-2){
this.str = new String(buff,"unicode");//unicode
}else if(buff[0]==-2 && buff[1]==-1){
this.str = new String(buff,"unicode big endian");//unicode big endian
}else{
this.str = new String(buff,"big5");
}

ee4456 2008-05-04

打赏
举报

回复

有没有人啊

ee4456 2008-05-04

打赏
举报

回复

在线等,急用,各位大下帮忙

Python 简单使用 pandas 读取excel 的 csv文件处理，支持utf-8和gbk编码自动识别。

使用Matlab的过程中，发现对某些脚本文件进行标记注释时会提示如下图所示内容：看了一下右下角的编码格式，果然是GBK模式。遂搜索解决办法，基本上是在matlab根文件bin下的lcdata.xml文件更改编码格式。但经过自己实验过后，发现并不能改善自己的这种状况。于是尝试运行往日编写的代码文件，发现编码格式变为了UTF-8。此时意识到，这种情况可能是文件格式识别出现了问题，导致编码过程中，自动将文件使用GBK格式运行。于是新建脚本文件，看了下右下角，确实是UTF-8格式。于是将GBK文件内容复制

如果在dos窗口出现这个问题，说明文件编码无法被 utf -8 编码识别你理解成这个你写出来的源代码文件编码无法被dos命令窗口所用的编码所识别。回头看看你的文本编辑器，默认格式是什么，更改一下就好了。以editplus 为例在文档中有个文件编码自己看看是什么编码当然你不想更改源文件编码的话，直接加一个命令 -encoding gbk 就行了。这个命令就识别中文了例如 javac -encoding gbk 文件名.java 同理出现gbk的不可映射，看上面操作照葫

一、Qt环境设置 Qt Creator,菜单->工具->选项->文本编辑器->行为->文件编码: 默认编码:System(简体中文windows系统默认指的是GBK编码,即下拉框选项里的GBK/windows-936-2000/CP936/MS936/windows-936) 二、编码知识科普 Qt常见的两种编码是:UTF-8和GBK ★UTF-8：Unicode Transformat.........

本节内容 1、编码介绍 2、字符编码介绍 3、总结说到python的编码，一句话总结，说多了都是泪啊，这个在以后的python的开发中绝对是一件令人头疼的事情。所以有必要要讲讲清楚一、编码介绍 1、须知：在python 2中默认编码是 ASCII，而在python 3中默认编码是 unicode unicode 分为utf-32 (占4个字节),utf-16(占两个字节)，utf-8(占1-4个字节)，所以utf-16 是最常用的unicode版本，但是在文件里存的还是utf-8，因为ut

81,092

社区成员

341,717

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章