判断一个文件是否为utf-8格式的java代码，自己看吧

louzhu_SB 2013-04-02 07:19:06

import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;

public class Utf {
static String basePath="C:\\Users\\Administrator\\Desktop\\utf\\";
public static void main(String[] args) {
try {
System.out.println(isUtf(basePath+"web.xml"));
} catch (FileNotFoundException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}

/**
* 用有限状态机写的
* @param filePath
* @return
* @throws IOException
*/
public static boolean isUtf(String filePath) throws IOException{
FileInputStream fis=new FileInputStream(filePath);
byte[] bbuf=new byte[1024];
int L=-1;
int status=0;//状态
int oneByteCount=0;
int twoByteCount=0;
int threeByteCount=0;
int fourByteCount=0;
int errorCount=0;
while((L=fis.read(bbuf))!=-1){
for (int i = 0; i <L; i++) {
byte b=bbuf[i];
// System.out.print(Integer.toHexString(b&0xff)+"|");
switch (status) {
case 0:
if(b>=0&&b<=(byte)0x7F)//一个字节的首字节范围
oneByteCount++;//一个字节的数量加一
else if(b>=(byte)0xC0&&b<=(byte)0xDF)//两个字节的首字节范围
status=2;//跳到状态2
else if(b>=(byte)0xE0&&b<=(byte)0XEF)//三个字节的首字节范围
status=4;//跳到状态4
else if(b>=(byte)0xF0&&b<=(byte)0xF7)//四个字节的首字节范围
status=7;//跳到状态7
else
errorCount++;

break;
case 1:
break;
case 2:
if(b>=(byte)0x80&&b<=(byte)0xBF){//两个字节的第二个字节范围
twoByteCount++;//
status=0;
}else{
errorCount+=2;
status=0;
}
break;
case 3:
break;
case 4:
if(b>=(byte)0x80&&b<=(byte)0xBF)//三个字节的第二个字节的范围
status=5;
else{
errorCount+=2;
status=0;
}
break;
case 5:
if(b>=(byte)0x80&&b<=(byte)0xBF){//三个字节的第三个字节的范围
threeByteCount++;
status=0;
}else{
errorCount+=3;
status=0;
}
break;
case 7:
if(b>=(byte)0x80&&b<=(byte)0xBF){//四个字节的第二个字节的范围
status=8;
}else{
errorCount+=2;
status=0;
}
break;
case 8:
if(b>=(byte)0x80&&b<=(byte)0xBF){//四个字节的第三个字节的范围
status=9;
}else{
errorCount+=3;
status=0;
}
break;
case 9:
if(b>=(byte)0x80&&b<=(byte)0xBF){//四个字节的第四个字节的范围
fourByteCount+=4;
status=0;
}else{
errorCount++;
status=0;
}
break;
default:
break;
}
}

}

System.out.println("一个字节的有："+oneByteCount);
System.out.println("两个字节的有："+twoByteCount);
System.out.println("三个字节的有："+threeByteCount);
System.out.println("四个字节的有："+fourByteCount);
System.out.println("错误个数："+errorCount);
System.out.println("总共字节数有："+(oneByteCount+twoByteCount*2+threeByteCount*3+fourByteCount*4+errorCount));

if(errorCount==0){
return true;
}
return false;
}

}

...全文

705 10 打赏收藏转发到动态举报

写回复

10 条回复

切换为时间正序

请发表友善的回复…

发表回复

louzhu_SB 2013-04-07

打赏
举报

回复

引用 9 楼 bao110908 的回复:

UTF-8 编码的数据中 BOM 字符是可以省略掉的，而且大多数的应用软件都将编码格式为 UTF-8 的 BOM 省略掉了。

什么是Bom

火龙果被占用了 2013-04-06

打赏
举报

回复

UTF-8 编码的数据中 BOM 字符是可以省略掉的，而且大多数的应用软件都将编码格式为 UTF-8 的 BOM 省略掉了。

你好不开心 2013-04-05

打赏
举报

回复

我是来看楼主名字的

rumlee 2013-04-03

打赏
举报

回复

引用 1 楼 lyyzm4321 的回复:

顶！楼主名字好帅气

++ 楼主这个代码很好。

想喝咖啡的貓 2013-04-03

打赏
举报

回复

UTF-8头不就几个字节吗? 需要读1024?

rockets311 2013-04-03

打赏
举报

回复

七神之光 2013-04-03

打赏
举报

回复

少年太天真 2013-04-03

打赏
举报

回复

顶！楼主名字好帅气

LCore 2013-04-03

打赏
举报

回复

引用 6 楼 louzhu_SB 的回复:

引用 4 楼 AFer198215 的回复:UTF-8头不就几个字节吗? 需要读1024? 并不是所有utf-8文件前面没加那几个字节，比如java文件，xml文件等等，你用记事本写的话可以那样判断。

++ 楼主名字好帅气！

louzhu_SB 2013-04-03

打赏
举报

回复

引用 4 楼 AFer198215 的回复:

UTF-8头不就几个字节吗? 需要读1024?

并不是所有utf-8文件前面没加那几个字节，比如java文件，xml文件等等，你用记事本写的话可以那样判断。

这篇文章将教你快速地上手使用 Spring 框架. 如果你手上有一本《Spring in Action》, 那么你最好从第三部分"Spring 在 Web 层的应用--建立 Web 层"开始看, 否则那将是一场恶梦! 首先, 我需要在你心里建立起 Spring MVC 的基本概念. 基于 Spring 的 Web 应用程序接收到 http://localhost:8080/hello.do(事实上请求路径是 /hello.do) 的请求后, Spring 将这个请求交给一个名为 helloController 的程序进行处理, helloController 再调用一个名为 hello.jsp 的 jsp 文件生成 HTML 代码发给用户的浏览器显示. 上面的名称(/hello.do, helloController, hello.jsp) 都是变量, 你可以更改. 在 Spring MVC 中, jsp 文件中尽量不要有 Java 代码, 只有 HTML 代码和"迭代(forEach)"与"判断(if)"两个jstl标签. jsp 文件只作为渲染(或称为视图 View)模板使用. 好了, 我们开始吧. 首先我们需要一个放在 WEB-INF 目录下的 web.xml 文件: web.xml: 1 2 3 7 8 9 contextConfigLocation 10 11 /WEB-INF/database.xml 12 /WEB-INF/applicationContext.xml 13 14 15 16 17 org.springframework.web.context.ContextLoaderListener 18 19 20 21 encodingFilter 22 org.springframework.web.filter.CharacterEncodingFilter 23 24 encoding 25 UTF-8 26 27 28 29 30 encodingFilter 31 *.do 32 33 34 35 ideawu 36 org.springframework.web.servlet.DispatcherServlet 37 1 38 39 40 41

charset里的问题, 一般我们都用unicode来作为统一编码, 但unicode也有多种表现形式首先, 我们说的unicode, 其实就是utf-16, 但最通用的却是utf-8,原因: 我猜大概是英文占的比例比较大, 这样utf-8的存储优势比较明显, 因为utf-16是固定16位的(双字节), 而utf-8则是看情况而定, 即可变长度, 常规的128个ASCII只需要8位(单字节), 而...

这次的开发任务是和银行交互数据。本地应用的java文件编码格式是GBK，通信方式采用httpclient，调用httpclient的时候设定的请求参数格式为UTF-8。银行的java文件编码格式是UTF-8，post返回数据格式也是为UTF-8，post之前没有显示的进行任何编码转换。本地应用得到银行post过来的键值对，其中有值为中文的显示为乱码。初步判断问题为UTF-8和GBK之间编码

UTF-8 不需要 BOM，尽管 Unicode 标准允许在 UTF-8 中使用 BOM。所以不含 BOM 的 UTF-8 才是标准形式，在 UTF-8 文件中放置 BOM 主要是微软的习惯（顺便提一下：把带有 BOM 的小端序 UTF-16 称作「Unicode」而又不详细说明，这也是微软的习惯）。BOM（byte order mark）是为 UTF-16 和 UTF-32 准备的，用于标记字节...

详细介绍将C++程序代码改造为UTF-8编码时可能遇到的问题，以及具体的解决方案；同时介绍了字符编码的相关知识。

62,623

社区成员

307,257

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章