200分求解,如何知道一个文件的编码!

lzheng2001 2007-11-01 06:21:18

如何知道一个文件的编码? 请注意文件头没有任何编码信息的情况下如何知道文件的编码?

我发现用记事本打开文件，记事本能自动识别文件的编码，不知道记事是如何做到的?? 请注意，文件头绝对没有编码的信息，那些说根据文件的头两个字节来判断的方法是行不通的.
既然记事本能认出来，我想一定有方法可以知道文件的编码,希望高人指点.

...全文

881 39 打赏收藏转发到动态举报

写回复

用AI写文章

39 条回复

切换为时间正序

请发表友善的回复…

发表回复

rainv 2007-11-16

打赏
举报

学习

CaiKanXP 2007-11-16

打赏
举报

文本编码是个历史问题，移动和联通已经证明了这个问题将永远也无法解决……

kulin3422 2007-11-16

打赏
举报

学习

cxz7531 2007-11-16

打赏
举报

这个很复杂的，有一个判断编码的类，2000多行。

lzheng2001 2007-11-15

打赏
举报

to LexChen : 或许真的没有完全的方法, 即使连windows记事本也不是完美,但能做到记事本的辨认功能已经足够,我现在要探讨的是记事本的实现原理,并不是要完美的办法.

lzheng2001 2007-11-15

打赏
举报

to LexChen : 你得看看编码规律的资料. 一般来说有100个字节就足够了. 如果你用记事上打10个汉字以上,出现误认的机率几乎为0了. 事实上有99%能正确分辩已经足够, 总比什么都不知道强. 事实上我们的文件不会只有两个字节,只要字节数有几十个就足够了. 即使只有几个字节,命中率还是很高的.

LexChen 2007-11-14

打赏
举报

本来好意，如果某些话刺激了楼主的某根神经，先道歉了，但最后还有一些话
是要说一下的：

1.现实往往是残酷的，你不可能永远有足够的样本空间
2.足够长的字符串与样本空间不一样，有足够长的也是不一定的，比如重复一万次的“联通”
3.“联通”不是个例，UTF－8的“汉汉”你用GB2312来解释看看你就知道了
4.如果一种文字是用一种你不知道的编码写的，恰恰你知道的一种编码又
解释的通，难道就是你知道的那种编码么？
5.编码的问题本来就没有那么简单，俺至少也在上面耗了好多年的时间了，你
能知道的方法永远是尝试的方法，不可能没有一点的错误
6.如果给我一个支点和一个足够长的杠杆，我也可以支起地球

我不会再看这篇帖子，谢谢！

anto1985 2007-11-14

打赏
举报



public BufferedFileReader(String fileName) {

		this.fileName = fileName;

		byte[] head2 = new byte[2];

		head2[0] = 0;

		head2[1] = 0;

		try {

			InputStream in = new FileInputStream(fileName);

			int bytes = 0;

			try {

				bytes = in.read(head2);

				

			} catch (IOException ioE) {

			}

			if (bytes < 2) {

				in.close();

				bufReader = new BufferedReader(new InputStreamReader(

						new FileInputStream(fileName)));

				needCheckCharset = false;

			} else {

				try {

					if (head2[0] == (byte)0xEF && head2[1] == (byte)0xBB) {

						bufReader = new BufferedReader(new InputStreamReader(

								in, "UTF-8"));

						needCheckCharset = false;

					} else if (head2[0] == (byte)0xFF && head2[1] == (byte)0xFE) {

						bufReader = new BufferedReader(new InputStreamReader(

								in, "UTF-16LE"));

						needCheckCharset = false;

					} else if (head2[0] == (byte)0xFE && head2[1] == (byte)0xFF) {

						bufReader = new BufferedReader(new InputStreamReader(

								in, "UTF-16BE"));

						needCheckCharset = false;

					} else {

						in.close();

						bufReader = new BufferedReader(new InputStreamReader(

								new FileInputStream(fileName)));

						needCheckCharset = true;

					}

				} catch (UnsupportedEncodingException ueE) {

					ueE.printStackTrace();

				}

			}

		} catch (FileNotFoundException fnfE) {

			fnfE.printStackTrace();

		} catch (IOException ioE) {

			ioE.printStackTrace();

		}

	}