CFile::ReadFile，怎么判断文件是ansi的还是unicode的？

skypu 2009-03-20 02:22:42

如题



CFile theFile;

bool bRet = theFile.Read("file.htm", CFile::modeRead);

if (bRet)

{

char* szBuf = new char[theFile.Getlength()+1];

theFile.Read(szBuf, theFile.Getlength()+1);

//////////////////////////////////////////

问题来了，如果是unicode的话，这里要用的szBuf要用wchar_t*才行

那么有什么办法可以判断出unicode或者ansi的吗？

谢谢了。在线等

}

...全文

137 5 打赏收藏转发到动态举报

写回复

用AI写文章

5 条回复

切换为时间正序

请发表友善的回复…

发表回复

skypu 2009-03-20

打赏
举报

非常感谢 downmooner
授我以渔

叶落寒山 2009-03-20

打赏
举报

文本支持四种格式：ANSI/Unicode/Unicode big endian/UFT-8，

不同编码的文本，是根据文本的前两个字节来定义其编码格式的。定义如下：

ANSI：无格式定义；
Unicode：前两个字节为FFFE；
Unicode big endian：前两字节为FEFF；
UTF-8：前两字节为EFBB；

downmooner 2009-03-20

打赏
举报

打开”记事本“程序Notepad.exe，新建一个文本文件，内容就是一个”严“字，依次采用ANSI，Unicode，Unicode big endian 和 UTF-8编码方式保存。

然后，用文本编辑软件UltraEdit中的”十六进制功能“，观察该文件的内部编码方式。

1）ANSI：文件的编码就是两个字节“D1 CF”，这正是“严”的GB2312编码，这也暗示GB2312是采用大头方式存储的。

2）Unicode：编码是四个字节“FF FE 25 4E”，其中“FF FE”表明是小头方式存储，真正的编码是4E25。

3）Unicode big endian：编码是四个字节“FE FF 4E 25”，其中“FE FF”表明是大头方式存储。

4）UTF-8：编码是六个字节“EF BB BF E4 B8 A5”，前三个字节“EF BB BF”表示这是UTF-8编码，后三个“E4B8A5”就是“严”的具体编码，它的存储顺序与编码顺序是一致的。