中英文字符在CString中的长度计算和部分字符内容的获取

步履人生 2010-02-25 05:49:03
CString str=_T("这是1个测试程序123");
int nLen=str.GetLength(str); // 得到18而不是11
CString sLeft=str.Left(3); // 得到的是乱码,不是 "这是1",如何才能得到我想要的字符串呢?我知道这个原因是中文字符占2个字节的原因,但是在字符串中,如何才能区分出这个区别呢?我记得原来在写程序的时候没有出现过这个问题的,一个中文字获取的长度是1啊,是工程那个地方需要设置什么吗?高手指点!
...全文
2416 28 打赏 收藏 转发到动态 举报
写回复
用AI写文章
28 条回复
切换为时间正序
请发表友善的回复…
发表回复
liuxianliuxian 2010-11-02
  • 打赏
  • 举报
回复
[Quote=引用 3 楼 allen_zhang 的回复:]
用unicode
或者逐个判断是否中文字符,如果是的话读两个
[/Quote]
怎么判断是不是中文字符呢?
grf9527 2010-03-02
  • 打赏
  • 举报
回复
很有意思,关注了,我用的vc7.1,如果可以的话,我建议使用char,同时设置系统的字符长度,从1到8可调节。
yhp1888 2010-03-02
  • 打赏
  • 举报
回复
引用 24 楼 afxtian 的回复:
从调试窗口看str还是1,不是10,但是从对话框MessageBox(str);中却是10,是什么原因?怎么会不一样呢?以前做写工程的时候没有设置过Unicode编译方式,这还是第一次,哈哈。那也应该在调试窗口看到的str值也应该10才对啊,搞不懂,yhp1888 遇到过这样的问题吗,你把我的那段代码在你的环境下Unicode方式编译调试看看是不是这个情况。

还有atoi只能用于ANSI编码吗?


老兄,从调试窗口看str是1000,而不是10,我这不用试。

我上面不是也说了吗:

“UNICODE编码的数字、字母等,保留原ANSI的8位编码,后面加上八个二进制0。”

比如:ANSI下的1,内存是0x30;UNICODE下的1,内存是0x30,0x00
比如:ANSI下的10,内存是0x30,0x00;UNICODE下的10,内存是0x30,0x00,0x00,0x00

边试验边看书,是最好的学习方法,可你只试不看。
yhp1888 2010-03-02
  • 打赏
  • 举报
回复
引用 24 楼 afxtian 的回复:
从调试窗口看str还是1,不是10,但是从对话框MessageBox(str);中却是10,是什么原因?怎么会不一样呢?以前做写工程的时候没有设置过Unicode编译方式,这还是第一次,哈哈。那也应该在调试窗口看到的str值也应该10才对啊,搞不懂,yhp1888 遇到过这样的问题吗,你把我的那段代码在你的环境下Unicode方式编译调试看看是不是这个情况。

还有atoi只能用于ANSI编码吗?


你要用atoi,也只能用_ttoi,atoi只能用于ANSI编码

我上面不是说了吗:

ANSI操作函数以str开头,如strcpy(),strcat(),strlen();
Unicode操作函数以wcs开头,如wcscpy,wcscpy(),wcslen();
ANSI/Unicode互为兼容的操作函数以_tcs开头 _tcscpy(C运行期库);
ANSI/Unicode互为兼容的操作函数以lstr开头 lstrcpy(Windows函数);
考虑ANSI和Unicode的兼容,我们需要使用以_tcs开头或lstr开头的通用字符串操作函数。

小知识的小提示:

比如:char,你要用TCHAR,则在ANSI自动编译为char,在UNICODE自动编译为wchar_t
比如:MessageBox,不管你怎么用,在ANSI下自动编译为MessageBoxA,在UNICODE自动编译为MessageBoxW
步履人生 2010-03-02
  • 打赏
  • 举报
回复
从调试窗口看str还是1,不是10,但是从对话框MessageBox(str);中却是10,是什么原因?怎么会不一样呢?以前做写工程的时候没有设置过Unicode编译方式,这还是第一次,哈哈。那也应该在调试窗口看到的str值也应该10才对啊,搞不懂,yhp1888 遇到过这样的问题吗,你把我的那段代码在你的环境下Unicode方式编译调试看看是不是这个情况。

还有atoi只能用于ANSI编码吗?
yhp1888 2010-03-01
  • 打赏
  • 举报
回复
你这样试一下,看是多少?

void CSetting::OnChangeEditModifyStop()
{
CString str;
UpdateData(); // UpdateData(0); 这个不能这样用,要放在下面
m_edtSrcModifyEnd.UpdateData(); // 根据你没有说出的上下文,好像还应该是这样。
m_edtSrcModifyEnd.GetWindowText(str);// 得到的只有一位
MessageBox(str);/ 看是多少?1?10?
int n=_ttoi(str); // 精简的用法
if(n <0)
{
m_edtSrcModifyEnd.SetWindowText(_T("0"));
m_edtSrcModifyEnd.UpdateData(0);
}
}

UpdateData(0); // 放在这
yhp1888 2010-03-01
  • 打赏
  • 举报
回复
不可能,你再检查。如果是你说的,那是微软的错,微软不可能这样错得离谱
步履人生 2010-03-01
  • 打赏
  • 举报
回复
关键是我到m_edtSrcModifyEnd.GetWindowText(str);这句的时候得到的str就只有一位数字啊,
我在控件m_edtSrcModifyEnd中设置的是10,通过上面这个GetWindowText之后得到的str值就是1,而不是10.
yhp1888 2010-02-28
  • 打赏
  • 举报
回复
楼主看一下什么是宽字符

电脑发展的初期,只是在美国等英文国家使用,英文只有26个字母和其它字符,一个字节最多可以表示256个字符,如字母“A”用0x41(二进制01000001)表示,字母“a”用0x61(二进制01100001)表示。为了使各家电脑公司生产的电脑统一,美国搞了个国家标准ANSI,一直沿用至今,我们今天用的电脑普通情况下使用的都ANSI编码。

ANSI编码,每个字符占一个字节,但最多只能表示256个字符。
汉字等东亚语言字符怎么办呢?于是采用两个字节共同表示一个汉字的方法。二个字节理论上可以表示65535个字符。
因为ANSI标准是用一个字节的7个位表示一个普通字符,最高位为0(如字母“A”的二进制01000001),所以表示汉字就采用最高位为1来表示。如“中”字就是用0xD6、0xD0表示(二进制11010110、11010000)。
程序员判断一个字符是否为汉字,就是通过最高位是否为1来判断的。

但是,中国大陆的汉字表示方法叫GB码(中国国家标准,如GB2312),中国台湾、香港的汉字表示方法叫BIG5码(大五码,台湾一家民营公司提出),还有韩、日等字符,还是造成了计算机文字表示的不统一。
所以,在W98时代,电脑上网、收发邮件等经常出现乱码的现象(就是文字标准不统一造成的)

ANSI编码字符,叫多字节字符

UNICODE编码,每个字符占二个字节。也叫万国码(一种国际标准字符集,为世界上绝大多数已知的字符集定义了唯一的16位数值)

UNICODE编码的数字、字母等,保留原ANSI的8位编码,后面加上八个二进制0。
中国国家标准的UNICODE编码汉字,叫GB18030(与UNICODE相同,2002年开始执行),有27533个汉字。

UNICODE编码字符,叫宽字节字符

从Windows 2000开始,使用UNICODE编码,但为了保持兼容,默认的还是ANSI编码。


上面各位提出了两个函数:
WideCharToMultiByte() //宽字符转多字节字符
MultiByteToWideChar() //多字节字符转宽字符
就是用于两种字符转换的。

那么程序员如何处理这两种编码方式呢?

你可以使用默认的ANSI编码,也可以使用UNICODE编码
比如在VC60下,默认方式下建立的是ANSI编码的工程(注:编译的exe内部,其资源字符是以UNICODE保存)
建立UNICODE编码工程的方法:
1、为工程添加UNICODE和_UNICODE预处理选项。
  具体步骤:打开[工程]->[设置…]对话框,在C/C++标签对话框的“预处理程序定义”中去除_MBCS,加上_UNICODE,UNICODE。(注意中间用逗号隔开)。
  在没有定义UNICODE和_UNICODE前,所有函数和类型都默认使用ANSI的版本;在定义了UNICODE和_UNICODE之后,所有的MFC类和Windows API都变成了宽字节版本了。
2、设置程序入口点
  因为MFC应用程序有针对Unicode专用的程序入口点,我们要设置entry point。否则就会出现连接错误。
  设置entry point的方法是:打开[工程]->[设置…]对话框,在Link页的Category:Output类别的Entry Point里填上wWinMainCRTStartup。

程序员的几个编程习惯:
1、用THCAR代替char
2、字符串加_T(""),如_T("你好")
3、用_tcscpy等代替strcpy等
ANSI操作函数以str开头,如strcpy(),strcat(),strlen();
Unicode操作函数以wcs开头,如wcscpy,wcscpy(),wcslen();
ANSI/Unicode互为兼容的操作函数以_tcs开头 _tcscpy(C运行期库);
ANSI/Unicode互为兼容的操作函数以lstr开头 lstrcpy(Windows函数);
考虑ANSI和Unicode的兼容,我们需要使用以_tcs开头或lstr开头的通用字符串操作函数。

这样,你在ANSI/UNICODE环境下编译时,可以不修改代码。


ANSI/UNICODE下的字符转换和其它
1、在ANSI下,如果程序本身产生的字符(串),如在代码中直接赋值的CString str = _T("你好"),不需要转换,但是,字符(串)是从其它地方来的,如读取UNICODE编码的文件,通信接收的UNICODE数据,则需要转换,转换使用上面两个函数。

2、同理,在UNICODE下,如果程序本身产生的字符(串),如在代码中直接赋值的CString str = _T("你好"),不需要转换,但是,字符(串)是从其它地方来的,如读取ANSI编码的文件,通信接收的ANSI数据,则需要转换,转换使用上面两个函数。

3、不管是ANSI,还是UNICODE,在资源中的字符串,如String Table中的、对话框的静态文本,都不需要转换,因为它们编译后是以UNICODE保存在.exe中的。
对话框上的汉字,只要是简繁同形的,同一个.exe运行在简体Windows和繁体Windows下都可以正常显示,当然两者必须要有对应的字体(库),都用System字体是可以的,或者简体Windows下用“宋体”,繁体Windows下用“新細明體”。简体的“中”和繁体的“中”字体相同,是简繁同形,简体的“国”和繁体的“國”字形不同,是简繁异形。

4、另外,同一个字符串在ANSI和UNICODE下计数个数不同。如“123你好”,在ANSI下是7个字符,在UNICODE下是5个字符。使用CString 的.GetLength()时要特别注意。

ANSI与UNICODE编码的体验

1、你用Windows下的记事本新建立一个文件,输入一段文字,如“123abc你好”,你可以在任何时间双击打开它,可以看懂里面的文字。
2、再打开该记事本,选“文件->另存为”,在对话框的“编码”中选“Unicode”,保存,你可以在任何时间双击打开它,可以看懂里面的文字。

第1步建立的是ANSI编码文件,保存的汉字是GB2312/GBK汉字(ANSI编码),每个汉字占2个字节,数字字母是ANSI字符,每个字符占1个字节。

第2步建立的是UNICODE编码文件,保存的汉字是GB18030汉字(UNICODE编码),每个汉字占2个字节,数字字母是UNICODE字符,每个字符占2个字节。

3、用十六进制编辑器,如UltraEdit,分别打开上面的两个文件,在十六进制下比较,你会发现其中的奥妙,还有,你再比较这两个文件所占的字节数(不等于字符数)。提示:UNICODE文本文件以0xFE、0xFF开头。


楼主还可以参考我的另一个回贴
怎样把Unicode代码转换成中文字符
yhp1888 2010-02-28
  • 打赏
  • 举报
回复
这行代码

int n=atoi((const char*)str.GetBuffer(str.GetLength()+1));


应该改成:

int n=_wtoi((const wchar_t*)str.GetBuffer(str.GetLength()+1));

注意,我没有验证,我只是告诉你用什么函数。


UNICODE下,除了字符串前加_T()外,所有的函数都要用支持UNICODE的,正如上面我替楼主改的。

再比如,拷贝函数要用_tcscpy代替strcpy,你查一下_tcscpy的MSDN帮助
yhp1888 2010-02-28
  • 打赏
  • 举报
回复
果然,楼主又使用了ANSI:

int n=atoi((const char*)str.GetBuffer(str.GetLength()+1));

就是我上面先给你分析的原因
步履人生 2010-02-28
  • 打赏
  • 举报
回复
void CSetting::OnChangeEditModifyStop()
{
// TODO: If this is a RICHEDIT control, the control will not
// send this notification unless you override the CDialog::OnInitDialog()
// function and call CRichEditCtrl().SetEventMask()
// with the ENM_CHANGE flag ORed into the mask.

// TODO: Add your control notification handler code here
CString str;
UpdateData(); UpdateData(0);
m_edtSrcModifyEnd.GetWindowText(str);// 得到的只有一位
int n=atoi((const char*)str.GetBuffer(str.GetLength()+1));
str.ReleaseBuffer();
if(n<0)
{
m_edtSrcModifyEnd.SetWindowText(_T("0"));
m_edtSrcModifyEnd.UpdateData(0);
}
}

yhp1888 2010-02-28
  • 打赏
  • 举报
回复
楼主睡了?我先说吧。

UNICODE编码,字母/数字/符号/汉字等,都是两个字节。

UNICODE字母/数字/符号的编码,是在原来ANSI编码的字母/数字/符号的基础上,后面加上00。

如数字'1',ANSI编码为:0x31,UNICODE编码为:0x3100(两个字节);

如果你取数字“12”,四个字节,UNICODE编码分别是:0x31,0x00,0x32,0x00;

在ANSI下,字符串以“\0”结束。你取得0x31,0x00,0x32,0x00,第二个字节为0x00,表示字符串结束了。
--所以楼主“之后str的值是1,而不是10”,因为字符串结束了。


但是,在UNICODE下,0x31,0x00,0x32,0x00可以正确地显示“12”,所以是你的代码搞错了,所以叫你贴下代码。
yhp1888 2010-02-28
  • 打赏
  • 举报
回复
你贴一下你取内容的代码看。
步履人生 2010-02-28
  • 打赏
  • 举报
回复
引出的新问题:
我改成了UNICODE工程,但是在获取EDIT控件(设置了Number属性)中的字符串的时候,只能取得第一位,比如输入的10,但在使用GetDlgItem(IDC_EDIT_BEGIN_NUM)->GetWindowText(str);之后str的值是1,而不是10,不知道是什么原因,继续高手解答一下!
yhp1888 2010-02-27
  • 打赏
  • 举报
回复
引用 12 楼 pointertopointer 的回复:
郁门,我用MFC的时候,也是中英混合,有时候也会榨取字符。咋就没遇到楼主说的问题。肯定我见识太少了


知道了字符是怎么存的,也知道ASCII/ANSI/UNICODE/简体/繁体/E文在电脑中的是怎么存的,

肯定“没遇到楼主说的问题。肯定我见识太少了”

我还经常对ANSI/UNICODE进行混存,以节省空间。

我还经常在一个程序中同时支持英文/简体/繁体,以进行“多语言”支持。

上面各楼说的,综合一下就正确了,我等就没必要再发言了,纯帮顶。
PointertoPointer 2010-02-27
  • 打赏
  • 举报
回复
郁门,我用MFC的时候,也是中英混合,有时候也会榨取字符。咋就没遇到楼主说的问题。肯定我见识太少了
步履人生 2010-02-27
  • 打赏
  • 举报
回复
我改成了UNICODE工程,但是在获取EDIT控件(设置了Number属性)中的字符串的时候,只能取得第一位,比如输入的10,但在使用GetDlgItem(IDC_EDIT_BEGIN_NUM)->GetWindowText(str);之后str的值是1,而不是10,不知道是什么原因,继续高手解答一下!
Eleven 2010-02-26
  • 打赏
  • 举报
回复
ls的兄弟真NX,贴这么多东西。。。。。。。。。。
长尾巴的悟空 2010-02-26
  • 打赏
  • 举报
回复
UNICODE环境设置
在安装Visual Studio时,在选择VC++时需要加入unicode选项,保证相关的库文件可以拷贝到system32下。

UNICODE编译设置:
C/C++, Preprocessor difinitions 去除_MBCS,加_UNICODE,UNICODE
在ProjectSetting/link/output 中设置Entry为wWinMainCRTStartup
反之为MBCS(ANSI)编译。

Unicode :宽字节字符集

1. 如何取得一个既包含单字节字符又包含双字节字符的字符串的字符个数?
可以调用Microsoft Visual C++的运行期库包含函数_mbslen来操作多字节(既包括单字节也包括双字节)字符串。
调用strlen函数,无法真正了解字符串中究竟有多少字符,它只能告诉你到达结尾的0之前有多少个字节。
size_t strlen( const char *string );
size_t wcslen( const wchar_t *string );
size_t _mbslen( const unsigned char *string );
size_t _mbstrlen( const char *string );

2. 如何对DBCS(双字节字符集)字符串进行操作?
函数 描述
PTSTR CharNext ( LPCTSTR ); 返回字符串中下一个字符的地址
PTSTR CharPrev ( LPCTSTR, LPCTSTR ); 返回字符串中上一个字符的地址
BOOL IsDBCSLeadByte( BYTE ); 如果该字节是DBCS字符的第一个字节,则返回非0值

3. 为什幺要使用Unicode?
(1) 可以很容易地在不同语言之间进行数据交换。
(2) 使你能够分配支持所有语言的单个二进制.exe文件或DLL文件。
(3) 提高应用程序的运行效率。
Windows 2000是使用Unicode从头进行开发的,如果调用任何一个Windows函数并给它传递一个ANSI字符串,那幺系统首先要将字符串转换成Unicode,然后将Unicode字符串传递给操作系统。如果希望函数返回ANSI字符串,系统就会首先将Unicode字符串转换成ANSI字符串,然后将结果返回给你的应用程序。进行这些字符串的转换需要占用系统的时间和内存。通过从头开始用Unicode来开发应用程序,就能够使你的应用程序更加有效地运行。
Windows CE 本身就是使用Unicode的一种操作系统,完全不支持ANSI Windows函数
Windows 98 只支持ANSI,只能为ANSI开发应用程序。
Microsoft公司将COM从16位Windows转换成Win32时,公司决定需要字符串的所有COM接口方法都只能接受Unicode字符串。

4. 如何编写Unicode源代码?
Microsoft公司为Unicode设计了WindowsAPI,这样,可以尽量减少代码的影响。实际上,可以编写单个源代码文件,以便使用或者不使用Unicode来对它进行编译。只需要定义两个宏(UNICODE和_UNICODE),就可以修改然后重新编译该源文件。
_UNICODE宏用于C运行期头文件,而UNICODE宏则用于Windows头文件。当编译源代码模块时,通常必须同时定义这两个宏。

5. Windows定义的Unicode数据类型有哪些?
数据类型 说明
WCHAR Unicode字符
PWSTR 指向Unicode字符串的指针
PCWSTR 指向一个恒定的Unicode字符串的指针
对应的ANSI数据类型为CHAR,LPSTR和LPCSTR。
ANSI/Unicode通用数据类型为TCHAR,PTSTR,LPCTSTR。

6. 如何对Unicode进行操作?
字符集 特性 实例
ANSI 操作函数以str开头 strcpy
Unicode 操作函数以wcs开头 wcscpy
MBCS 操作函数以_mbs开头 _mbscpy
ANSI/Unicode 操作函数以_tcs开头 _tcscpy(C运行期库)
ANSI/Unicode 操作函数以lstr开头 lstrcpy(Windows函数)
所有新的和未过时的函数在Windows2000中都同时拥有ANSI和Unicode两个版本。ANSI版本函数结尾以A表示;Unicode版本函数结尾以W表示。Windows会如下定义:
#ifdef UNICODE
#define CreateWindowEx CreateWindowExW
#else
#define CreateWindowEx CreateWindowExA
#endif // !UNICODE

7. 如何表示Unicode字符串常量?
字符集 实例
ANSI “string”
Unicode L“string”
ANSI/Unicode T(“string”)或_TEXT(“string”)
if( szError[0] == _TEXT(‘J’) ){ }

8. 为什幺应当尽量使用操作系统函数?
这将有助于稍稍提高应用程序的运行性能,因为操作系统字符串函数常常被大型应用程序比如操作系统的外壳进程Explorer.exe所使用。由于这些函数使用得很多,因此,在应用程序运行时,它们可能已经被装入RAM。
如:StrCat,StrChr,StrCmp和StrCpy等。

9. 如何编写符合ANSI和Unicode的应用程序?
(1) 将文本串视为字符数组,而不是chars数组或字节数组。
(2) 将通用数据类型(如TCHAR和PTSTR)用于文本字符和字符串。
(3) 将显式数据类型(如BYTE和PBYTE)用于字节、字节指针和数据缓存。
(4) 将TEXT宏用于原义字符和字符串。
(5) 执行全局性替换(例如用PTSTR替换PSTR)。
(6) 修改字符串运算问题。例如函数通常希望在字符中传递一个缓存的大小,而不是字节。这意味着不应该传递sizeof(szBuffer),而应该传递(sizeof(szBuffer)/sizeof(TCHAR)。另外,如果需要为字符串分配一个内存块,并且拥有该字符串中的字符数目,那幺请记住要按字节来分配内存。这就是说,应该调用
malloc(nCharacters *sizeof(TCHAR)),而不是调用malloc(nCharacters)。

10. 如何对字符串进行有选择的比较?
通过调用CompareString来实现。
int CompareString(
LCID Locale, // locale identifier
DWORD dwCmpFlags, // comparison-style options
LPCTSTR lpString1, // pointer to first string
int cchCount1, // size, in bytes or characters, of first string
LPCTSTR lpString2, // pointer to second string
int cchCount2 // size, in bytes or characters, of second string
);
Locale 本地比较的定义
LOCALE_USER_DEFAULT
LOCALE_SYSTEM_DEFAULT

标志 含义
NORM_IGNORECASE 忽略字母的大小写
NORM_IGNOREKANATYPE 不区分平假名与片假名字符
NORM_IGNORENONSPACE 忽略无间隔字符
NORM_IGNORESYMBOLS 忽略符号
NORM_IGNOREWIDTH 不区分单字节字符与作为双字节字符的同一个字符
SORT_STRINGSORT 将标点符号作为普通符号来处理

11. 如何判断一个文本文件是ANSI还是Unicode?
判断如果文本文件的开头两个字节是0xFF和0xFE,那幺就是Unicode,否则是ANSI。

12. 如何判断一段字符串是ANSI还是Unicode?
用IsTextUnicode进行判断。IsTextUnicode使用一系列统计方法和定性方法,以便猜测缓存的内容。由于这不是一种确切的科学方法,因此 IsTextUnicode有可能返回不正确的结果。

13. 如何在Unicode与ANSI之间转换字符串?
Windows函数MultiByteToWideChar用于将多字节字符串转换成宽字符串;函数WideCharToMultiByte将宽字符串转换成等价的多字节字符串。

14. Unicode和DBCS之间的区别
Unicode使用(特别在C程序设计语言环境里)“宽字符集”。「Unicode中的每个字符都是16位宽而不是8位宽。」在Unicode中,没有单单使用8位数值的意义存在。相比之下,在“双位组字符集”中我们仍然处理8位数值。有些位组自身定义字符,而某些位组则显示需要和另一个位组共同定义一个字符。
处理DBCS字符串非常杂乱,但是处理Unicode文字则像处理有秩序的文字。您也许会高兴地知道前128个Unicode字符(16位代码从0x0000到0x007F)就是ASCII字符,而接下来的128个Unicode字符(代码从0x0080到0x00FF)是ISO 8859-1对ASCII的扩展。Unicode中不同部分的字符都同样基于现有的标准。这是为了便于转换。希腊字母表使用从0x0370到0x03FF的代码,斯拉夫语使用从0x0400到0x04FF的代码,美国使用从0x0530到0x058F的代码,希伯来语使用从0x0590到0x05FF的代码。中国、日本和韩国的象形文字(总称为CJK)占用了从0x3000到0x9FFF的代码。Unicode的最大好处是这里只有一个字符集,没有一点含糊。

15.衍生标准
Unicode是一个标准。UTF-8是其概念上的子集,UTF-8是具体的编码标准。而UNICODE是所有想达到世界统一编码标准的标准。UTF-8标准就是Unicode(ISO10646)标准的一种变形方式,
UTF的全称是:Unicode/UCS Transformation Format,其实有两种UTF,一种是UTF-8,一种是UTF-16,
不过UTF-16使用较少,其对应关系如下:
在Unicode中编码为 0000 - 007F 的 UTF-8 中编码形式为: 0xxxxxxx
在Unicode中编码为 0080 - 07FF 的 UTF-8 中编码形式为: 110xxxxx 10xxxxxx
在Unicode中编码为 0000 - 007F 的 UTF-8 中编码形式为: 1110xxxx 10xxxxxx 10xxxxxx

utf-8是unicode的一个新的编码标准,其实unicode有过好几个标准.我们知道一直以来使用的unicode字符内码都是16位,它实际上还不能把全世界的所有字符编在一个平面系统,比如中国的藏文等小语种,所以utf-8扩展到了32位,也就是说理论在utf-8中可容纳二的三十二次方个字符. UNICODE的思想就是想把所有的字符统一编码,实现一个统一的标准.big5、gb都是独立的字符集,这也叫做远东字符集,把它拿到德文版的WINDOWS上可能将会引起字符编码的冲突....早期的WINDOWS默认的字符集是ANSI.notepad中输入的汉字是本地编码,但在NT/2000内部是可以直接支持UNICODE的。notepad.exe在WIN95和98中都是ANSI字符,在NT中则是UNICODE.ANSI和UNICODE可以方便的实现对应映射,也就是转换 ASCII是8位范围内的字符集,对于范围之外的字符如汉字它是无法表达的。unicode是16位范围内的字符集,对于不同地区的字符分区分配,unicode是多个IT巨头共同制定的字符编码标准。如果在unicode环境下比如WINDOWS NT上,一个字符占两字节16位,而在ANSI环境下如WINDOWS98下一个字符占一个字节8位.Unicode字符是16位宽,最多允许65,535字符,数据类型被称为WCHAR。
对于已有的ANSI字符,unicode简单的将其扩展为16位:比如ANSI"A"=0x43,则对应的UNICODE为
"A"= 0x0043
而ASCII用七存放128个字符,ASCII是一个真正的美国标准,所以它不能满足其他国家的需要,例如斯拉夫语的字母和汉字于是出现了Windows ANSI字符集,是一种扩展的ASCII码,用8位存放字符,低128位仍然存放原来的ASCII码,
而高128位加入了希腊字母等
if def UNICODE
TCHAR = wchar
else
TCHAR = char
你需要在Project\Settings\C/C++\Preprocesser definitions中添加UNICODE和_UNICODE
UINCODE,_UNICODE都要定义。不定义_UNICODE的话,用SetText(HWND,LPCTSTR),将被解释为SetTextA(HWND,LPTSTR),这时API将把你给的Unicode字符串看作ANSI字符串,显示乱码。因为windows API是已经编译好存在于dll中的,由于不管UNICODE还是ANSI字符串,都被看作一段buffer,如"0B A3 00 35 24 3C 00 00"如果按ANSI读,因为ANSI字串是以'\0'结束的,所以只能读到两字节"0B A3 \0",如果按UNICODE读,将完整的读到'\0\0'结束。
由于UNICODE没有额外的指示位,所以系统必须知道你提供的字串是哪种格式。此外,UNICODE好象是ANSI C++规定的,_UNICODE是windows SDK提供的。如果不编写windows程序,可以只定义UNICODE。



开发过程:
围绕着文件读写、字符串处理展开。文件主要有两种:.txt和.ini文件
在unicode和非unicode环境下字符串做不同处理的,那么需要参考以上9,10两条,以适应不同环境得字符串处理要求。
对文件读写也一样。只要调用相关接口函数时,参数中的字符串前都加上_TEXT等相关宏。如果写成的那个文件需要是unicode格式保存的,那么在创建文件时需要加入一个字节头。
CFile file;
WCHAR szwBuffer[128];
WCHAR *pszUnicode = L"Unicode string\n"; // unicode string
CHAR *pszAnsi = "Ansi string\n"; // ansi string
WORD wSignature = 0xFEFF;
file.Open(TEXT("Test.txt"), CFile::modeCreate|CFile::modeWrite);
file.Write(&wSignature, 2);
file.Write(pszUnicode, lstrlenW(pszUnicode) * sizeof(WCHAR));
// explicitly use lstrlenW function
MultiByteToWideChar(CP_ACP, 0, pszAnsi, -1, szwBuffer, 128);
file.Write(szwBuffer, lstrlenW(szwBuffer) * sizeof(WCHAR));
file.Close();
//以上这段代码在unicode和非unicode环境下都有效。这里显式的指明用Unicode来进行操作。
在非unicode环境下,缺省调用的都是ANSI格式的字符串,此时TCHAR转换为CHAR类型的,除非显式定义WCHAR。所以在这个环境下,如果读取unicode文件,那么首先需要移动2个字节,然后读取得字符串需要用MultiByteToWideChar来转换,转换后字符串信息才代表unicode数据。
在unicode环境下,缺省调用得都是unicode格式得字符串,也就是宽字符,此时TCHAR转换为WCHAR,相关得API函数也都调用宽字符类型的函数。此时读取unicode文件也和上面一样,但是读取得数据是WCHAR的,如果要转换成ANSI格式,需要调用WideCharToMultiByte。如果读取ANSI的,则不用移动两个字节,直接读取然后视需要转换即可。

某些语言(如韩语)必须在unicode环境下才能显示,这种情况下,在非unicode环境下开发,就算用字符串函数转换也不能达到显示文字的目的,因为此时调用得API函数是用ANSI的(虽然底层都是用UNICODE处理但是处理结果是按照程序员调用的API来显示的)。所以必须用unicode来开发。
加载更多回复(8)

16,550

社区成员

发帖
与我相关
我的任务
社区描述
VC/MFC相关问题讨论
社区管理员
  • 基础类社区
  • Creator Browser
  • encoderlee
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

        VC/MFC社区版块或许是CSDN最“古老”的版块了,记忆之中,与CSDN的年龄几乎差不多。随着时间的推移,MFC技术渐渐的偏离了开发主流,若干年之后的今天,当我们面对着微软的这个经典之笔,内心充满着敬意,那些曾经的记忆,可以说代表着二十年前曾经的辉煌……
        向经典致敬,或许是老一代程序员内心里面难以释怀的感受。互联网大行其道的今天,我们期待着MFC技术能够恢复其曾经的辉煌,或许这个期待会永远成为一种“梦想”,或许一切皆有可能……
        我们希望这个版块可以很好的适配Web时代,期待更好的互联网技术能够使得MFC技术框架得以重现活力,……

试试用AI创作助手写篇文章吧