mbs 与 utf-8

weblxj 2006-02-09 11:19:35

请问 mbs 编码和　utf-8编码有和关系？在我看来mbs编码是通用的，那为何还要使用utf-8和unicode编码呢？

...全文

171 3 打赏收藏转发到动态举报

写回复

用AI写文章

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

iamcaicainiao 2006-02-09

打赏
举报

字符基础 -- ASCII, DBCS, Unicode

　　所有的 string 类都是以C-style字符串为基础的。C-style 字符串是字符数组。所以我们先介绍字符类型。这里有3种编码模式对应3种字符类型。第一种编码类型是单子节字符集（single-byte character set or SBCS）。在这种编码模式下，所有的字符都只用一个字节表示。ASCII是SBCS。一个字节表示的0用来标志SBCS字符串的结束。
　　第二种编码模式是多字节字符集（multi-byte character set or MBCS）。一个MBCS编码包含一些一个字节长的字符，而另一些字符大于一个字节的长度。用在Windows里的MBCS包含两种字符类型，单字节字符（single-byte characters）和双字节字符（double-byte characters）。由于Windows里使用的多字节字符绝大部分是两个字节长，所以MBCS常被用DBCS代替。
　　在DBCS编码模式中，一些特定的值被保留用来表明他们是双字节字符的一部分。例如，在Shift-JIS编码中（一个常用的日文编码模式），0x81-0x9f之间和 0xe0-oxfc之间的值表示"这是一个双字节字符，下一个子节是这个字符的一部分。"这样的值被称作"leading bytes",他们都大于0x7f。跟随在一个leading byte子节后面的字节被称作"trail byte"。在DBCS中，trail byte可以是任意非0值。像SBCS一样，DBCS字符串的结束标志也是一个单字节表示的0。
　　第三种编码模式是Unicode。Unicode是一种所有的字符都使用两个字节编码的编码模式。Unicode字符有时也被称作宽字符，因为它比单子节字符宽（使用了更多的存储空间）。注意，Unicode不能被看作MBCS。MBCS的独特之处在于它的字符使用不同长度的字节编码。Unicode字符串使用两个字节表示的0作为它的结束标志。
　　单字节字符包含拉丁文字母表，accented characters及ASCII标准和DOS操作系统定义的图形字符。双字节字符被用来表示东亚及中东的语言。Unicode被用在COM及Windows NT操作系统内部。
　　你一定已经很熟悉单字节字符。当你使用char时，你处理的是单字节字符。双字节字符也用char类型来进行操作（这是我们将会看到的关于双子节字符的很多奇怪的地方之一）。Unicode字符用wchar_t来表示。Unicode字符和字符串常量用前缀L来表示。例如：

wchar_t wch = L''1''; // 2 bytes, 0x0031
wchar_t* wsz = L"Hello"; // 12 bytes, 6 wide characters
字符在内存中是怎样存储的

iamcaicainiao 2006-02-09

打赏
举报

http://wolfkiller.blogbus.com/logs/2005/12/1658273.html

ddddh 2006-02-09

打赏
举报

MBS并不是通用的，比如GB和BIG5，就不能共存。比如big5里面的"網"，在简体中文下，就是"呼"字。

unicode把这些都统一在同一个“地址空间”下面。

而utf-8则用byte对unicode编码，这样需要用到Unicode的地方，可以不使用short 指针而依旧使用char *来传入unicode，主要是起到一个兼容以前代码的作用。

linux下面 UTF-8 <-> UTF-16/ UTF-32 互转代码

// 转化函数 void MBSToUTF8(char * utf8, int size, const char* mbs) { if (!utf8 || !mbs) return; UINT nACP = GetACP(); int dwNum = MultiByteToWideChar(nACP, 0, mbs, -1, NULL, 0); if (dwNum <= 0) return; wchar_t* pwText = NULL; pwText = new wc

#include int UTF8ToUnicode(const char *pmbs, wchar_t *pwcs, int size){int cnt = 0;// 这里 size-- 是预先除去尾零所需位置if (pmbs != NULL && pwcs != NULL && size-- > 0) {while (*pmbs != 0 &&am...

2008-11-4: 使用MultiByteToWideChar和WideCharToMultiByte写的4个ANSI <-> Unicode <-> UTF-8 相互转换的函数。 2008-11-5: 使用C语言标准库mbstowcs和wcstombs写的w2m和m2w两个函数，分别对应ANSI <-> Unicode 相互转换。 2008-11-8: 包装一下 ANSI <-> UTF-8

UNICODE环境设置在安装Visual Studio时，在选择VC++时需要加入unicode选项，保证相关的库文件可以拷贝到system32下。 UNICODE编译设置： C/C++, Preprocessor difinitions 去除_MBCS，加_UNICODE,UNICODE 在ProjectSetting/link/output 中设置Entry为wWinMainCRTStart...