请教Unicode的编码格式

AYellow 2003-08-07 10:11:37

Unicode到底是如何编码的？
UTF-8代表什么，如何编码？
java中的char是16位的，只能表示6万多个字符，好像汉字就有几万个吧，String是以char为基础的,java内部怎么表示世界各国的语言字符？
好像有更多位的编码格式，但是怎么放在char里面，系统如何识别它？

...全文

401 4 打赏收藏转发到动态举报

写回复

用AI写文章

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

fpwang 2003-08-07

打赏
举报

关注，学习

songbo_pp 2003-08-07

打赏
举报

Java 内部处理字符使用的字序方式是 Unicode，这是一种通行全球的编码方式。Unicode 因为必须将中、韩、日、英、法、阿拉伯……等许多国家所使用的文字都纳入，目前已经包含了六万多个字符，所以 Unicode 使用了 16 个位来为字符编码。因为 Unicode 使用了 16 位编码，所以每个字符都用 16 位来储存或传输是很自然的事，这种储存或传输的格式称为 UTF-16（是不是很像战斗机的名字）。如果你使用到的字符都是西方字符，那么你一定不会想用 UTF-16 的格式，因为体积比 8 位的 Latin-1（一种扩充 ASCII 的编码）多了一倍。所以 Unicode 另有一种储存或传输的格式，叫做 UTF-8。UTF-8 的格式在编码英文时，只需要 8 位，但是中文则是 24 位，所以中文字出现比例高的地方还是使用 UTF-16 比较节省空间。Java 的 Class File（也就是 bytecode）中有一字段叫做常数区（Constant Pool），一律使用 UTF-8 为字符编码。
为了将成千上万的文字统一到同一个编码机制之下，在兼顾经济的原则下，不管是东方文字还是西方文字，在Unicode中一律用两个字节来表示。也就是说，Unicode是一种双字节编码机制的字符集，使用0-65535之间的双字节无符号整数对每个字符进行编码。这样，在Unicode字符集中，至少可以定义65536个不同的字符，足以应付目前绝大多数场合的需要。
UTF-8 是一种不等幅的编码方式，UTF-8编码的字节长度取决于所要编码的字符在ISO 10646中的编码值。在UTF-8中，不同的字符，可能需要1-6个字节来进行编码。对于单字节的UTF-8编码，该字节的最高位为0，其余7位用来对字符进行编码（等同于ASCII码）。对于多字节的UTF-8编码，如果编码包含n个字节，那么第一个字节的前n位为1，第一个字节的第n+1位为0，该字节的剩余各位用来对字符进行编码。在第一个字节之后的所有的字节，都是最高两位为"10"，其余6位用来对字符进行编码。
UTF-16也是Unicode的变形表示方式的一种。它的目的是维持双八位的编码方式，同时也用一些特殊的双八位来表示ISO 10646中非基本多文种平面（BMP）中的一些字符。这种用来表示非BMP字符的方法在Unicode中称作代理对机制。
代理对的编码机制以及原先不需要代理对的六万三千多个基本 Unicode 码，合起来叫做UTF-16。也就是说UTF-16 基本上就是 Unicode双字节编码的实现，再加上一个应付未来扩充需要的编码机制。

feiyuegaoshan 2003-08-07

打赏
举报

1.“java内部怎么表示世界各国的语言字符？”
这个问题，songbo_pp(皮皮) 已经回答的很好了。
2.“好像有更多位的编码格式，但是怎么放在char里面，系统如何识别它？”
我来回答第二个问题。
char里只存放编码。说直白点就是0x0000-0xFFFF之间的数字。
“系统如何识别它”有两个含义，一是java系统如何识别。二是本地系统如何识别。
java系统不会去识别。他只认识编码。对于特殊编码，java编译器会依据常规来处理，如0x000D表示回车。对于普通数字，java一律看成字符。
本地系统，如linux，win2k,etc，是依靠本地编码原则来识别unicode，所谓识别，就是win2k看到了0x0041后，会在屏幕上显示字母：A，这就叫识别了，如果看到0x4F60，就显示汉族“你”。之所以能显示是因为有对应的模块来做翻译。如果在日文系win2k统里，因为不含有汉字模块的unicode转换，就不会显示汉字了。
这些都叫系统识别。

GeminiFox 2003-08-07