繁简汉字的UNICODE编码

飃颻 2010-08-08 05:57:45

以下页面可以将繁简汉字转换为UNICODE代码:

http://www.xyzonline.cn

...全文

418 8 打赏收藏转发到动态举报

写回复

用AI写文章

8 条回复

切换为时间正序

请发表友善的回复…

发表回复

飃颻 2010-08-08

打赏
举报

请注意，淡黄色和淡灰色的14个字符按照GB18030_2000还是应该映射到PUA码位。这14个字符与非PUA码位的映射关系只是网友找出来的，不是标准规定的。如果按照GBK编码，这80个字符应该全部映射到PUA码位。GB18030_2000将其中66个字符映射到了非PUA码位。不过在Windows中，简体中文区域的默认代码页还是GBK，不是GB18030。

飃颻 2010-08-08

打赏
举报

1995年的汉字扩展规范GBK1.0收录了21886个符号，包括21003个汉字和883个其它符号。

这21003汉字包括CJK统一汉字区的20902个汉字。余下的101个汉字包括：

增补汉字和部首80个，包括28个部首和52个汉字。GBK编码是从FE50-FE7E，FE80-FEA0。下图标注了Unicode编码。

在制定GBK时，Unicode中还没有这些字符，所以使用了专用区的码位，这80个字符的码位是0xE815-0xE864。后来，Unicode将52个汉字收录到“CJK统一汉字扩充A”。28个部首中有14个部首被收录到“CJK部首补充区”。所以在上图中，这些字符都有两个Unicode编码。

上图中淡黄色背景的8个部首被收录到“CJK统一汉字区”的Unicode4.1新增U+9FA6—U+9FBB域的8个GB18030用字。还有6个淡灰色背景的部首被Unicode收录到“CJK统一汉字扩充B”（网友slt指正）。

水族杰纶 2010-08-08

打赏
举报

mark.

飃颻 2010-08-08

打赏
举报

1980年的GB2312一共收录了7445个字符，包括6763个汉字和682个其它符号。汉字区的内码范围高字节从B0-F7，低字节从A1-FE，占用的码位是72*94=6768。其中有5个空位是D7FA-D7FE。

这6763个汉字在Unicode中不是连续的，分布在CJK统一汉字字符区（0x4E00-0x9FA5）的20902个汉字中。

中日韩统一表意文字中日韩统一表意文字（英语：CJK Unified Ideographs），目的是要把分别来自中文、日文、韩文、越文中，本质相同、形状一样或稍异的表意文字（主要为汉字，但也有仿汉字如日本国字、韩国独有汉字、越南的喃字）于ISO 10646及Unicode标准内赋予相同编码。
历史于1990年代初ISO 10646制订时，来自台湾的代表提出将源自中国的中日韩汉字予以统一（Unify, ISO术语称为认同），可以大量节省编码空间，获其他代表接纳。

最初期的统一汉字（20,902字）字源来自以下字集：
大陆的G源： 17,124字 (G0,G1,G3,G5,G7,G8)
台湾的T源： 17,258字 (T1,T2,TE)
日本的J源： 12238字 (J1,J2,JI)
韩国的K源： 7,744字 (K0,K1)
以上的来源字集会实施字源分离原则,如下字：
U+4E1F丟U+4E22丢 U+4E48么U+5E7A幺 U+4E89争U+722D爭。