繁简汉字的UNICODE编码

飃颻 2010-08-08 05:57:45

以下页面可以将繁简汉字转换为UNICODE代码:

http://www.xyzonline.cn

...全文
418 8 打赏 收藏 转发到动态 举报
写回复
用AI写文章
8 条回复
切换为时间正序
请发表友善的回复…
发表回复
飃颻 2010-08-08
  • 打赏
  • 举报
回复
请注意,淡黄色和淡灰色的14个字符按照GB18030_2000还是应该映射到PUA码位。这14个字符与非PUA码位的映射关系只是网友找出来的,不是标准规定的。如果按照GBK编码,这80个字符应该全部映射到PUA码位。GB18030_2000将其中66个字符映射到了非PUA码位。不过在Windows中,简体中文区域的默认代码页还是GBK,不是GB18030。

飃颻 2010-08-08
  • 打赏
  • 举报
回复
1995年的汉字扩展规范GBK1.0收录了21886个符号,包括21003个汉字和883个其它符号。

这21003汉字包括CJK统一汉字区的20902个汉字。余下的101个汉字包括:

增补汉字和部首80个,包括28个部首和52个汉字。GBK编码是从FE50-FE7E,FE80-FEA0。下图标注了Unicode编码。



在制定GBK时,Unicode中还没有这些字符,所以使用了专用区的码位,这80个字符的码位是0xE815-0xE864。后来,Unicode将52个汉字收录到“CJK统一汉字扩充A”。28个部首中有14个部首被收录到“CJK部首补充区”。所以在上图中,这些字符都有两个Unicode编码。

上图中淡黄色背景的8个部首被收录到“CJK统一汉字区”的Unicode4.1新增U+9FA6—U+9FBB域的8个GB18030用字。还有6个淡灰色背景的部首被Unicode收录到“CJK统一汉字扩充B”(网友slt指正)。

水族杰纶 2010-08-08
  • 打赏
  • 举报
回复
mark.
飃颻 2010-08-08
  • 打赏
  • 举报
回复
1980年的GB2312一共收录了7445个字符,包括6763个汉字和682个其它符号。汉字区的内码范围高字节从B0-F7,低字节从A1-FE,占用的码位是72*94=6768。其中有5个空位是D7FA-D7FE。

这6763个汉字在Unicode中不是连续的,分布在CJK统一汉字字符区(0x4E00-0x9FA5)的20902个汉字中。

中日韩统一表意文字中日韩统一表意文字(英语:CJK Unified Ideographs),目的是要把分别来自中文、日文、韩文、越文中,本质相同、形状一样或稍异的表意文字(主要为汉字,但也有仿汉字如日本国字、韩国独有汉字、越南的喃字)于ISO 10646及Unicode标准内赋予相同编码。
历史于1990年代初ISO 10646制订时,来自台湾的代表提出将源自中国的中日韩汉字予以统一(Unify, ISO术语称为认同),可以大量节省编码空间,获其他代表接纳。

最初期的统一汉字(20,902字)字源来自以下字集:
大陆的G源: 17,124字 (G0,G1,G3,G5,G7,G8)
台湾的T源: 17,258字 (T1,T2,TE)
日本的J源: 12238字 (J1,J2,JI)
韩国的K源: 7,744字 (K0,K1)
以上的来源字集会实施字源分离原则,如下字:
U+4E1F丟U+4E22丢 U+4E48么U+5E7A幺 U+4E89争U+722D爭。
永生天地 2010-08-08
  • 打赏
  • 举报
回复
看了,还行
飃颻 2010-08-08
  • 打赏
  • 举报
回复
[Quote=引用 1 楼 guguda2008 的回复:]
怕有病毒,等别人试一下。
[/Quote]

如果BS结构和JSP页面都怕有病毒,估计天底下没有几个人敢上网了。
guguda2008 2010-08-08
  • 打赏
  • 举报
回复
怕有病毒,等别人试一下。

34,590

社区成员

发帖
与我相关
我的任务
社区描述
MS-SQL Server相关内容讨论专区
社区管理员
  • 基础类社区
  • 二月十六
  • 卖水果的net
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧