再谈Java的char和code-point

风之子赛拉飞尔 2015-11-10 06:02:55

算是一个基础语法问题了，不过在网上没有找到说得比较精准的资料。
这里把自己的研究结果分享一下，与大家共勉

char
与C/C++不同，Java中的char类型是双字节（16位）的，也就是说不管是半角字符还是全角字符都可以
用一个char表示。所以通常情况下，可以放心的使用String类的以char为单位的任何方法，完全没有问题。

code-point
中文译为“代码点”，这个概念是用于处理四字节（32位）Unicode编码的，也就是UCS-4字符集
（请参见http://bbs.csdn.net/topics/390443113#post-394385624）。如果字串中存在UCS-4字符，
那么一个此类字符对应两个char，即一个code-point对应两个char。

UCS-4
引入了平面(plane)的概念，通常使用的双字节（16位）的部分被定义为“平面0”，
目前已定义的平面序号为0~2，外加一个E平面。

参考资料：
iteye技术博客：http://thoughtfly.iteye.com/blog/977495
维基百科：https://zh.wikibooks.org/wiki/Unicode/0000-0FFF
Unicode官网：http://unicode.org/charts/

实验
借助维基百科的页面，找到位于“平面2”的、编码为20001（写全了就是0x00020001）的汉字

，
粘贴到Word里面，看到字体自动变为“SimSun-ExtB”（宋体增补，SimSun是“宋体”的英文译法）。
执行“插入|字符|其它符号”，看到它的编码就是20001，子集是“扩展字符-平面2”。

粘贴到IDEA中看看，自动做了转换：



String s = "\uD840\uDC01";

...全文

194 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

在java中有许多针对code-point的相关方法，由于工作需要，对部分常用的code-point方法进行记录下。 Unicode和Code-point的关系 “一个普通字符是一位，一个emoji表情是两位。Mysql应该用utf8mb4存储emoji，而不应该...

java.lang.String有2个方法 char charAt(int index) Returns the char value at the specified ...仔细看一下这2个方法的描述，正常来说应该会产生一个疑问，char和unicode code point有什么区别？（懂unicode的除

java中的一个char类型含有两个字节，即16位，只能表示65536中字符，但是Unicode中的字符远不止65536个，这个时候就需要两个char才能表示一个Unicode字符，这时候codepoint就是对应这两个char表示的一个Unicode字符。...

char：Java中，char类型为16个二进制位，原本用于表示一个字符。但后来发现，16位已经不够表示所有的字符，所以后来发展出了代码点表示字符的方法。代码点(code point)：是指编码字符集中，字符所对应的数字。有效...

我必须把这个问题解释一下.Java里的基本类型char永远是2个字节. JLS7, 3.10.4:Character literals can only represent UTF-16 code units, i.e., they are limited to values from u0000 to uffff.....A character ...

50,526

社区成员

85,605

社区内容

发帖

与我相关

我的任务

javaspring bootspring cloud 技术论坛（原bbs）

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章