[quote=引用 13 楼 eagleyan 的回复:] [quote=引用 12 楼 sbgphl 的回复:] [quote=引用 11 楼 eagleyan 的回复:] unicode的码点现在的定义是如此,但是我们也不保证将来不会有新的汉字加进来,因为从理论上来说汉字的数量有超过9万个,常用字都已经被收录到unicode里了,但是随着标准的修订,unicode可能会支持更多的汉字
取决于码点,而码点数量在http://www.unicode.org/versions/Unicode5.0.0/ch12.pdf#G12159是有说明的 加到一起就是28704个
[quote=引用 12 楼 sbgphl 的回复:] [quote=引用 11 楼 eagleyan 的回复:] unicode的码点现在的定义是如此,但是我们也不保证将来不会有新的汉字加进来,因为从理论上来说汉字的数量有超过9万个,常用字都已经被收录到unicode里了,但是随着标准的修订,unicode可能会支持更多的汉字
[quote=引用 11 楼 eagleyan 的回复:] unicode的码点现在的定义是如此,但是我们也不保证将来不会有新的汉字加进来,因为从理论上来说汉字的数量有超过9万个,常用字都已经被收录到unicode里了,但是随着标准的修订,unicode可能会支持更多的汉字
unicode的码点现在的定义是如此,但是我们也不保证将来不会有新的汉字加进来,因为从理论上来说汉字的数量有超过9万个,常用字都已经被收录到unicode里了,但是随着标准的修订,unicode可能会支持更多的汉字
[quote=引用 6 楼 sbgphl 的回复:] 理论上utf8 表达中文的总量应该最多,但在实践中有些偏僻字、少数民族的字,utf8不能完全表达。 gbk可以正常显示。 而且gbk有明确的汉字个数,utf8没有明确汉字的数量?为什么...
理论上utf8 表达中文的总量应该最多,但在实践中有些偏僻字、少数民族的字,utf8不能完全表达。 gbk可以正常显示。 而且gbk有明确的汉字个数,utf8没有明确汉字的数量?为什么...
位开始,连续的二进制位值为1的个数决定了其编码的位数,其余各字节均以10开头。UTF-8最多可用到6个字节。 如表: 1字节 0xxxxxxx 2字节 110xxxxx 10xxxxxx 3字节 1110xxxx 10xxxxxx 10xxxxxx 4字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 5字节 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 6字节 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 因此UTF-8中可以用来表示字符编码的实际位数最多有31位。 2^31=2,147,483,648 仅6字节编码方案。20多亿。总数要加上其他字节编码方案。
51,397
社区成员
85,799
社区内容
加载中
试试用AI创作助手写篇文章吧