110,536
社区成员
发帖
与我相关
我的任务
分享
UTF-8编码规则是这样的
如果一个字符串是三个字节的编码,那这个字符就应该是以下的BIT位 表示法
就是这样:
1110XXXX 10XXXXXX 10XXXXXX
如果是双字节的编码则是
110XXXXX 10XXXXXX
单字节字符就是这样的
0XXXXXXX
当如果出现这样
110XXXXX 0XXXXXXX
或是
0XXXXXXX 10XXXXXX
或是
110XXXXX 110XXXXX
这样他都是不合法的字符串
字符的起始字符是
1110XXXX 表示这个字符是由三个字节组成,这是第一个字节
111110XX 表示这个字符是由五个字节组成,这是第一个字节
0XXXXXXX 表示这个字符是由1个字节组成
10XXXXXX 表示这个字节只是一个字符的组成字节,他不能做为字符的第一个字节