ICU中GB18030汉字排序问题求教

wgf098 北京人大金仓信息技术股份有限公司 研发工程师  2018-03-19 08:24:45
UTF8编码下, 使用ICU的排序功能,非常好用,默认就是按照拼音来排序;但是在换成GB18030编码后,排序就都是乱的了,不知道哪位大神能够帮忙解答?

现在在验证阶段,是在ICU自带的例子上稍微进行了修改后进行的排序。

例子目录为 icu/source/sample/coll,源coll.cpp编译后生成coll可执行文件,输入source和target后对两个字符串进行比较。

例如几个汉字:南,一,啊,鳌,丂

当locale是zh_cn.utf8的时候(当然汉字也为utf8编码),排序后的顺序就为:啊,鳌,丂,南,一;
当locale是zh_cn.gb18030时,几个汉字就是乱的,不是按拼音,也不是按笔画,也不是按编码字节。搞不清楚怎么回事。期待的结果是gb18030编码排序和utf8的一样。
...全文
307 点赞 收藏 回复
写回复
回复
切换为时间正序
当前发帖距今超过3年,不再开放新的回复
发表回复

还没有回复,快来抢沙发~

相关推荐
发帖
Informix
创建于2007-09-28

1183

社区成员

其他数据库开发 Informix
申请成为版主
帖子事件
创建了帖子
2018-03-19 08:24
社区公告
暂无公告