如何在一个字符串中区分简体GB2312的汉字和繁体BIG5的汉字?

djfu 2006-03-09 09:47:31
假设有一个字符串,其中既有简体GB2312的汉字,也有繁体BIG5的汉字,
我怎么分析得到哪些是简体GB2312的汉字,哪些是繁体BIG5的汉字?
...全文
160 7 打赏 收藏 转发到动态 举报
写回复
用AI写文章
7 条回复
切换为时间正序
请发表友善的回复…
发表回复
Snow_Ice11111 2006-03-10
  • 打赏
  • 举报
回复
这个就没有仔细研究过,只能帮顶一下了,同楼主一起期待楼下的朋友的见解!
djfu 2006-03-10
  • 打赏
  • 举报
回复
那我请问一下繁体字的编码的起止编码号是多少?
Snow_Ice11111 2006-03-10
  • 打赏
  • 举报
回复
http://tb.blog.csdn.net/TrackBack.aspx?PostId=598804

上面说到这个:


由于历史的原因,在Unicode之前,一共存在过3套中文编码标准。

GB2312-80,是中国大陆使用的国家标准,其中一共编码了6763个常用简体汉字。Big5,是台湾使用的编码标准,编码了台湾使用的繁体汉字,大概有8千多个。HKSCS,是中国香港使用的编码标准,字体也是繁体,但跟Big5有所不同。

这3套编码标准都采用了两个扩展ASCII的方法,因此,几套编码互不兼容,而且编码区间也各有不同

看来从GB2312码判断是不可能的,因为既然不互相兼容,就意味着有重合的。只能考虑unicode。
djfu 2006-03-10
  • 打赏
  • 举报
回复
Snow_Ice11111(雪上加冰) :
我试了你的那几个编码,结果判断不准确啊,
我写了几个繁体BIG5的汉字,然后测试其编码,结果发现判断错误。

比如: 0xC0F4,这是“军”的BIG5编码,但是这个编码不应该在你上面说的简体编码
范围之内的:0xb0a1 ~ 0xd7f9

能否给我介绍一些相关编码的网页?
djfu 2006-03-09
  • 打赏
  • 举报
回复
具体有什么方法?哪里有可用代码?
Snow_Ice11111 2006-03-09
  • 打赏
  • 举报
回复
看每个字的GB2312码,简体字好象都是连在一起的。
Snow_Ice11111 2006-03-09
  • 打赏
  • 举报
回复
简体汉字的GB2312码是从0xb0a1 ~ 0xd7f9 (为简体标准汉字从“啊”~“座”)。

16,472

社区成员

发帖
与我相关
我的任务
社区描述
VC/MFC相关问题讨论
社区管理员
  • 基础类社区
  • Web++
  • encoderlee
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

        VC/MFC社区版块或许是CSDN最“古老”的版块了,记忆之中,与CSDN的年龄几乎差不多。随着时间的推移,MFC技术渐渐的偏离了开发主流,若干年之后的今天,当我们面对着微软的这个经典之笔,内心充满着敬意,那些曾经的记忆,可以说代表着二十年前曾经的辉煌……
        向经典致敬,或许是老一代程序员内心里面难以释怀的感受。互联网大行其道的今天,我们期待着MFC技术能够恢复其曾经的辉煌,或许这个期待会永远成为一种“梦想”,或许一切皆有可能……
        我们希望这个版块可以很好的适配Web时代,期待更好的互联网技术能够使得MFC技术框架得以重现活力,……

试试用AI创作助手写篇文章吧