如何在一个字符串中区分简体GB2312的汉字和繁体BIG5的汉字？

djfu 2006-03-09 09:47:31

假设有一个字符串，其中既有简体GB2312的汉字，也有繁体BIG5的汉字，
我怎么分析得到哪些是简体GB2312的汉字，哪些是繁体BIG5的汉字？

...全文

160 7 打赏收藏转发到动态举报

写回复

用AI写文章

7 条回复

切换为时间正序

请发表友善的回复…

发表回复

Snow_Ice11111 2006-03-10

打赏
举报

这个就没有仔细研究过，只能帮顶一下了，同楼主一起期待楼下的朋友的见解！

djfu 2006-03-10

打赏
举报

那我请问一下繁体字的编码的起止编码号是多少？

Snow_Ice11111 2006-03-10

打赏
举报

http://tb.blog.csdn.net/TrackBack.aspx?PostId=598804

上面说到这个：

由于历史的原因，在Unicode之前，一共存在过3套中文编码标准。

GB2312-80，是中国大陆使用的国家标准，其中一共编码了6763个常用简体汉字。Big5，是台湾使用的编码标准，编码了台湾使用的繁体汉字，大概有8千多个。HKSCS，是中国香港使用的编码标准，字体也是繁体，但跟Big5有所不同。

这3套编码标准都采用了两个扩展ASCII的方法，因此，几套编码互不兼容，而且编码区间也各有不同

看来从GB2312码判断是不可能的，因为既然不互相兼容，就意味着有重合的。只能考虑unicode。

djfu 2006-03-10

打赏
举报

Snow_Ice11111(雪上加冰) :
我试了你的那几个编码，结果判断不准确啊，
我写了几个繁体BIG5的汉字，然后测试其编码，结果发现判断错误。

比如: 0xC0F4,这是“军”的BIG5编码，但是这个编码不应该在你上面说的简体编码
范围之内的:0xb0a1 ~ 0xd7f9

能否给我介绍一些相关编码的网页？

djfu 2006-03-09

打赏
举报

具体有什么方法？哪里有可用代码？

Snow_Ice11111 2006-03-09

打赏
举报

看每个字的GB2312码，简体字好象都是连在一起的。

Snow_Ice11111 2006-03-09

打赏
举报

简体汉字的GB2312码是从0xb0a1 ~ 0xd7f9 (为简体标准汉字从“啊”~“座”)。

PHP 判断 UTF-8 字符串是简体或繁体中文简体和繁体的 UTF-8 字码表是可以列的出来，不过会有一个字同时是简体和繁体的情况，要判断一个字符串是简体和繁体，这种判断法有点复杂。想到比较偷懒的方式，就...

**不同的国家和地区**制定了**不同的标准**，由此产生了 GB2312、GBK、GB18030、Big5、Shift_JIS 等各自的编码标准。这些使用多个字节来代表一个字符的各种汉字延伸编码方式，称为 ANSI 编码。在简体中文Windows操作...

常用字符集编码详解：ASCII 、GB2312、GBK、GB18030、unicode、UTF-8 ANSI字符串我们最熟悉，英文占一个字节，汉字2个字节，以一个\0结尾，常用于txt文本文件 Unicode字符串，每个字符(汉字、英文字母)都占2个字节...

如下图，查看当前mysql字符集设置情况1、在查询结果中可以看到mysql 数据库系统中客户端、数据库连接、数据库、文件系统、查询结果、服务器、系统的字符集设置2、在这里，文件系统字符集是固定的，系统、服务器的...

于是，为解决这一问题，小编花了一些时日了解和学习这些编码，整理出了这些编码的“性格特点”，“兴趣爱好”等等（文章中可能不全面，接受建议）。有关文章参见：趣谈unicode，ansi，utf-8，unicode big endian...

VC/MFC

16,472

社区成员

421,731

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

VC/MFC社区版块或许是CSDN最“古老”的版块了，记忆之中，与CSDN的年龄几乎差不多。随着时间的推移，MFC技术渐渐的偏离了开发主流，若干年之后的今天，当我们面对着微软的这个经典之笔，内心充满着敬意，那些曾经的记忆，可以说代表着二十年前曾经的辉煌……
向经典致敬，或许是老一代程序员内心里面难以释怀的感受。互联网大行其道的今天，我们期待着MFC技术能够恢复其曾经的辉煌，或许这个期待会永远成为一种“梦想”，或许一切皆有可能……
我们希望这个版块可以很好的适配Web时代，期待更好的互联网技术能够使得MFC技术框架得以重现活力，……

试试用AI创作助手写篇文章吧

+ 用AI写文章