急求简体汉字的内码区间(GBK)

GFox 2004-09-03 11:32:18
GB2132的话,是位于GBK/2中,范围是B0A1-F7FE,
还有部分扩展汉字,位于GBK/3(8140-A0FE)、与GBK/4(AA40-FEA0)中,
但是这里面并不是所有都是简体的(还包括有繁体字)。

GBK里整个简体字的内码区间是哪里到哪里呢?
...全文
552 点赞 收藏 17
写回复
17 条回复
runfly2008 2004年10月12日
请大家继续关注!!
回复 点赞
GFox 2004年10月08日
GBK编码不是按简繁体进行划分区表的?天啊,那怎么区分繁体简体呢?

ntzls(三星堆)说穷举,但也要事先知道一个字是繁体还是简体才能穷举吧?

也就是你说的:将所有的繁体字、简体字罗列出来一一对应。这个本身就要求“能够罗列出来”,可怎么才能罗列出来呢?
回复 点赞
ntzls 2004年09月28日
前段时间看到一个贴子就是将GBK中的繁体转简体在FAQ里(现在找不到了:-<,记得是数据库版块)实现方法就是将所有的繁体字、简体字罗列出来一一对应的。GBK编码不是按简繁体进行划分区表的,所以我知道的方法是穷举。顺便帮顶^_^
回复 点赞
GFox 2004年09月28日
不能让它沉了....路过的朋友帮忙up一下...
回复 点赞
GFox 2004年09月24日
to flyxxxxx(灭神)

输出所有GBK字符是没有问题,但也不知道哪些是简体的哪些是繁体的呀,有些字我们一眼看得出,有些生辟字,平常不怎么看过的,人工看也不知道是简体还是繁体撒...

回复 点赞
GFox 2004年09月24日
to windExtendsRikki(风)

国标 的网站怎么去?
回复 点赞
flyxxxxx 2004年09月23日
最笨的方法:
输出从0-66535的所有GBK字符到文件,看它区间是什么
回复 点赞
windExtendsRikki 2004年09月23日
你去 国标 的网站去看看具体是怎么定义的不就知道了~~
回复 点赞
GFox 2004年09月20日
to ntzls(三星堆):

怎么个穷举法?穷举首先就得有繁简体的判定标准才行。

如果有这个判定方法,我又何必穷举?
回复 点赞
ntzls 2004年09月16日
穷举呗
回复 点赞
GFox 2004年09月16日
自己up一下吧
回复 点赞
GFox 2004年09月08日
没有人知道?
回复 点赞
poorman1 2004年09月06日
uuuuuuuuuuuuuuuuupppppppppppppppppppppppppppp
回复 点赞
gaozhanhai 2004年09月03日
http://chinese.pku.edu.cn/bbs/thread.php?fid=29&tid=10788&action=printable
来这里看看~~
挺全的~~
回复 点赞
Lulq21cn 2004年09月03日
GB2312-80 《信息交换用汉字编码字符集》基本集规定一个汉字的内码由两个字节组成。
汉字内码与区位码之间的关系是:
内码第一字节=区码+160
内码第二字节=位码+160

在区位码中,01-09区为特殊字符,10-55区为一级汉字(3755个最常用的汉字,按拼音字母
的次序排列),56-87区为二级汉字(3008个汉字,按部首次序排列)。
每个区有94个汉字

回复 点赞
GFox 2004年09月03日
简单来说,我想要表示简体汉字的正则表达式
我现在用的是这个
[\u4E00-\u9FA5]

但是这个包括了繁体字

想要一个只是简体字的表达式
回复 点赞
GFox 2004年09月03日
GBK代表码(按分类顺序排列)
 GBK/1:GB2312非汉字符号A1-A9
 B0-B7B8-BF C0-C7C8-CF D0-D7
 GBK/2:GB2312汉字
 D8-DFE0-E7E8-EFF0-F7
 81-8384-87 88-8B8C-8F 90-93
 GBK/3:扩充汉字
 94-9798-9B 9C-A0
 AA-AFB0-B7B8-BFC0-C7C8-CF
 GBK/4:扩充汉字
 D0-D7D8-DFE0-E7E8-EFF0-F7
 F8-FE
 GBK/5:扩充非汉字
 A8-A9
 (1)AA-AF (2)F8-FE
 用户自定义区
 (3)A1-A7

这个是怎么看的???
回复 点赞
发动态
发帖子
Java SE
创建于2007-09-28

3.4w+

社区成员

30.7w+

社区内容

Java 2 Standard Edition
社区公告
暂无公告