有没有可能猜出一个byte数组的charset

nielinjie 2004-04-19 12:04:33
我有一个byte数组,里面是一些汉字和英文字母的混合。
我可不可能通过某种方法猜出这个byte数组是什么编码?utf-8?gb2312? iso-8859-1……。比如某些byte只可能在某种编码中出现……
...全文
74 11 打赏 收藏 转发到动态 举报
写回复
用AI写文章
11 条回复
切换为时间正序
请发表友善的回复…
发表回复
CoolAbu 2004-04-19
  • 打赏
  • 举报
回复
很有深度的问题。

单个字节估计没有办法判断,如果是一个字符,可以取它的编码到Unicode的字符编码表中去比较,看看属于哪个区,从而判定是什么编码。
littlegang 2004-04-19
  • 打赏
  • 举报
回复
网上有相关的猜测算法介绍

有专门做这方面的,根据概率分析来判断文字的编码方式

其实像IE中的编码方式有“自动选择”一项,有可能就利用了这样的方法
panpan221 2004-04-19
  • 打赏
  • 举报
回复
新手学习,友情UP
KevinListening 2004-04-19
  • 打赏
  • 举报
回复
用眼睛看么?太可怕了吧。
kkcncry 2004-04-19
  • 打赏
  • 举报
回复
可以啊~将字符串按任何一种方式解码看那种解放方式解出的字符串不是乱码不就得了~
KevinListening 2004-04-19
  • 打赏
  • 举报
回复
这个问题如果解决了,很有用的。关注。。。
made_in_ 2004-04-19
  • 打赏
  • 举报
回复
根据统计来估算吧。
抽取一定区域的byte,然后计算概率。
或者是和已知的编码方式相比较,看某些特定字符出现的概率是否接近。
至于真要实现的话,肯定还有许多细节问题要考虑。
zcjl 2004-04-19
  • 打赏
  • 举报
回复
gz
BigBangBug 2004-04-19
  • 打赏
  • 举报
回复
学习
filippo1980 2004-04-19
  • 打赏
  • 举报
回复
关注一下
tiger_wkh52741 2004-04-19
  • 打赏
  • 举报
回复
mark!!!!!!!!!!!!!!!!!!!!

62,612

社区成员

发帖
与我相关
我的任务
社区描述
Java 2 Standard Edition
社区管理员
  • Java SE
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧