linux有没有什么库函数来判断一个字符串的编码形式?

netxuning 2007-05-24 01:38:04
是big5 utf-8还是gb2312什么的?
谢谢
...全文
441 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
netxuning 2007-05-25
  • 打赏
  • 举报
回复
十分感谢
netxuning 2007-05-25
  • 打赏
  • 举报
回复
再问一下:
gbk和big5之间重的部分是不是繁体和简体相同的字?比如"的"之類.
netxuning 2007-05-25
  • 打赏
  • 举报
回复
那有没有可能一个网页文件既有gb2312又有utf-8?
我的意思是能不能通过在网页中只要找到了utf-8编码的字,便判断为utf8?
iu_81 2007-05-24
  • 打赏
  • 举报
回复
没有办法判断字符串的编码方式。
所能够做到的是:判断是不是iso8859-1编码,是不是UTF-8编码,是不是unicode/utf-16编码。
规则:
iso8859-1---每个byte都是0开头。
utf-8---0开头,or 10开头表示是双字节,以此类推。
unicode/utf-16---一个是FF EF开头,另一个是EF FF开头。
每种编码都有自己的域,可以判断每个字符是不是在域里面来确定文本是不是用了该编码。但是,这样误差很大,因为域的overlapping size太大。总而言之,没有人去判断文本是GBK还是Big5编码,因为做不到。类推后,判断是不是utf8才是唯一可行的,看看ultra edit所能够判断的编码方式就知道了

70,037

社区成员

发帖
与我相关
我的任务
社区描述
C语言相关问题讨论
社区管理员
  • C语言
  • 花神庙码农
  • 架构师李肯
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧