如何对 ISO-8859-1 字符数组进行解码;如何对一个字符串转换为 ISO-8859-1 字符集

jmcooler 2014-05-14 12:36:02
例如,客户端以 http 协议访问某网址,response 返回的 Content-Type 中,不含字符集。类似于:Content-Type: text/html
这时,默认就当以 ISO-8859-1 字符集进行处理。

我们知道,GB2312 的字符编码,其序列就是 ISO-8859-1 单字符序列。
但是我并不能确定它是否是 GB2312,因为本客户端,将访问世界范围内的网址。你不能假定它就是 GB2312

解码遇到这个问题,编码仍然是相同的问题。
本客户端被世界范围内的人使用,当以 Content-Type: text/html(不给定字符集)的方式,post 一段文本。
此时,我当以 ISO-8859-1,进行编码,我自然不能先假定为 GB2312。
但,对于编码传输,我可以强制以 Content-Type: text/html; charset=utf-8,进行数据提交。倒好办点。

以 XML 为例,如果该内容换成是 XML,也即 Content-Type: text/xml
我是不是可以先通过 XML 数据内部的 encoding 来确定整个数据是哪种编码,如下:
<?xml version="1.0" encoding="gb2312"?>
对于 html,将先去 Peek 一下,其中的 meta 中的字符集,再对整个 html,进行解码?

如此,先 peek 内容的字符集,再对内容解码的做法,是对的么?
...全文
202 2 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
2 条回复
切换为时间正序
请发表友善的回复…
发表回复
jmcooler 2014-05-19
  • 打赏
  • 举报
回复
没答案? 自己顶
乐逍遥二 2014-05-14
  • 打赏
  • 举报
回复
顶一下,格式好像可以在servlet里面定义的吧,对你的问题不是很清楚。。

81,122

社区成员

发帖
与我相关
我的任务
社区描述
Java Web 开发
社区管理员
  • Web 开发社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧