如何对 ISO-8859-1 字符数组进行解码;如何对一个字符串转换为 ISO-8859-1 字符集
例如,客户端以 http 协议访问某网址,response 返回的 Content-Type 中,不含字符集。类似于:Content-Type: text/html
这时,默认就当以 ISO-8859-1 字符集进行处理。
我们知道,GB2312 的字符编码,其序列就是 ISO-8859-1 单字符序列。
但是我并不能确定它是否是 GB2312,因为本客户端,将访问世界范围内的网址。你不能假定它就是 GB2312
解码遇到这个问题,编码仍然是相同的问题。
本客户端被世界范围内的人使用,当以 Content-Type: text/html(不给定字符集)的方式,post 一段文本。
此时,我当以 ISO-8859-1,进行编码,我自然不能先假定为 GB2312。
但,对于编码传输,我可以强制以 Content-Type: text/html; charset=utf-8,进行数据提交。倒好办点。
以 XML 为例,如果该内容换成是 XML,也即 Content-Type: text/xml
我是不是可以先通过 XML 数据内部的 encoding 来确定整个数据是哪种编码,如下:
<?xml version="1.0" encoding="gb2312"?>
对于 html,将先去 Peek 一下,其中的 meta 中的字符集,再对整个 html,进行解码?
如此,先 peek 内容的字符集,再对内容解码的做法,是对的么?