将GB2312编码的字符串转换成ISO-8859-1编码的字符串,测试有问题,请大家帮忙,谢谢了!

toxicant 2007-11-28 02:43:38
//将GB2312编码的字符串转换成ISO-8859-1编码的字符串
import java.io.IOException;
import java.io.UnsupportedEncodingException;


public class C {

/**
* @param args
* @throws IOException
*/
public static void main(String[] args) throws IOException {
String s1 = "人民币";
System.out.println(s1); //这里输出的是 人民币
String s2 = new String(s1.getBytes("GB2312"),"ISO-8859-1");
System.out.println(s2); //这里输出的是 ????±?

}

}
运行结果为:
人民币
????±?

为什么S2不是人民币呢?
...全文
264 2 打赏 收藏 转发到动态 举报
写回复
用AI写文章
2 条回复
切换为时间正序
请发表友善的回复…
发表回复
Jecan 2007-11-28
  • 打赏
  • 举报
回复
支持楼上的观点..

单字节字符编码 ISO-8859-1 最简单的编码规则,每一个字节直接作为一个 UNICODE 字符。比如,[0xD6, 0xD0] 这两个字节,通过 iso-8859-1 转化为字符串时,将直接得到 [0x00D6, 0x00D0] 两个 UNICODE 字符,即 "ÖÐ"。

反之,将 UNICODE 字符串通过 iso-8859-1 转化为字节串时,只能正常转化 0~255 范围的字符。


ANSI 编码 GB2312,
BIG5,
Shift_JIS,
ISO-8859-2 ……


把 UNICODE 字符串通过 ANSI 编码转化为“字节串”时,根据各自编码的规定,一个 UNICODE 字符可能转化成一个字节或多个字节。

反之,将字节串转化成字符串时,也可能多个字节转化成一个字符。比如,[0xD6, 0xD0] 这两个字节,通过 GB2312 转化为字符串时,将得到 [0x4E2D] 一个字符,即 '中' 字。

“ANSI 编码”的特点:
1. 这些“ANSI 编码标准”都只能处理各自语言范围之内的 UNICODE 字符。
2. “UNICODE 字符”与“转换出来的字节”之间的关系是人为规定的。
UNICODE 编码 UTF-8,
UTF-16, UnicodeBig …… 与“ANSI 编码”类似的,把字符串通过 UNICODE 编码转化成“字节串”时,一个 UNICODE 字符可能转化成一个字节或多个字节。

与“ANSI 编码”不同的是:
1. 这些“UNICODE 编码”能够处理所有的 UNICODE 字符。
2. “UNICODE 字符”与“转换出来的字节”之间是可以通过计算得到的。
miaoliujun 2007-11-28
  • 打赏
  • 举报
回复
我想你可能没理解STRING2 = new String(STRING1.getBytes(ENCODING1),ENCODING2); 的意思

要使用这个的前提必须是STRING1以前是以ENCODING1编码的,这时才能利用getbytes得出正确的byte[]
然后以ENCODING2编码输出为STRING2

如果你要在system.out中输出不是乱码,那需要ENCODING2和你JVM默认字符集是一样的
一般来说在windows下JDK的默认字符集是GBK,在linux下JDK默认的是UTF-8。

在你的程序中,既然s1已经输出正确了,那转换了后s2就不能正常显示,只有在你特殊场合使用才可以。

62,623

社区成员

发帖
与我相关
我的任务
社区描述
Java 2 Standard Edition
社区管理员
  • Java SE
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧