社区
Java SE
帖子详情
关于String 编码的问题!急!
zhangyong7887
2003-10-17 09:19:40
1.怎样解决汉字出现的乱码问题?
2.怎样构造一文本文件的ASCII流?
...全文
1035
2
打赏
收藏
关于String 编码的问题!急!
1.怎样解决汉字出现的乱码问题? 2.怎样构造一文本文件的ASCII流?
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
2 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
TonyTonyQ
2003-10-20
打赏
举报
回复
http://www.chinajavaworld.net/doc/lang/74.html
汉字问题深入谈
一、主题:关于JAVA的中文问题
JAVA的中文问题比较突出,主要表现在控制面板输出,JSP页面输出和数据库访问上。
本文尽量避开字体问题,而只谈编码。通过本文,你可以了解JAVA中文问题的由来,问题
的解决方法,其中提了一下用JDBC访问数据库的方法。
二、问题描述:
1)在中文W2000中文窗口编译和运行,用的是国际版的JDK,连接的是中文W2000下的Cp936
编码的SQL SERVER数据库:
J:\exercise\demo\encode\HelloWorld>make
Created by XCompiler. PhiloSoft All Rights Reserved.
Wed May 30 02:54:45 CST 2001
J:\exercise\demo\encode\HelloWorld>run
Created by XRunner. PhiloSoft All Rights Reserved.
Wed May 30 02:51:33 CST 2001
中文
[B@7bc8b569
[B@7b08b569
[B@7860b569
中文
中文
????
中文
中文
????
??
??
??
2)如果在中文W2000的西文窗口(编码为437)下编译,用JAVA运行则由于无字体而无法正
常显示,如果象上面一样在中文W2000的中文窗口运行,输出为:
J:\exercise\demo\encode\HelloWorld>run
Created by XRunner. PhiloSoft All Rights Reserved.
Wed May 30 02:51:33 CST 2001
????
[B@7bc0b66a
[B@7b04b66a
[B@7818b66a
????
????
????
????
????
????
中文
中文
????
三)分析
1)出现有乱码(也就是?)。由于只出现?而没出现小方框,说明只是编码有问题,而不
是字体问题。 在编码中,如果从一种字符集转换到别一种字符集,比较典型的是从GB2312
转换到ISO8859_1(即ASCII),那么很多汉字(半个汉字)是无法映射到西文字符中去的
,在这种情形下,系统就把这些字符用?代替。同样,也存在小字符集无法到大字符集的
情况,具体原因这里就不详谈了。
2)出现了中文环境编译,中文环境运行时汉字显示有正确也有不正确的地方,同样,在西
文环境下编译,在中文环境下运行时也出现类似情况。这是由于自动(默认)或手工(也
就new String(bytes[,encode])和bytes getBytes([encode]))转码的结果。
2.1)在JAVA源文件-->JAVAC-->Class-->Java-->getBytes()-->new String()-->显示的过
程中,每一步都有编码的转换过程,这个过程总是存在的,只是有的时候用默认的参数进
行。下面我们一步一步分析为什么出现上面的情形。
2.2)这里是源代码:
HelloWorld.java:
------------------------
public class HelloWorld
{
public static void main(String[] argv){
try{
System.out.println("中文");//1
System.out.println("中文".getBytes());//2
System.out.println("中文".getBytes("GB2312"));//3
System.out.println("中文".getBytes("ISO8859_1"));//4
System.out.println(new String("中文".getBytes()));//5
System.out.println(new String("中文".getBytes(),"GB2312"));//6
System.out.println(new String("中文".getBytes(),"ISO8859_1"));//7
System.out.println(new String("中文".getBytes("GB2312")));//8
System.out.println(new String("中文".getBytes("GB2312"),"GB2312"));//9
System.out.println(new
String("中文".getBytes("GB2312"),"ISO8859_1"));//10
System.out.println(new String("中文".getBytes("ISO8859_1")));//11
System.out.println(new
String("中文".getBytes("ISO8859_1"),"GB2312"));//12
System.out.println(new
String("中文".getBytes("ISO8859_1"),"ISO8859_1"));//13
}
catch(Exception e){
e.printStackTrace();
}
}
}
为了方便起见,在每个转换的后面加了操作序号,分别为1,2,...,13。
2.3)需要说明的是,JAVAC是以系统默认编码读入源文件,然后按UNICODE进行编码的。在
JAVA运行的时候,JAVA也是采用UNICODE编码的,并且默认输入和输出的都是操作系统的默
认编码,也就是说在new String(bytes[,encode])中,系统认为输入的是编码为encode的
字节流,换句话说,如果按encode来翻译bytes才能得到正确的结果,这个结果最后要在JA
VA中保存,它还是要从这个encode转换成Unicode,也就是说有bytes-->encode字符-->Uni
code字符的转换;而在String.getBytes([encode])中,系统要做一个Unicode字符-->enco
de字符-->bytes的转换。
在这个例子中,除那个英文窗口编码的时候除外,其实情形下默认编码都是GBK(在本例中
,我们暂且把GBK和GB2312等同看待)。
2.4)由于在未指明在上面的两个用代码实现的转换中,如果未指定encode,系统将采用默
认的编码(这里为GBK),我们认为上面的5,6,7和8,9,10是一样的,8和9、11和12也是一
样的,所以我们在讨论中将只讨论1,9,10,12,13。其中的2,3,4只是用于测试,不在我们的
讨论范围之内。
2.5)下面我们来跟踪程序中的“中”字的转换历程,我们先说在中文窗口下作的编译和运
行过程,注意在下面的字母下标中,我有意识地使用了一些数字,以表示相同,相异还是
相关2.5.1)我们先以上面的13个代码段中的的代码9为例:
步骤 内容 地点 说明
01: C1 HelloWorld.java C1泛指一个GBK字符
02: U1 JAVAC读取 U1泛指一个Unicode字符
03: C1 getBytes()第一步 JAVA先和操作系统交流
04: B1,B2 getBytes()第二步 然后返回字节数组
05: C1 new String()第一步 JAVA先和操作系统交流
06: U1 new String()第二步 然后返回字符
07: C1 println(String) 能显示“中”字,内容和原来的相同
2.5.2)然后再以代码段10为例,我们注意到只是:
步骤 内容 地点 说明
01: C1 HelloWorld.java C1泛指一个GBK字符
02: U1 JAVAC读取 U1泛指一个Unicode字符
03: C1 getBytes()第一步 JAVA先和操作系统交流
04: B1,B2 getBytes()第二步 然后返回字节数组
05: C3,C4 new String()第一步 JAVA先和操作系统交流,这时解析错误
06: U5,U6 new String()第二步 然后返回字符
07: C3,C4 println(String) 由于中字给分成了两半,在ISO8859_1中刚好也没有字符
能映射上,所以显示为“??”。在上面的示例中,
“中文”两个字就显示为“????”
2.5.3)在完全中文模式下的其它情形类似,我就不多说了
2.6)我们接着看为什么在西文DOS窗口下编译出来的类在中文窗口下也出现类似情形,特
别是为什么居然有的情形下还能正确显示汉字。
2.6.1)我们还是先以代码段9为例:
步骤 内容 地点 说明
01: C1C2 HelloWorld.java C1C2分别泛指一个ISO8859_1字符,“中”字被拆开
02: U3U4 JAVAC读取 U1U2泛指一个Unicode字符
03: C5C6 getBytes()第一步 JAVA先和操作系统交流,这时解析错误
04: B5B6B7B8 getBytes()第二步 然后返回字节数组
05: C5C6 new String()第一步 JAVA先和操作系统交流
06: U3U4 new String()第二步 然后返回字符
07: C5C6 println(String) 虽然同是两个字符,但已不是最初的“两个ISO8859_1字
符”,而是“两个BGK字符”,“中”显示成了“??”
而“中文”就显示成了“????”
2.6.2)下面我们以代码段12为例,因为它能正确显示汉字
步骤 内容 地点 说明
01: C1C2 HelloWorld.java C1C2分别泛指一个ISO8859_1字符,“中”字被拆开
02: U3U4 JAVAC读取 U1U2泛指一个Unicode字符
03: C1C2 getBytes()第一步 JAVA先和操作系统交流(注意还是正确的哦!)
04: B5B6 getBytes()第二步 然后返回字节数组(这是很关键的一步!)
05: C12 new String()第一步 JAVA先和操作系统交流(这是更关键的一步,JAVA已经知
道B5B6要解析成一个汉字!)
06: U7 new String()第二步 然后返回字符(真是一个项两!U7包含了U3U4的信息)
07: C12 println(String) 这就原来的“中”字,很委屈被JAVAC冤枉了一回,不过被程
序员拨乱反正了一下!当然,“中文”两个字都能正确显示了!
3)那为什么有的时候用JDBC的
new String(Recordset.getBytes(int)[,encode])
Recordset.getSting(int)
Recordset.setBytes(String.getBytes([encode]))
和
Recordset.setString(String)
的时候会出现乱码了呢?
其实问题就出现在编写JDBC的的也考虑了编码问题,它从数据库读取数据后,可能自作主
张做了一个从GB2312(默认编码)到Unicode的转换,我的这个WebLogic For SQL Server
的JDBC Driver就是这样的,当我读字串的时候,发出读到的不是正确的汉字,可恨的是我
却可以直接写汉字字串,这让人多少有点难以接受!
也就是说,我们不得不在读或写的时候进行转码,尽管这个转码有的时候不是那么明显,
这是因为我们使用了默认的编码进行转码。JDBC Driver所做的操作,我们只有进入到源代
码内部才能清楚,不是吗?
zhangyong7887
2003-10-20
打赏
举报
回复
String s;
s="怎样构造一文本文件的ASCII流?";
s=Sting(s.getbyte(),"ISO_8859_1");
or:
s=Sting(s.getbyte(),"gb2312");
or:
s=Sting(s.getbyte(),"GBK");
Java中的
String
主要讲解
String
类型的不可变性,里面的方法,==等
字节数组与
String
类型转换时的默认字符集
引入:在学习javaWeb时,碰到需要将字节数组和
String
类型做相互转换的,如使用Base64
编码
时。那么,我们知道
String
其实提供了API:getBytes() 将字符串转换为字节数组,而通过构造器new
String
(byte[]) 又可以将字节数组重新转化为字符串,对吧?但我们经常需要跟客户端做交互,此时很容易在这两个转换之间发生乱码
问题
。所以今天,我们一起来解决这个
问题
吧! 首先,我们需要明白,要使 字节数组 -> 字符串,或 字符串 -> 字节数组,两个过程来去自如而不乱码,
高薪程序员&面试题精讲系列07之说说
String
为什么不可变及
String
底层原理?
一. 面试题及剖析 1. 今日面试题
String
类是我们开发时很常用的知识点,所以它也是我们面试时的一个高频提问点,既有关于
String
用法的面试题,也有关于
String
底层原理类的面试题。今天 壹哥 就带大家结合源码,来探究
String
的底层原理,从而可以回答如下面试题。 你有没有看过Sting的源码?
String
字符串为什么不可被改变?
String
的底层原理是什么? ...... 2. 题目剖析 以上几道面试题,我们仔细分析一下,就会发现考察的其实都是
String
的底层原理,这
Java基础 -
String
字符串系列
1、
String
特性
String
是final类,代表不可变的字符序列 字符串是常量,用双引号引起来表示,它们的值在创建之后不能更改。
String
对象的字符内容是存储在一个字符数组value[]中的。
String
声明为final的,不可被继承。
String
实现了Serializable接口,表示字符串是支持序列化的。
String
实现了Comparable接口,表示
String
可以比较大小。
String
:代表不可变的字符序列。简称:不可变性 体现: 1、当对字符串重新赋值时,
《Redis专题》-
String
数据类型之底层解析
文章目录1.引言1.1.对象的类型与
编码
2.字符串对象 1.引言 对于 Redis的常用 5 种数据类型(
String
、Hash、List、Set、sorted set),每种数据类型都提供了 最少两种内部的
编码
格式,而且每个数据类型内部
编码
方式的选择 对用户是完全透明的,Redis会根据数据量自适应地选择较优化的内部
编码
格式。 如果想查看某个键的内部
编码
格式,可以使用 OBJECT ENCODING keyname指令来进行,比如: 127.0.0.1:6379> 127.0.0.1:6379&
Java SE
62,614
社区成员
307,327
社区内容
发帖
与我相关
我的任务
Java SE
Java 2 Standard Edition
复制链接
扫一扫
分享
社区描述
Java 2 Standard Edition
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章