关于字符串转码问题

dyengying 2009-02-24 05:58:34

问题引入:
一般情况下.我们用new String(name.getBety("iso-8859-1"),"GBK");就能解决大部分的乱码问题.但是最近的开发中遇到一些奇怪的问题.比如在一个字符串中有"工作组"3个字,我在action中接到的却是"工作?"这样的字符串,只转换了前2个字,经过测试,和字符的位置个数无关,只是对"组"转不过来.后来通过修改过滤器解决,但其他地方又出现别的问题.
问题提出:
1.美国人在写tomcat时默认使用iso8859-1进行编码的,那么我在页面上没有声明charset="utf-8" 那么他是按iso8859-1编码吗,如果写了那么是不是就按utf-8编码呢?
2.假如页面上有一个input元素(text)叫name保存了字符串"中文",那么我在action中取他的时候，request.getParament("name");这时他是按什么字符集解码的呢?
以上说的情况都是在get方式下提交产生的.<a href="orgTree.shtml?name="+ orgName + "/>"

...全文

882 2 打赏收藏转发到动态举报

写回复

用AI写文章

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

dyengying 2009-02-24

打赏
举报

这个问题比较麻烦，我曾经遇到过，楼主可以用getBytes转换时多试几个字符集，一个一个的多试几次，这里面的东西也没有什么人能够说清楚，new String(name.getBety("iso-8859-1"),"GBK");这两处的字符集按照排列组合的方式试一试，试多了就知道了，我曾经也遇到过，困扰了我一个星期，由于这个乱码涉及到自己的页面编码格式，需要自己动手

dyengying 2009-02-24

打赏
举报

为每个jsp页面设置了其编码格式(utf-8)，但传递数据到另一页面时依然显示为乱码？
首先要需要了解的是web容器默认编码是iso-8859-1，一个汉字占用两个字节，而在utf-8中一个汉字占用三个字节。所以在数据传递过程中，必须手动设定容器编码格式，否则会出现字符位丢失的情况。即3个字节变为两个字节，自然会变成乱码。
为什么保存到数据库中的数据都变成了乱码？
原理同上，首先要搞清楚使用的数据库默认的编码格式，比如mysql默认的字符编码是ISO-8859-1。所以必须手动修改其默认编码格式。
清楚了以上问题后，再来看如何解决utf-8的乱码问题。
1．设置web容器的编码格式。为你的servlet的doGet或doPost方法开始处加入如下代码：
request.setCharacterEncoding("utf-8");
response.setCharacterEncoding("utf-8");
2．为每个jsp页面指定其编码格式。<%@ page pageEncoding="utf-8"%>
3．在连接数据库用的URL后加入：useUnicode=true;characterEncoding=utf-8 如：
url="jdbc:mysql:///db1?useUnicode=true;characterEncoding=utf-8"，
4．为指定数据库默认编码格式。在C:\WINDOWS目录下找到my.ini文件，并在[mysqld]中加入default-character-set=gbk，重新启动mysql服务。
至此，乱码问题全部解决。起初总搞上去不清，为什么要将mysql的默认编码格式设置为gbk，后来由相关的资料得知utf-8默认输入编码方式为gbk，默认输出编码方式为utf-16be。
个人认为，将数据进行utf-8进行编码的目的(即将中文编码为％的形式)，主要是为了在多层服务间进行数据传输时，防止发生字符丢失(如msn)。普通的web程序显然没有必要这样做，只要使用以上方法进行处理，就可以有效的解决乱码问题，从而结省存储空间。如果都像公司的SC系统那样，将一个汉字编码为18个字符后，再存储到数据库中，抛开效率不说，就存储空间的浪费就够人受的，要知道，那是需要银子地！