关于字符串转码问题

dyengying 2009-02-24 05:58:34
问题引入:
一般情况下.我们用new String(name.getBety("iso-8859-1"),"GBK");就能解决大部分的乱码问题.但是最近的开发中遇到一些奇怪的问题.比如在一个字符串中有"工作组"3个字,我在action中接到的却是"工作?"这样的字符串,只转换了前2个字,经过测试,和字符的位置个数无关,只是对"组"转不过来.后来通过修改过滤器解决,但其他地方又出现别的问题.
问题提出:
1.美国人在写tomcat时默认使用iso8859-1进行编码的,那么我在页面上没有声明charset="utf-8" 那么他是按iso8859-1编码吗,如果写了那么是不是就按utf-8编码呢?
2.假如页面上有一个input元素(text)叫name保存了字符串"中文",那么我在action中取他的时候,request.getParament("name");这时他是按什么字符集解码的呢?
以上说的情况都是在get方式下提交产生的.<a href="orgTree.shtml?name="+ orgName + "/>"
...全文
882 2 打赏 收藏 转发到动态 举报
写回复
用AI写文章
2 条回复
切换为时间正序
请发表友善的回复…
发表回复
dyengying 2009-02-24
  • 打赏
  • 举报
回复
这个问题比较麻烦,我曾经遇到过,楼主可以用getBytes转换时多试几个字符集,一个一个的多试几次,这里面的东西也没有什么人能够说清楚,new String(name.getBety("iso-8859-1"),"GBK");这两处的字符集按照排列组合的方式试一试,试多了就知道了,我曾经也遇到过,困扰了我一个星期,由于这个乱码涉及到自己的页面编码格式,需要自己动手
dyengying 2009-02-24
  • 打赏
  • 举报
回复
为每个jsp页面设置了其编码格式(utf-8),但传递数据到另一页面时依然显示为乱码?
首先要需要了解的是web容器默认编码是iso-8859-1,一个汉字占用两个字节,而在utf-8中一个汉字占用三个字节。所以在数据传递过程中,必须手动设定容器编码格式,否则会出现字符位丢失的情况。即3个字节变为两个字节,自然会变成乱码。
为什么保存到数据库中的数据都变成了乱码?
原理同上,首先要搞清楚使用的数据库默认的编码格式,比如mysql默认的字符编码是ISO-8859-1。所以必须手动修改其默认编码格式。
清楚了以上问题后,再来看如何解决utf-8的乱码问题。
1.设置web容器的编码格式。为你的servlet的doGet或doPost方法开始处加入如下代码:
request.setCharacterEncoding("utf-8");
response.setCharacterEncoding("utf-8");
2.为每个jsp页面指定其编码格式。<%@ page pageEncoding="utf-8"%>
3.在连接数据库用的URL后加入:useUnicode=true;characterEncoding=utf-8 如:
url="jdbc:mysql:///db1?useUnicode=true;characterEncoding=utf-8",
4.为指定数据库默认编码格式。在C:\WINDOWS目录下找到my.ini文件,并在[mysqld]中加入default-character-set=gbk,重新启动mysql服务。
至此,乱码问题全部解决。起初总搞上去不清,为什么要将mysql的默认编码格式设置为gbk,后来由相关的资料得知utf-8默认输入编码方式为gbk,默认输出编码方式为utf-16be。
个人认为,将数据进行utf-8进行编码的目的(即将中文编码为%的形式),主要是为了在多层服务间进行数据传输时,防止发生字符丢失(如msn)。普通的web程序显然没有必要这样做,只要使用以上方法进行处理,就可以有效的解决乱码问题,从而结省存储空间。如果都像公司的SC系统那样,将一个汉字编码为18个字符后,再存储到数据库中,抛开效率不说,就存储空间的浪费就够人受的,要知道,那是需要银子地!

81,091

社区成员

发帖
与我相关
我的任务
社区描述
Java Web 开发
社区管理员
  • Web 开发社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧