现在Java的string底层到底用的UTF8还是UTF16?

simon78 2005-12-02 02:56:09

thanks

...全文

587 13 打赏收藏转发到动态举报

写回复

13 条回复

切换为时间正序

请发表友善的回复…

发表回复

立志做一个佳娃~ 2005-12-06

打赏
举报

回复

Java's .class files use UTF-8 internally to store string literals. Data input streams and data
output streams also read and write strings in UTF-8

立志做一个佳娃~ 2005-12-06

打赏
举报

回复

Unicode is a relatively inefficient encoding when most of your text consists of ASCII
characters. Every character requires the same number of bytes—two—even though some
characters are used much more frequently than others. A more efficient encoding would use
fewer bits for the more common characters. This is what UTF-8 does.
In UTF-8 the ASCII alphabet is encoded using a single byte, just as in ASCII. The next 1,919
characters are encoded in two bytes. The remaining Unicode characters are encoded in three
bytes. However, since these three-byte characters are relatively uncommon,[1] especially in
English text, the savings achieved by encoding ASCII in a single byte more than makes up for
it.
Java's .class files use UTF-8 internally to store string literals. Data input streams and data
output streams also read and write strings in UTF-8. However, this is all hidden from direct
view of the programmer, unless perhaps you're trying to write a Java compiler or parse output
of a data stream without using the DataInputStream class.

crazycy 2005-12-03

打赏
举报

回复

呵呵java内部使用Unicode编码

wzh0439 2005-12-03

打赏
举报

回复

String 是CHAR数组应该是UTF-8

shuai002 2005-12-03

打赏
举报

回复

应该存储为UTF-8.
这是为了照顾英文等.一则,JAVA是他们创立的,首先要考虑到自己再考虑他人,再则,大多网络文献是用英文写的,如此可以节约空间.
但对中日韩等则是增加了空间浪费,因为CJK中的字符如存UTF-8其空间平均是UTF-16的1.5倍.

zsjin0208 2005-12-03

打赏
举报

回复

unicode，难道还有其它的？

slh002 2005-12-03

打赏
举报

回复

string的运行的编码是操作系统缺省编码,但必最终储为UTF-8.

snowmansh 2005-12-03

打赏
举报

回复

应该是UTF-16，如果UTF-8，何必要char是2个byte呢

zhaidafan 2005-12-03

打赏
举报

回复

String使用的是系统缺省的编码方式，比如说我的电脑上(中文XP)就是GBK。
可以调用java.nio.charset.defaultCharset();来查看缺省使用的编码方式，如果想得到其他方式的编码，可以调用String类的byte[] getBytes(String charsetName);

cenlmmx 2005-12-03

打赏
举报

回复

会不会根据安装的操作系统的字符集来决定使用UTF8或者说UTF16呢?

greenteanet 2005-12-03

打赏
举报

回复

unicode

simon78 2005-12-02

打赏
举报

回复

你这是哪跟那啊，呵呵

infowain 2005-12-02

打赏
举报

回复

估计是UTF-8，最近用JDOM，它产生的XML文件默认就是UTF-8的

为什么Java默认使用UTF-16，Golang默认使用UTF-8呢？Java 和 Go 在处理字符编码方面的选择，反映了它们各自的历史背景和设计哲学。Java 的 UTF-16 选择了稳定和兼容，而 Go 的 UTF-8 则倾向于现代互联网应用的灵活性和效率。

虽然 UTF-8 能够在某些情况下节省内存，但对于 JVM 来说，UTF-16 的定长特性能够简化字符串操作逻辑，提升整体性能，并确保不同平台上的一致性表现。UTF-16 的选择与这一目标息息相关。不同的操作系统和平台在处理字符编码时有不同的惯例，而 UTF-16 作为一种标准的 Unicode 编码方案，能够确保在不同平台上的一致性表现。Java 选择 UTF-16 编码而不是更节省内存的 UTF-8 这一决定，涉及多个层面的设计权衡，包括历史原因、虚拟机（JVM）实现的复杂度、性能和字符处理的一致性。

Java中的String是一个非常常用的类，用于表示不可变的字符序列。下面对String类的底层原理进行详细说明，并附带代码和经常遇到的错误解析。String类使用一个char类型的数组来保存字符串中的每个字符，同时还有一个int类型的变量count来表示字符串的长度。由于String类是不可变的，因此一旦创建了一个String对象，就不能修改其中的字符序列。当使用String。

首先java的string使用的编码是unicode，但是，当string存在于内存中时(也就是当程序运行时、你在代码中用string类型的引用对它进行操作时、也就是string没有被存在文件中且也没有在网络中传输(序列化)时)，是“只有编码而没有编码格式的”，所以java程序中的任何String对象，说它是gbk还是utf-8都是错的，gbk和utf-8是编码格式而不是编码，String在内存中不需要“编码格式”(记住编码格式是在存文件或序列化的时候使用的), 它只是一个unicode的字符串而已所以ja

在 JDK 9 及以后，Stringvalue是一个字节数组，用于存储字符串的数据。coder是一个字节值，指示字符串的编码（LATIN1 或 UTF16）。是一个本地方法：它通过本地代码实现高效的数组复制。参数检查和边界验证：在进行实际的内存复制之前，进行必要的参数检查和类型验证。高效内存复制：通常使用底层系统的内存复制函数（如memmove）来实现高效的数组数据移动。优化：针对不同的数据类型和平台进行专门优化，以提供最佳的性能。

62,625

社区成员

307,257

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章