Java的string类常量池及不可变性

1、string常量池

当使用new string（“hello”）时，jvm会先使用常量池来管理“hello”直接量，再调用string类的构造器来创建一个新的string对象，新创建的对象被保存在堆内存中。即new string（“hello”）一共产生了两个字符串对象。

【常量池constant pool】管理在编译时被确定并保存在已编译的.class文件中的一些数据，包括关于类、方法、接口中的常量，和字符串常量。

【字符串常量池(string pool, string intern pool, string保留池)】是java堆内存中一个特殊的存储区域,

当创建一个string对象时,假如此字符串值已经存在于常量池中,则不会创建一个新的对象,而是引用已经存在的对象。

理解了下面这段代码就把常量池理解的七七八八了吧。

public void test(){

string a ="张三";

string b ="张";

string c ="三";

string d = b + c;

system.out.println(a == d);//

false

string e ="张"+"三";

system.out.println(a == e);//

true

}

d=b+c：先执行stringbuilder的拼接，相当于new了一下，虽然值相等，但内存地址已变。

当java能直接使用字符串直接量（包括在编译时就计算出来的字符串值时，如string e = "张" + "三";），jvm就会使用常量池来管理这些字符串。

2、string为什么是不可变的？

注：【以下内容来于网络，并结合自己的理解】

答案一：

最流行的java面试题之一就是：什么是不可变对象(immutable object)，不可变对象有什么好处，在什么情况下应该用，或者更具体一些，java的string类为什么要设成immutable类型？

不可变对象，顾名思义就是创建后不可以改变的对象，典型的例子就是java中的string类。

string s = "abc";

s.tolowercase();

如上s.tolowercase()并没有改变“abc“的值，而是创建了一个新的string类“abc”，然后将新的实例的指向变量s。

相对于可变对象，不可变对象有很多优势：

1).不可变对象可以提高string pool的效率和安全性。如果你知道一个对象是不可变的，那么需要拷贝这个对象的内容时，就不用复制它的本身而只是复制它的地址，复制地址（通常一个指针的大小）需要很小的内存效率也很高。对于同时引用这个“abc”的其他变量也不会造成影响。

2).不可变对象对于多线程是安全的，因为在多线程同时进行的情况下，一个可变对象的值很可能被其他进程改变，这样会造成不可预期的结果，而使用不可变对象就可以避免这种情况。

当然也有其他方面原因，但是java把string设成immutable最大的原因应该是效率和安全。

答案二：

这是一个老生常谈的话题(this is an old yet still popular question). 在java中将string设计成不可变的是综合考虑到各种因素的结果,想要理解这个问题,需要综合内存,同步,数据结构以及安全等方面的考虑. 在下文中,我将为各种原因做一个小结。

1. 字符串常量池的需要

字符串常量池(string pool, string intern pool, string保留池) 是java堆内存中一个特殊的存储区域, 当创建一个string对象时,假如此字符串值已经存在于常量池中,则不会创建一个新的对象,而是引用已经存在的对象。

如下面的代码所示,将会在堆内存中只创建一个实际string对象.

string s1 = "abcd";

string s2 = "abcd";

示意图如下所示:

假若字符串对象允许改变,那么将会导致各种逻辑错误,比如改变一个对象会影响到另一个独立对象. 严格来说，这种常量池的思想,是一种优化手段.

请思考: 假若代码如下所示，s1和s2还会指向同一个实际的string对象吗?

代码如下:

public class test

{

public static void main(string[] args)

string s1 = "ab" + "cd";

string s2 = "abc" + "d";

system.out.println("s1==s2:" + s1 == s2);

}

// output：false

（注意和下面代码对比）

也许这个问题违反新手的直觉, 但是考虑到现代编译器会进行常规的优化, 所以他们都会指向常量池中的同一个对象. 或者,你可以用 jd-gui 之类的工具查看一下编译后的class文件.（自带javap -c 命令）

编译后文件如下：

public class test {

public test();

code:

0: aload_0

1: invokespecial

#8 //method

java/lang/object."<init>":()v

4: return

public static void main(java.lang.string[]);

0: ldc #16 //string

abcd

2: astore_1

3: ldc #16 //string

5: astore_2

6: getstatic #18 //field

java/lang/system.out:ljava/io/printstream;

9: new #24 //class

java/lang/stringbuilder

12: dup

13: ldc #26 //string

s1==s2:

15: invokespecial

#28 //method

java/lang/stringbuilder."<init>":(ljava/lang/string;)v

18: aload_1

19: invokevirtual

#31 //method

java/lang/stringbuilder.append:(ljava/lang/string;)ljava/lang/stringbuilder;

22: invokevirtual

#35 //method

java/lang/stringbuilder.tostring:()ljava/lang/string;

25: aload_2

26: if_acmpne 33

29: iconst_1

30: goto 34

33: iconst_0

34: invokevirtual

#39 //method

java/io/printstream.println:(z)v

37: return

public test();

code:

0: aload_0

1: invokespecial

#8 //method

java/lang/

// object."<init>":()v

4: return

public static void main(java.lang.string[]);

0: ldc #16 //

string abcd

2: astore_1

3: ldc #16 //

5: astore_2

6: getstatic #18 //

field java/lang/

// system.out:ljava/io/printstream;

9: aload_1

10: aload_2

11: if_acmpne 18

14: iconst_1

15: goto 19

18: iconst_0

19: invokevirtual

#24 //method

java/io/

// printstream.println:(z)v

22: return

// 字节码指令2

两个“abcd”都是#16，多定义了一个s0=“123”后发现两个“abcd”都是#30【这就是代表指向同一个对象？】

接下来高潮来了，上面的代码稍稍改一下：

system.out.println(s1 == s2);

// output：true

// 代码仅仅少了一个字符串而已

编译一下：见【字节码指令2】左边有底色的是前者比后者的多的字节码指令部分。

两者有什么区别呢？

最初还以为是在底层实现有区别，后经导师指点，仅仅是运算符优先级【+优先级高于==，详见笔记《运算符优先级表》】的区别，前者是先计算+号，执行拼接，再和后面的s2比较，肯定是false啊。当然可以把后面加个括号，输出就变为true了，而且是 "s1==s2:"true 。

理解了这个，再稍微改动一下;

string s1 = "ab";

string s2 = "abc" + "d";

system.out.println(s1 + "cd" == s2);

输出为：false 【只有false，没有前面"s1==s2:"这一串】

// 先执行stringbuilder的拼接，相当于new了一下，虽然值相等，但内存地址已变。

但如果这样写：

string s1 = "1234";

string s01 = "123";

string s02 = "4";

string s2 = s01 + s02;

system.out.println(s1 == s2);

// s2取了s01、s02的引用地址。肯定和s1不同了额。

引：

hashcode()返回的是jvm中地址的哈希码，而不是jvm中的地址，要想得到str在物理内存中的真实地存，那只有用jni技术调用c/c++去实现，否则无能为力，因为java超不出jvm，而jvm对物理内存地址是“不可见”的，否则java中不就有了指针，而去直接操作内存了，当然这是与java语言相违背的。这些只是我个人见解，说不定还真有高手直接用java语言得到了物理内存中的地址了呢。s1.getbytes()也不行。

2. 允许string对象缓存hashcode

java中string对象的哈希码被频繁地使用, 比如在hashmap 等容器中。

字符串不变性保证了hash码的唯一性,因此可以放心地进行缓存.这也是一种性能优化手段,意味着不必每次都去计算新的哈希码. 在string类的定义中有如下代码:

private int hash;//用来缓存hashcode

3. 安全性

string被许多的java类(库)用来当做参数,例如网络连接地址url,文件路径path,还有反射机制所需要的string参数等, 假若string不是固定不变的,将会引起各种安全隐患。

假如有如下的代码:

boolean connect(string s){

if (!issecure(s)) {

throw new securityexception();

// 如果在其他地方可以修改string,那么此处就会引起各种预料不到的问题/错误

causeproblem(s);

总体来说, string不可变的原因包括设计考虑,效率优化问题,以及安全性这三大方面. 事实上,这也是java面试中的许多 "为什么" 的答案。

答案三：string类不可变性的好处

string是所有语言中最常用的一个类。我们知道在java中，string是不可变的、final的。java在运行时也保存了一个字符串池(string pool)，这使得string成为了一个特别的类。

string类不可变性的好处

1.只有当字符串是不可变的，字符串池才有可能实现。字符串池的实现可以在运行时节约很多heap（堆）空间，因为不同的字符串变量都指向池中的同一个字符串。但如果字符串是可变的，那么string

interning将不能实现(译者注：string interning（拘留）是指对不同的字符串仅仅只保存一个，即不会保存多个相同的字符串。)，因为这样的话，如果变量改变了它的值，那么其它指向这个值的变量的值也会一起改变。

2.如果字符串是可变的，那么会引起很严重的安全问题。譬如，数据库的用户名、密码都是以字符串的形式传入来获得数据库的连接，或者在socket编程中，主机名和端口都是以字符串的形式传入。因为字符串是不可变的，所以它的值是不可改变的，否则黑客们可以钻到空子，改变字符串指向的对象的值，造成安全漏洞。

3.因为字符串是不可变的，所以是多线程安全的，同一个字符串实例可以被多个线程共享。这样便不用因为线程安全问题而使用同步。字符串自己便是线程安全的。

4.类加载器要用到字符串，不可变性提供了安全性，以便正确的类被加载。譬如你想加载java.sql.connection类，而这个值被改成了myhacked.connection，那么会对你的数据库造成不可知的破坏。

5.因为字符串是不可变的，所以在它创建的时候hashcode就被缓存了，不需要重新计算。这就使得字符串很适合作为map中的键，字符串的处理速度要快过其它的键对象。这就是hashmap中的键往往都使用字符串。

以上就是我总结的字符串不可变性的好处。

什么是不可变对象？

string对象是不可变的，但这仅意味着你无法通过调用它的公有方法来改变它的值。

众所周知，在java中， string类是不可变的。那么到底什么是不可变的对象呢？可以这样认为：如果一个对象，在它创建完成之后，不能再改变它的状态，那么这个对象就是不可变的。不能改变状态的意思是，不能改变对象内的成员变量，包括基本数据类型的值不能改变，引用类型的变量不能指向其他的对象，引用类型指向的对象的状态也不能改变。

区分对象和对象的引用

对于java初学者，对于string是不可变对象总是存有疑惑。看下面代码：

<code>string s = </code><code>"abcabc"</code><code>;</code>

<code>system.out.println(</code><code>"s = "</code><code>+ s);</code>

打印结果为：

<code>s = abcabc</code>

首先创建一个string对象s，然后让s的值为“abcabc”，然后又让s的值为“123456”。从打印结果可以看出，s的值确实改变了。那么怎么还说string对象是不可变的呢？其实这里存在一个误区： s只是一个string对象的引用，并不是对象本身。对象在内存中是一块内存区，成员变量越多，这块内存区占的空间越大。引用只是一个4字节的数据，里面存放了它所指向的对象的地址，通过这个地址可以访问对象。

也就是说，s只是一个引用，它指向了一个具体的对象，当s=“123456”; 这句代码执行过之后，又创建了一个新的对象“123456”，而引用s重新指向了这个新的对象，原来的对象“abcabc”还在内存中存在，并没有改变。

java和c++的一个不同点是，在java中不可能直接操作对象本身，所有的对象都由一个引用指向，必须通过这个引用才能访问对象本身，包括获取成员变量的值，改变对象的成员变量，调用对象的方法等。而在c++中存在引用，对象和指针三个东西，这三个东西都可以访问对象。其实，java中的引用和c++中的指针在概念上是相似的，他们都是存放的对象在内存中的地址值，只是在java中，引用丧失了部分灵活性，比如java中的引用不能像c++中的指针那样进行加减运算。

为什么string对象是不可变的？

要理解string的不可变性，首先看一下string类中都有哪些成员变量。在jdk1.6中，string的成员变量有以下几个：

<code>public </code><code>final </code><code>class </code><code>string</code>

<code></code><code> implements</code><code>java.io.serializable, comparable<string>, charsequence</code>

<code></code><code>/** the value is used for character storage. */</code>

<code></code><code> private </code><code>final </code><code>char </code><code>value[];</code>

<code></code><code>/** the offset is the first index of the storage that is used. */</code>

<code></code><code> private </code><code>final </code><code>int </code><code>offset;</code>

<code></code><code>/** the count is the number of characters in the string. */</code>

<code></code><code> private </code><code>final </code><code>int </code><code>count;</code>

<code></code><code>/** cache the hash code for the string */</code>

<code></code><code> private </code><code>int </code><code>hash; </code><code>// default to 0</code>

在jdk1.8中，string类做了一些改动，主要是改变了substring方法执行时的行为，这和本文的主题不相关。jdk1.8中string类的主要成员变量就剩下了两个：

public final class string

implements java.io.serializable,

comparable<string>, charsequence {

/**

the value is used for character storage. */

private final charvalue[];

cache the hash code for the string */

private int hash; //

default to 0

* class string is special

cased within the serialization stream protocol.

* a string instance is

written into an objectoutputstream according to

* <a href="{@docroot}/../platform/serialization/spec/output.html">

* object serialization

specification, section 6.2, "stream elements"</a>

// 声明序列化时要包含的域，仅仅声明string中未使用

private static final objectstreamfield[] serialpersistentfields =

new objectstreamfield[0];

由以上的代码可以看出，在java中string类其实就是对字符数组的封装。jdk6中， value是string封装的数组，offset是string在这个value数组中的起始位置，count是string所占的字符的个数。在jdk7中，只有一个value变量，也就是value中的所有字符都是属于string这个对象的。这个改变不影响本文的讨论。除此之外还有一个hash成员变量，是该string对象的哈希值的缓存，这个成员变量也和本文的讨论无关。在java中，数组也是对象（可以参考我之前的文章java中数组的特性）。

所以value也只是一个引用，它指向一个真正的数组对象。其实执行了string s = “abcabc”; 这句代码之后，真正的内存布局应该是这样的：

value，offset和count这三个变量都是private的，并且没有提供setvalue， setoffset和setcount等公共方法来修改这些值，所以在string类的外部无法修改string。也就是说一旦初始化就不能修改，并且在string类的外部不能访问这三个成员。此外，value，offset和count这三个变量都是final的，也就是说在string类内部，一旦这三个值初始化了，也不能被改变。所以可以认为string对象是不可变的了。

那么在string中，明明存在一些方法，调用他们可以得到改变后的值。这些方法包括substring， replace， replaceall， tolowercase等。例如如下代码：

<code>string a = </code><code>"abcabc"</code><code>;</code>

<code>system.out.println(</code><code>"a = "</code><code>+ a);</code>

<code>a = a.replace(</code><code>'a'</code><code>, </code><code>'a'</code><code>);</code>

<code>a = abcabc</code>

那么a的值看似改变了，其实也是同样的误区。再次说明， a只是一个引用，不是真正的字符串对象，在调用a.replace(‘a', ‘a')时，方法内部创建了一个新的string对象，并把这个心的对象重新赋给了引用a。string中replace方法的源码可以说明问题：

public string replace(char oldchar, char newchar)

if (oldchar != newchar)

int len = value.length;

int i =

-1;

char[] val = value; /*

avoid getfield opcode */

while (++i < len)

if (val[i]

== oldchar) {

break;

}

if (i < len)

char buf[]

= new char[len];

for (int j =

0; j < i; j++)

buf[j]

= val[j];

while (i < len)

char c = val[i];

buf[i]

= (c == oldchar)

? newchar : c;

i++;

return new string(buf, true);

}

return this;

读者可以自己查看其他方法，都是在方法内部重新创建新的string对象，并且返回这个新的对象，原来的对象是不会被改变的。这也是为什么像replace， substring，tolowercase等方法都存在返回值的原因。也是为什么像下面这样调用不会改变对象的值：

<code>string ss = </code><code>"123456"</code><code>;</code>

<code>system.out.println(</code><code>"ss = "</code><code>+ ss);</code>

<code>ss.replace(</code><code>'1'</code><code>, </code><code>'0'</code><code>);</code>

打印结果：

string对象真的不可变吗？

从上文可知string的成员变量是private final 的，也就是初始化之后不可改变。那么在这几个成员中， value比较特殊，因为他是一个引用变量，而不是真正的对象。value是final修饰的，也就是说final不能再指向其他数组对象，那么我能改变value指向的数组吗？比如将数组中的某个位置上的字符变为下划线“_”。至少在我们自己写的普通代码中不能够做到，因为我们根本不能够访问到这个value引用，更不能通过这个引用去修改数组。

那么用什么方式可以访问私有成员呢？没错，用反射，可以反射出string对象中的value属性，

进而通过改变获得的value引用改变数组的结构。下面是实例代码：

import java.lang.reflect.field;

public class reflection

public static void main(string[] args) throws exception

// 创建字符串"hello

world"，并赋给引用s

string s = "hello

world";

system.out.println("原 s=

" + s + "

,hash：" + s.hashcode()); // 原s=

hello world 地址：-862545276

commonchange(s);

system.out.println("======反射修改======");

// 获取string类中的value字段

field valuefield =

string.class.getdeclaredfield("value");

// 改变value属性的访问权限

valuefield.setaccessible(true);

// 获取s对象上的value属性的值

char[] value =

(char[]) valuefield.get(s);

// 改变value所引用的数组中的第5个字符

value[5] = '_';

valuefield.set(s, newchar[]{'h', 'a', 'p', 'p', 'y'});

system.out.println("反射s=

,hash：" + s.hashcode()); // 新s=

happy 地址：-862545276

private static void commonchange(string s)

system.out.println("======普通修改======");

s = "hello--world";

system.out.println("改变s=

,hash：" + s.hashcode()); // 改变s=

hello--world ,hash：753841376

string newstr = new string("hello--world");

system.out.println("新 s=

" + newstr + "

,hash：" + newstr.hashcode()); // 新 s=

hello--world ,hash：753841376【内存中已存在】

system.out.println(s == newstr); //

依旧 false 【虽然hash相同】

在这个过程中，s始终引用的同一个string对象，但是在反射前后，这个string对象发生了变化，也就是说，通过反射是可以修改所谓的“不可变”对象的。但是一般我们不这么做。这个反射的实例还可以说明一个问题：如果一个对象，他组合的其他对象的状态是可以改变的，那么这个对象很可能不是不可变对象。例如一个car对象，它组合了一个wheel对象，虽然这个wheel对象声明成了private final 的，但是这个wheel对象内部的状态可以改变，那么就不能很好的保证car对象不可变。

参考：http://www.jb51.net/article/73243.htm

Java的string类常量池及不可变性

继续阅读

C经典书籍笔记——C陷阱与缺陷②(语法陷阱之优先级)一、错误案列二、优先级规律

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

NOSQL安全攻击

mybatis_入门程序Mybatis入门

线性表之顺序表的实现

AOP编程_Android优雅权限框架(1)概念基础，2021金三银四前言正文大纲正文

登录plsql 报错 the account is locked --用户被锁

Effective Java 8:通用程序设计

C++判断素数、求最大公约数代码判断一个数是否为素数求两个数的最大公约数

SequoiaDB巨杉数据库C++驱动概述

OOM三种类型

工厂模式-三种类型

【递归】高效率求2的n次幂

win10本地scala和spark安装安装scala安装spark

scala (3) Function 和 Method