簡單的說: Java把記憶體劃分成兩種:一種是棧記憶體,一種是堆記憶體。
在函數中定義的一些基本類型的變量和對象的引用變量都在函數的棧記憶體中配置設定。 當在一段代碼塊定義一個變量時,Java就在棧中為這個變量配置設定記憶體空間,當超過變量的作用域後,Java會自動釋放掉為該變量所配置設定的記憶體空間,該記憶體空間可以立即被另作他用。
堆記憶體用來存放由new建立的對象和數組。
在堆中配置設定的記憶體,由Java虛拟機的自動垃圾回收器來管理。
1. 棧(stack)與堆(heap)都是Java用來在Ram中存放資料的地方。與C++不同,Java自動管理棧和堆,程式員不能直接地設定棧或堆。
2. 棧的優勢是,存取速度比堆要快,僅次于直接位于CPU中的寄存器。但缺點是,存在棧中的資料大小與生存期必須是确定的,缺乏靈活性。另外,棧資料可以共享,詳見第3點。堆的優勢是可以動态地配置設定記憶體大小,生存期也不必事先告訴編譯器,Java的垃圾收集器會自動收走這些不再使用的資料。但缺點是,由于要在運作時動态配置設定記憶體,存取速度較慢。
3. Java中的資料類型有兩種。 一種是基本類型(primitive types), 共有8種,即int, short, long, byte, float, double, boolean, char(注意,并沒有string的基本類型)。這種類型的定義是通過諸如int a = 3; long b = 255L;的形式來定義的,稱為自動變量。值得注意的是,自動變量存的是字面值,不是類的執行個體,即不是類的引用,這裡并沒有類的存在。如int a = 3; 這裡的a是一個指向int類型的引用,指向3這個字面值。這些字面值的資料,由于大小可知,生存期可知(這些字面值固定定義在某個程式塊裡面,程式塊退出後,字段值就消失了),出于追求速度的原因,就存在于棧中。
另外,棧有一個很重要的特殊性,就是存在棧中的資料可以共享。假設我們同時定義
int a = 3; int b = 3;
編譯器先處理int a = 3;首先它會在棧中建立一個變量為a的引用,然後查找有沒有字面值為3的位址,沒找到,就開辟一個存放3這個字面值的位址,然後将a指向3的位址。接着處理int b = 3;在建立完b的引用變量後,由于在棧中已經有3這個字面值,便将b直接指向3的位址。這樣,就出現了a與b同時均指向3的情況。
特别注意的是,這種字面值的引用與類對象的引用不同。假定兩個類對象的引用同時指向一個對象,如果一個對象引用變量修改了這個對象的内部狀态,那麼另一個對象引用變量也即刻反映出這個變化。相反,通過字面值的引用來修改其值,不會導緻另一個指向此字面值的引用的值也跟着改變的情況。如上例,我們定義完a與 b的值後,再令a=4;那麼,b不會等于4,還是等于3。在編譯器内部,遇到a=4;時,它就會重新搜尋棧中是否有4的字面值,如果沒有,重新開辟位址存放4的值;如果已經有了,則直接将a指向這個位址。是以a值的改變不會影響到b的值。
另一種是包裝類資料,如Integer, String, Double等将相應的基本資料類型包裝起來的類。這些類資料全部存在于堆中,Java用new()語句來顯式地告訴編譯器,在運作時才根據需要動态建立,是以比較靈活,但缺點是要占用更多的時間。
4. String是一個特殊的包裝類資料。即可以用String str = new String("abc");的形式來建立,也可以用String str = "abc";的形式來建立(作為對比,在JDK 5.0之前,你從未見過Integer i = 3;的表達式,因為類與字面值是不能通用的,除了String。而在JDK 5.0中,這種表達式是可以的!因為編譯器在背景進行Integer i = Integer.valueOf(3); 的轉換)。前者是規範的類的建立過程,即在Java中,一切都是對象,而對象是類的執行個體,全部通過new()的形式來建立。Java 中的有些類,如DateFormat類,可以通過該類的getInstance()方法來傳回一個新建立的類,似乎違反了此原則。其實不然。該類運用了單例模式來傳回類的執行個體,隻不過這個執行個體是在該類内部通過new()來建立的,而getInstance()向外部隐藏了此細節。那為什麼在String str = "abc";中,并沒有通過new()來建立執行個體,
是不是違反了上述原則?其實沒有。
5. 關于String str = "abc"的内部工作。Java内部将此語句轉化為以下幾個步驟:
(1)先定義一個名為str的對String類的對象引用變量:String str;
(2)在棧中查找有沒有存放值為"abc"的位址,如果沒有,則開辟一個存放字面值為"abc"的位址,接着建立一個新的String類的對象o,并将o 的字元串值指向這個位址,而且在棧中這個位址旁邊記下這個引用的對象o。如果已經有了值為"abc"的位址,則查找對象o,并傳回o的位址。
(3)将str指向對象o的位址。 值得注意的是,一般String類中字元串值都是直接存值的。但像String str = "abc";這種場合下,其字元串值卻是儲存了一個指向存在棧中資料的引用! 為了更好地說明這個問題,我們可以通過以下的幾個代碼進行驗證。
String str1 = "abc"; String str2 = "abc";
System.out.println(str1==str2); //true
注意,我們這裡并不用str1.equals(str2);的方式,因為這将比較兩個字元串的值是否相等。==号,根據JDK的說明,隻有在兩個引用都指向了同一個對象時才傳回真值。而我們在這裡要看的是,str1與str2是否都指向了同一個對象。 結果說明,JVM建立了兩個引用str1和str2,但隻建立了一個對象,而且兩個引用都指向了這個對象。 我們再來更進一步,将以上代碼改成:
String str1 = "abc";
String str2 = "abc";
str1 = "bcd";
System.out.println(str1 + "," + str2); //bcd, abc
System.out.println(str1==str2); //false
這就是說,指派的變化導緻了類對象引用的變化,str1指向了另外一個新對象!而str2仍舊指向原來的對象。上例中,當我們将str1的值改為"bcd"時,JVM發現在棧中沒有存
放該值的位址,便開辟了這個位址,并建立了一個新的對象,其字元串的值指向這個位址。
事實上,String類被設計成為不可改變(immutable)的類。如果你要改變其值,可以,但JVM在運作時根據新值悄悄建立了一個新對象,然後将這個對象的位址傳回給原來類的引用。這個建立過程雖說是完全自動進行的,但它畢竟占用了更多的時間。在對時間要求比較敏感的環境中,會帶有一定的不良影響。 再修改原來代碼:
String str3 = str1;
System.out.println(str3); //bcd
String str4 = "bcd";
System.out.println(str1 == str4); //true
str3 這個對象的引用直接指向str1所指向的對象(注意,str3并沒有建立新對象)。當str1改完其值後,再建立一個String的引用str4,并指向因str1修改值而建立的新的對象。可以發現,這回str4也沒有建立新的對象,進而再次實作棧中資料的共享。 我們再接着看以下的代碼。
String str1 = new String("abc");
建立了兩個引用。建立了兩個對象。兩個引用分别指向不同的兩個對象。
String str2 = new String("abc");
建立了兩個引用。建立了兩個對象。兩個引用分别指向不同的兩個對象。 以上兩段代碼說明,隻要是用new()來建立對象的,都會在堆中建立,而且其字元串是單獨存值的,即使與棧中的資料相同,也不會與棧中的資料共享。
6. 資料類型包裝類的值不可修改。不僅僅是String類的值不可修改,所有的資料類型
包裝類都不能更改其内部的值。
7. 結論與建議:
(1)我們在使用諸如String str = "abc";的格式定義類時,總是想當然地認為,我們建立了String類的對象str。擔心陷阱!對象可能并沒有被建立!唯一可以肯定的是,指向 String類的引用被建立了。至于這個引用到底是否指向了一個新的對象,必須根據上下文來考慮,除非你通過new()方法來顯要地建立一個新的對象。是以,更為準确的說法是,我們建立了一個指向String類的對象的引用變量str,這個對象引用變量指向了某個值為"abc"的String類。清醒地認識到這一點對排除程式中難以發現的bug是很有幫助的。
(2)使用String str = "abc";的方式,可以在一定程度上提高程式的運作速度,因為JVM會自動根據棧中資料的實際情況來決定是否有必要建立新對象。而對于String str = new String("abc");的代碼,則一概在堆中建立新對象,而不管其字元串值是否相等,是否有必要建立新對象,進而加重了程式的負擔。這個思想應該是享元模式的思想,但JDK的内部在這裡實作是否應用了這個模式,不得而知。
(3)當比較包裝類裡面的數值是否相等時,用equals()方法;當測試兩個包裝類的引用是否指向同一個對象時,用==。
(4)由于String類的immutable性質,當String變量需要經常變換其值時,應該考慮使用StringBuffer類,以提高程式效率。
java中記憶體配置設定政策及堆和棧的比較
記憶體配置設定政策
按照編譯原理的觀點,程式運作時的記憶體配置設定有三種政策,分别是靜态的,棧式的,和堆式的.
靜态存儲配置設定是指在編譯時就能确定每個資料目标在運作時刻的存儲空間需求,因而在
編譯時就可以給他們配置設定固定的記憶體空間.這種配置設定政策要求程式代碼中不允許有可變資料結構(比如可變數組)的存在,也不允許有嵌套或者遞歸的結構出現,因為它們都會導緻編譯程式無法計算準确的存儲空間需求.
棧式存儲配置設定也可稱為動态存儲配置設定,是由一個類似于堆棧的運作棧來實作的.和靜态存儲配置設定相反,在棧式存儲方案中,程式對資料區的需求在編譯時是完全未知的,隻有到運作的時候才能夠知道,但是規定在運作中進入一個程式子產品時,必須知道該程式子產品所需的資料區大小才能夠為其配置設定記憶體.和我們在資料結構所熟知的棧一樣,棧式存儲配置設定按照先進後出的原則進行配置設定。
靜态存儲配置設定要求在編譯時能知道所有變量的存儲要求,棧式存儲配置設定要求在過程的入口處必須知道所有的存儲要求,而堆式存儲配置設定則專門負責在編譯時或運作時子產品入口處都無法确定存儲要求的資料結構的記憶體配置設定,比如可變長度串和對象執行個體.堆由大片的可利用塊或空閑塊組成,堆中的記憶體可以按照任意順序配置設定和釋放.
堆和棧的比較
上面的定義從編譯原理的教材中總結而來,除靜态存儲配置設定之外,都顯得很呆闆和難以了解,下面撇開靜态存儲配置設定,集中比較堆和棧:
從堆和棧的功能和作用來通俗的比較,堆主要用來存放對象的,棧主要是用來執行程式的.而這種不同又主要是由于堆和棧的特點決定的:
在程式設計中,例如C/C++中,所有的方法調用都是通過棧來進行的,所有的局部變量,形式參數都是從棧中配置設定記憶體空間的。實際上也不是什麼配置設定,隻是從棧頂向上用就行,就好像工廠中的傳送帶(conveyor belt)一樣,Stack Pointer會自動指引你到放東西的位置,你所要做的隻是把東西放下來就行.退出函數的時候,修改棧指針就可以把棧中的内容銷毀.這樣的模式速度最快,當然要用來運作程式了.需要注意的是,在配置設定的時候,比如為一個即将要調用的程式子產品配置設定資料區時,應事先知道這個資料區的大小,也就說是雖然配置設定是在程式運作時進行的,但是配置設定的大小多少是确定的,不變的,而這個"大小多少"是在編譯時确定的,不是在運作時.
堆是應用程式在運作的時候請求作業系統配置設定給自己記憶體,由于從作業系統管理的記憶體配置設定,是以在配置設定和銷毀時都要占用時間,是以用堆的效率非常低.但是堆的優點在于,編譯器不必知道要從堆裡配置設定多少存儲空間,也不必知道存儲的資料要在堆裡停留多長的時間,是以,用堆儲存資料時會得到更大的靈活性。事實上,面向對象的多态性,堆記憶體配置設定是必不可少的,因為多态變量所需的存儲空間隻有在運作時建立了對象之後才能确定.在C++中,要求建立一個對象時,隻需用 new指令編制相關的代碼即可。執行這些代碼時,會在堆裡自動進行資料的儲存.當然,為達到這種靈活性,必然會付出一定的代價:在堆裡配置設定存儲空間時會花掉更長的時間!這也正是導緻我們剛才所說的效率低的原因,看來列甯同志說的好,人的優點往往也是人的缺點,人的缺點往往也是人的優點(暈~).
JVM中的堆和棧
JVM是基于堆棧的虛拟機.JVM為每個新建立的線程都配置設定一個堆棧.也就是說,對于一個Java程式來說,它的運作就是通過對堆棧的操作來完成的。堆棧以幀為機關儲存線程的狀态。JVM對堆棧隻進行兩種操作:以幀為機關的壓棧和出棧操作。 我們知道,某個線程正在執行的方法稱為此線程的目前方法.我們可能不知道,目前方法使用的幀稱為目前幀。當線程激活一個Java方法,JVM就會線上程的 Java堆棧裡新壓入一個幀。這個幀自然成為了目前幀.在此方法執行期間,這個幀将用來儲存參數,局部變量,中間計算過程和其他資料.這個幀在這裡和編譯原理中的活動紀錄的概念是差不多的. 從Java的這種配置設定機制來看,堆棧又可以這樣了解:堆棧(Stack)是作業系統在建立某個程序時或者線程(在支援多線程的作業系統中是線程)為這個線程建立的存儲區域,該區域具有先進後出的特性。 每一個Java應用都唯一對應一個JVM執行個體,每一個執行個體唯一對應一個堆。應用程式在運作中所建立的所有類執行個體或數組都放在這個堆中,并由應用所有的線程 共享.跟C/C++不同,Java中配置設定堆記憶體是自動初始化的。Java中所有對象的存儲空間都是在堆中配置設定的,但是這個對象的引用卻是在堆棧中配置設定,也就是說在建立一個對象時從兩個地方都配置設定記憶體,在堆中配置設定的記憶體實際建立這個對象,而在堆棧中配置設定的記憶體隻是一個指向這個堆對象的指針(引用)而已。
GC的思考
Java為什麼慢?JVM的存在當然是一個原因,但有人說,在Java中,除了簡單類型(int,char等)的資料結構,其它都是在堆中配置設定記憶體(是以說Java的一切都是對象),這也
是程式慢的原因之一。
我的想法是(應該說代表TIJ的觀點),如果沒有Garbage Collector(GC),上面的說法就是成立的.堆不象棧是連續的空間,沒有辦法指望堆本身的記憶體配置設定能夠象堆棧一樣擁有傳送帶般的速度,因為,誰會 為你整理龐大的堆空間,讓你幾乎沒有延遲的從堆中擷取新的空間呢?
這個時候,GC站出來解決問題.我們都知道GC用來清除記憶體垃圾,為堆騰出空間供程式使用,但GC同時也擔負了另外一個重要的任務,就是要讓Java中堆的記憶體配置設定和其他語言中堆棧的記憶體配置設定一樣快,因為速度的問題幾乎是衆口一詞的對Java的诟病.要達到這樣的目的,就必須使堆的配置設定也能夠做到象傳送帶一樣,不用自己操心去找空閑空間.這樣,GC除了負責清除Garbage外,還要負責整理堆中的對象,把它們轉移到一個遠離Garbage的純淨空間中無間隔的排列起來,就象堆棧中一樣緊湊,這樣Heap Pointer就可以友善的指向傳送帶的起始位置,或者說一個未使用的空間,為下一個需要配置設定記憶體的對象"指引方向".是以可以這樣說,垃圾收集影響了對象的建立速度,聽起來很怪,對不對?
那GC怎樣在堆中找到所有存活的對象呢?前面說了,在建立一個對象時,在堆中配置設定實際建立這個對象的記憶體,而在堆棧中配置設定一個指向這個堆對象的指針(引 用),那麼隻要在堆棧(也有可能在靜态存儲區)找到這個引用,就可以跟蹤到所有存活的對象.找到之後,GC将它們從一個堆的塊中移到另外一個堆的塊中,并 将它們一個挨一個的排列起來,就象我們上面說的那樣,模拟出了一個棧的結構,但又不是先進後出的配置設定,而是可以任意配置設定的,在速度可以保證的情況下, Isn't it great?
但是,列甯同志說了,人的優點往往也是人的缺點,人的缺點往往也是人的優點(再暈~~).GC()的運作要占用一個線程,這本身就是一個降低程式運作性能 的缺陷,更何況這個線程還要在堆中把記憶體翻來覆去的折騰.不僅如此,如上面所說,堆中存活的對象被搬移了位置,那麼所有對這些對象的引用都要重新指派.這 些開銷都會導緻性能的降低.
基礎資料類型直接在棧空間配置設定,方法的形式參數,直接在棧空間配置設定,當方法調用完成後從棧空間回收。引用資料類型,需要用new來建立,既在棧空間 配置設定一個位址空間,又在堆空間配置設定對象的類變量 。方法的引用參數,在棧空間配置設定一個位址空間,并指向堆空間的對象區,當方法調用完成後從棧空間回收。局部變量new出來時,在棧空間和堆空間中配置設定空 間,當局部變量生命周期結束後,棧空間立刻被回收,堆空間區域等待GC回收。方法調用時傳入的literal參數,先在棧空間配置設定,在方法調用完成後從棧 空間配置設定。字
符串常量在DATA區域配置設定,this在堆空間配置設定。數組既在棧空間配置設定數組名稱,又在堆空間配置設定數組實際的大小!
JVM是基于堆棧的虛拟機。JVM為每個新建立的線程都配置設定一個堆棧。也就是說,對于一個Java程式來說,它的運作就是通過對堆棧的操作來完成的。堆棧以幀為機關儲存線程的狀态。JVM對堆棧隻進行兩種操作:以幀為機關的壓棧和出棧操作。 我們知道,某個線程正在執行的方法稱為此線程的目前方法。我們可能不知道,目前方法使用的幀稱為目前幀。當線程激活一個Java方法,JVM就會在 線程的Java堆棧裡新壓入一個幀。這個幀自然成為了目前幀.在此方法執行期間,這個幀将用來儲存參數,局部變量,中間計算過程和其他資料。這個幀在這裡 和編譯原理中的活動紀錄的概念是差不多的。 從Java的這種配置設定機制來看,堆棧又可以這樣了解:堆棧(Stack)是作業系統在建立某個程序時或者線程(在支援多線程的作業系統中是線程)為這個線程建立的存儲區域,該區域具有先進後出的特性。
每一個Java應用都唯一對應一個JVM執行個體,每一個執行個體唯一對應一個堆。應用程式在運作中所建立的所有類執行個體或數組都放在這個堆中,并由應用所有 的線程共享。跟C/C++不同,Java中配置設定堆記憶體是自動初始化的。Java中所有對象的存儲空間都是在堆中配置設定的,但是這個對象的引用卻是在堆棧中分 配,也就是說在建立一個對象時從兩個地方都配置設定記憶體,在堆中配置設定的記憶體實際建立這個對象,而在堆棧中配置設定的記憶體隻是一個指向這個堆對象的指針(引用)而已。