帶你讀《Java并發程式設計的藝術》之三：Java記憶體模型

點選這裡檢視第一章：并發程式設計的挑戰點選這裡檢視第二章：Java并發機制的底層實作原理

第3章：Java記憶體模型

Java線程之間的通信對程式員完全透明，記憶體可見性問題很容易困擾Java程式員，本章将揭開Java記憶體模型神秘的面紗。本章大緻分4部分：Java記憶體模型的基礎，主要介紹記憶體模型相關的基本概念；Java記憶體模型中的順序一緻性，主要介紹重排序與順序一緻性記憶體模型；同步原語，主要介紹3個同步原語（synchronized、volatile和f?inal）的記憶體語義及重排序規則在處理器中的實作；Java記憶體模型的設計，主要介紹Java記憶體模型的設計原理，及其與處理器記憶體模型和順序一緻性記憶體模型的關系。

3.1　Java記憶體模型的基礎

3.1.1　并發程式設計模型的兩個關鍵問題

在并發程式設計中，需要處理兩個關鍵問題：線程之間如何通信及線程之間如何同步（這裡的線程是指并發執行的活動實體）。通信是指線程之間以何種機制來交換資訊。在指令式程式設計中，線程之間的通信機制有兩種：共享記憶體和消息傳遞。

在共享記憶體的并發模型裡，線程之間共享程式的公共狀态，通過寫-讀記憶體中的公共狀态進行隐式通信。在消息傳遞的并發模型裡，線程之間沒有公共狀态，線程之間必須通過發送消息來顯式進行通信。

同步是指程式中用于控制不同線程間操作發生相對順序的機制。在共享記憶體并發模型裡，同步是顯式進行的。程式員必須顯式指定某個方法或某段代碼需要線上程之間互斥執行。在消息傳遞的并發模型裡，由于消息的發送必須在消息的接收之前，是以同步是隐式進行的。

Java的并發采用的是共享記憶體模型，Java線程之間的通信總是隐式進行，整個通信過程對程式員完全透明。如果編寫多線程程式的Java程式員不了解隐式進行的線程之間通信的工作機制，很可能會遇到各種奇怪的記憶體可見性問題。

3.1.2　Java記憶體模型的抽象結構

在Java中，所有執行個體域、靜态域和數組元素都存儲在堆記憶體中，堆記憶體線上程之間共享（本章用“共享變量”這個術語代指執行個體域，靜态域和數組元素）。局部變量（Local Variables），方法定義參數（Java語言規範稱之為Formal Method Parameters）和異常處理器參數（Exception Handler Parameters）不會線上程之間共享，它們不會有記憶體可見性問題，也不受記憶體模型的影響。

Java線程之間的通信由Java記憶體模型（本文簡稱為JMM）控制，JMM決定一個線程對共享變量的寫入何時對另一個線程可見。從抽象的角度來看，JMM定義了線程和主記憶體之間的抽象關系：線程之間的共享變量存儲在主記憶體（Main Memory）中，每個線程都有一個私有的本地記憶體（Local Memory），本地記憶體中存儲了該線程以讀/寫共享變量的副本。本地記憶體是JMM的一個抽象概念，并不真實存在。它涵蓋了緩存、寫緩沖區、寄存器以及其他的硬體和編譯器優化。Java記憶體模型的抽象示意如圖3-1所示。

圖3-1　Java記憶體模型的抽象結構示意圖

從圖3-1來看，如果線程A與線程B之間要通信的話，必須要經曆下面2個步驟。

1）線程A把本地記憶體A中更新過的共享變量重新整理到主記憶體中去。

2）線程B到主記憶體中去讀取線程A之前已更新過的共享變量。

下面通過示意圖（見圖3-2）來說明這兩個步驟。

圖3-2　線程之間的通信圖

如圖3-2所示，本地記憶體A和本地記憶體B由主記憶體中共享變量x的副本。假設初始時，這3個記憶體中的x值都為0。線程A在執行時，把更新後的x值（假設值為1）臨時存放在自己的本地記憶體A中。當線程A和線程B需要通信時，線程A首先會把自己本地記憶體中修改後的x值重新整理到主記憶體中，此時主記憶體中的x值變為了1。随後，線程B到主記憶體中去讀取線程A更新後的x值，此時線程B的本地記憶體的x值也變為了1。

從整體來看，這兩個步驟實質上是線程A在向線程B發送消息，而且這個通信過程必須要經過主記憶體。JMM通過控制主記憶體與每個線程的本地記憶體之間的互動，來為Java程式員提供記憶體可見性保證。

3.1.3　從源代碼到指令序列的重排序

在執行程式時，為了提高性能，編譯器和處理器常常會對指令做重排序。重排序分3種類型。

1）編譯器優化的重排序。編譯器在不改變單線程程式語義的前提下，可以重新安排語句的執行順序。

2）指令級并行的重排序。現代處理器采用了指令級并行技術（Instruction-Level Parallelism，ILP）來将多條指令重疊執行。如果不存在資料依賴性，處理器可以改變語句對應機器指令的執行順序。

3）記憶體系統的重排序。由于處理器使用緩存和讀/寫緩沖區，這使得加載和存儲操作看上去可能是在亂序執行。

從Java源代碼到最終實際執行的指令序列，會分别經曆下面3種重排序，如圖3-3

所示。

圖3-3　從源碼到最終執行的指令序列的示意圖

上述的1屬于編譯器重排序，2和3屬于處理器重排序。這些重排序可能會導緻多線程程式出現記憶體可見性問題。對于編譯器，JMM的編譯器重排序規則會禁止特定類型的編譯器重排序（不是所有的編譯器重排序都要禁止）。對于處理器重排序，JMM的處理器重排序規則會要求Java編譯器在生成指令序列時，插入特定類型的記憶體屏障（Memory Barriers，Intel稱之為Memory Fence）指令，通過記憶體屏障指令來禁止特定類型的處理器重排序。

JMM屬于語言級的記憶體模型，它確定在不同的編譯器和不同的處理器平台之上，通過禁止特定類型的編譯器重排序和處理器重排序，為程式員提供一緻的記憶體可見性保證。

3.1.4　并發程式設計模型的分類

現代的處理器使用寫緩沖區臨時儲存向記憶體寫入的資料。寫緩沖區可以保證指令流水線持續運作，它可以避免由于處理器停頓下來等待向記憶體寫入資料而産生的延遲。同時，通過以批處理的方式重新整理寫緩沖區，以及合并寫緩沖區中對同一記憶體位址的多次寫，減少對記憶體總線的占用。雖然寫緩沖區有這麼多好處，但每個處理器上的寫緩沖區，僅僅對它所在的處理器可見。這個特性會對記憶體操作的執行順序産生重要的影響：處理器對記憶體的讀/寫操作的執行順序，不一定與記憶體實際發生的讀/寫操作順序一緻！為了具體說明，請看下面的表3-1。

表3-1　處理器操作記憶體的執行結果

假設處理器A和處理器B按程式的順序并行執行記憶體通路，最終可能得到x = y = 0的結果。具體的原因如圖3-4所示。

圖3-4　處理器和記憶體的互動

這裡處理器A和處理器B可以同時把共享變量寫入自己的寫緩沖區（A1，B1），然後從記憶體中讀取另一個共享變量（A2，B2），最後才把自己寫緩存區中儲存的髒資料重新整理到記憶體中（A3，B3）。當以這種時序執行時，程式就可以得到x = y = 0的結果。

從記憶體操作實際發生的順序來看，直到處理器A執行A3來重新整理自己的寫緩存區，寫操作A1才算真正執行了。雖然處理器A執行記憶體操作的順序為：A1→A2，但記憶體操作實際發生的順序卻是A2→A1。此時，處理器A的記憶體操作順序被重排序了（處理器B的情況和處理器A一樣，這裡就不贅述了）。

這裡的關鍵是，由于寫緩沖區僅對自己的處理器可見，它會導緻處理器執行記憶體操作的順序可能會與記憶體實際的操作執行順序不一緻。由于現代的處理器都會使用寫緩沖區，是以現代的處理器都會允許對寫-讀操作進行重排序。

表3-2是常見處理器允許的重排序類型的清單。

表3-2　處理器的重排序規則

注意，表3-2單元格中的“N”表示處理器不允許兩個操作重排序，“Y”表示允許重

排序。

從表3-2我們可以看出：常見的處理器都允許Store-Load重排序；常見的處理器都不允許對存在資料依賴的操作做重排序。sparc-TSO和X86擁有相對較強的處理器記憶體模型，它們僅允許對寫-讀操作做重排序（因為它們都使用了寫緩沖區）。

sparc-TSO是指以TSO（Total Store Order）記憶體模型運作時sparc處理器的特性。

表3-2中的X86包括X64及AMD64。

由于ARM處理器的記憶體模型與PowerPC處理器的記憶體模型非常類似，本文将忽略它。

資料依賴性後文會專門說明。

為了保證記憶體可見性，Java編譯器在生成指令序列的适當位置會插入記憶體屏障指令來禁止特定類型的處理器重排序。JMM把記憶體屏障指令分為4類，如表3-3所示。

表3-3　記憶體屏障類型表

屏障類型	指令示例	說　　明
LoadLoad Barriers	Load1; LoadLoad; Load2	確定Load1資料的裝載先于Load2及所有後續裝載指令的裝載
StoreStore Barriers	Store1; StoreStore; Store2	確定Store1資料對其他處理器可見（重新整理到記憶體）先于Store2及所有後續存儲指令的存儲
LoadStore Barriers	Load1; LoadStore; Store2	確定Load1資料裝載先于Store2及所有後續的存儲指令重新整理到記憶體

StoreLoad Barriers Store1; StoreLoad; Load2 確定Store1資料對其他處理器變得可見（指重新整理到記憶體）先于Load2及所有後續裝載指令的裝載。StoreLoad Barriers會使該屏障之前的所有記憶體通路指令（存儲和裝載指令）完成之後，才執行該屏障之後的記憶體通路指令

StoreLoad Barriers是一個“全能型”的屏障，它同時具有其他3個屏障的效果。現代的多處理器大多支援該屏障（其他類型的屏障不一定被所有處理器支援）。執行該屏障開銷會很昂貴，因為目前處理器通常要把寫緩沖區中的資料全部重新整理到記憶體中（Buffer Fully Flush）。

3.1.5　happens-before簡介

從JDK 5開始，Java使用新的JSR-133記憶體模型（除非特别說明，本文針對的都是JSR-133記憶體模型）。JSR-133使用happens- before的概念來闡述操作之間的記憶體可見性。在JMM中，如果一個操作執行的結果需要對另一個操作可見，那麼這兩個操作之間必須要存在happens- before關系。這裡提到的兩個操作既可以是在一個線程之内，也可以是在不同線程之間。

與程式員密切相關的happens- before規則如下。

程式順序規則：一個線程中的每個操作，happens- before于該線程中的任意後續操作。

螢幕鎖規則：對一個鎖的解鎖，happens- before于随後對這個鎖的加鎖。

volatile變量規則：對一個volatile域的寫，happens- before于任意後續對這個volatile域的讀。

傳遞性：如果A happens- before B，且B happens- before C，那麼A happens- before C。

兩個操作之間具有happens-before關系，并不意味着前一個操作必須要在後一個操作之前執行！happens-before僅僅要求前一個操作（執行的結果）對後一個操作可見，且前一個操作按順序排在第二個操作之前（the f?irst is visible to and ordered before the second）。happens- before的定義很微妙，後文會具體說明happens-before為什麼要這麼定義。

happens-before與JMM的關系如圖3-5所示。

圖3-5　happens-before與JMM的關系

如圖3-5所示，一個happens-before規則對應于一個或多個編譯器和處理器重排序規則。對于Java程式員來說，happens-before規則簡單易懂，它避免Java程式員為了了解JMM提供的記憶體可見性保證而去學習複雜的重排序規則以及這些規則的具體實作方法。

3.2　重排序

重排序是指編譯器和處理器為了優化程式性能而對指令序列進行重新排序的一種手段。

3.2.1　資料依賴性

如果兩個操作通路同一個變量，且這兩個操作中有一個為寫操作，此時這兩個操作之間就存在資料依賴性。資料依賴分為下列3種類型，如表3-4所示。

表3-4　資料依賴類型表

名　稱	代碼示例
寫後讀	a = 1;b = a;	寫一個變量之後，再讀這個位置
寫後寫	a = 1;a = 2;	寫一個變量之後，再寫這個變量
讀後寫	a = b;b = 1;	讀一個變量之後，再寫這個變量

上面3種情況，隻要重排序兩個操作的執行順序，程式的執行結果就會被改變。

前面提到過，編譯器和處理器可能會對操作做重排序。編譯器和處理器在重排序時，會遵守資料依賴性，編譯器和處理器不會改變存在資料依賴關系的兩個操作的執行順序。

這裡所說的資料依賴性僅針對單個處理器中執行的指令序列和單個線程中執行的操作，不同處理器之間和不同線程之間的資料依賴性不被編譯器和處理器考慮。

3.2.2　as-if-serial語義

as-if-serial語義的意思是：不管怎麼重排序（編譯器和處理器為了提高并行度），（單線程）程式的執行結果不能被改變。編譯器、runtime和處理器都必須遵守as-if-serial語義。

為了遵守as-if-serial語義，編譯器和處理器不會對存在資料依賴關系的操作做重排序，因為這種重排序會改變執行結果。但是，如果操作之間不存在資料依賴關系，這些操作就可能被編譯器和處理器重排序。為了具體說明，請看下面計算圓面積的代碼示例。

double pi = 3.14; // A

double r = 1.0; // B

double area = pi r r; // C

上面3個操作的資料依賴關系如圖3-6所示。

如圖3-6所示，A和C之間存在資料依賴關系，同時B和C之間也存在資料依賴關系。是以在最終執行的指令序列中，C不能被重排序到A和B的前面（C排到A和B的前面，程式的結果将會被改變）。但A和B之間沒有資料依賴關系，編譯器和處理器可以重排序A和B之間的執行順序。圖3-7是該程式的兩種執行

順序。

圖3-7　程式的兩種執行順序

as-if-serial語義把單線程程式保護了起來，遵守as-if-serial語義的編譯器、runtime和處理器共同為編寫單線程程式的程式員建立了一個幻覺：單線程程式是按程式的順序來執行的。as-if-serial語義使單線程程式員無需擔心重排序會幹擾他們，也無需擔心記憶體可見性

問題。

3.2.3　程式順序規則

根據happens- before的程式順序規則，上面計算圓的面積的示例代碼存在3個happens- before關系。

1）A　happens- before B。

2）B　happens- before C。

3）A　happens- before C。

這裡的第3個happens- before關系，是根據happens- before的傳遞性推導出來的。

這裡A happens- before B，但實際執行時B卻可以排在A之前執行（看上面的重排序後的執行順序）。如果A happens- before B，JMM并不要求A一定要在B之前執行。JMM僅僅要求前一個操作（執行的結果）對後一個操作可見，且前一個操作按順序排在第二個操作之前。這裡操作A的執行結果不需要對操作B可見；而且重排序操作A和操作B後的執行結果，與操作A和操作B按happens- before順序執行的結果一緻。在這種情況下，JMM會認為這種重排序并不非法（not illegal），JMM允許這種重排序。

在計算機中，軟體技術和硬體技術有一個共同的目标：在不改變程式執行結果的前提下，盡可能提高并行度。編譯器和處理器遵從這一目标，從happens- before的定義我們可以看出，JMM同樣遵從這一目标。

3.2.4　重排序對多線程的影響

現在讓我們來看看，重排序是否會改變多線程程式的執行結果。請看下面的示例代碼。

class ReorderExample {
int a = 0;
boolean f?lag = false;

public void writer() {
    a = 1;            // 1
    f?lag = true;        // 2
}

Public void reader() {
    if (f?lag) {        // 3
        int i =  a * a;    // 4
        ……
    }
}
}

f?lag變量是個标記，用來辨別變量a是否已被寫入。這裡假設有兩個線程A和B，A首先執行writer()方法，随後B線程接着執行reader()方法。線程B在執行操作4時，能否看到線程A在操作1對共享變量a的寫入呢？

答案是：不一定能看到。

由于操作1和操作2沒有資料依賴關系，編譯器和處理器可以對這兩個操作重排序；同樣，操作3和操作4沒有資料依賴關系，編譯器和處理器也可以對這兩個操作重排序。讓我們先來看看，當操作1和操作2重排序時，可能會産生什麼效果？請看下面的程式執行時序圖，如圖3-8所示。

圖3-8　程式執行時序圖

如圖3-8所示，操作1和操作2做了重排序。程式執行時，線程A首先寫标記變量f?lag，随後線程B讀這個變量。由于條件判斷為真，線程B将讀取變量a。此時，變量a還沒有被線程A寫入，在這裡多線程程式的語義被重排序破壞了！

本文統一用虛箭線辨別錯誤的讀操作，用實箭線辨別正确的讀操作。

下面再讓我們看看，當操作3和操作4重排序時會産生什麼效果（借助這個重排序，可以順便說明控制依賴性）。下面是操作3和操作4重排序後，程式執行的時序圖，如圖3-9

圖3-9　程式的執行時序圖

在程式中，操作3和操作4存在控制依賴關系。當代碼中存在控制依賴性時，會影響指令序列執行的并行度。為此，編譯器和處理器會采用猜測（Speculation）執行來克服控制相關性對并行度的影響。以處理器的猜測執行為例，執行線程B的處理器可以提前讀取并計算a*a，然後把計算結果臨時儲存到一個名為重排序緩沖（Reorder Buffer，ROB）的硬體緩存中。當操作3的條件判斷為真時，就把該計算結果寫入變量i中。

從圖3-9中我們可以看出，猜測執行實質上對操作3和4做了重排序。重排序在這裡破壞了多線程程式的語義！

在單線程程式中，對存在控制依賴的操作重排序，不會改變執行結果（這也是as-if-serial語義允許對存在控制依賴的操作做重排序的原因）；但在多線程程式中，對存在控制依賴的操作重排序，可能會改變程式的執行結果。

3.3　順序一緻性

順序一緻性記憶體模型是一個理論參考模型，在設計的時候，處理器的記憶體模型和程式設計語言的記憶體模型都會以順序一緻性記憶體模型作為參照。

3.3.1　資料競争與順序一緻性

當程式未正确同步時，就可能會存在資料競争。Java記憶體模型規範對資料競争的定義

如下。

在一個線程中寫一個變量，

在另一個線程讀同一個變量，

而且寫和讀沒有通過同步來排序。

當代碼中包含資料競争時，程式的執行往往産生違反直覺的結果（前一章的示例正是如此）。如果一個多線程程式能正确同步，這個程式将是一個沒有資料競争的程式。

JMM對正确同步的多線程程式的記憶體一緻性做了如下保證。

如果程式是正确同步的，程式的執行将具有順序一緻性（Sequentially Consistent）——即程式的執行結果與該程式在順序一緻性記憶體模型中的執行結果相同。馬上我們就會看到，這對于程式員來說是一個極強的保證。這裡的同步是指廣義上的同步，包括對常用同步原語（synchronized、volatile和f?inal）的正确使用。

3.3.2　順序一緻性記憶體模型

順序一緻性記憶體模型是一個被計算機科學家理想化了的理論參考模型，它為程式員提供了極強的記憶體可見性保證。順序一緻性記憶體模型有兩大特性。

1）一個線程中的所有操作必須按照程式的順序來執行。

2）（不管程式是否同步）所有線程都隻能看到一個單一的操作執行順序。在順序一緻性記憶體模型中，每個操作都必須原子執行且立刻對所有線程可見。

順序一緻性記憶體模型為程式員提供的視圖如圖3-10所示。

圖3-10　順序一緻性記憶體模型的視圖

在概念上，順序一緻性模型有一個單一的全局記憶體，這個記憶體通過一個左右擺動的開關可以連接配接到任意一個線程，同時每一個線程必須按照程式的順序來執行記憶體讀/寫操作。從上面的示意圖可以看出，在任意時間點最多隻能有一個線程可以連接配接到記憶體。當多個線程并發執行時，圖中的開關裝置能把所有線程的所有記憶體讀/寫操作串行化（即在順序一緻性模型中，所有操作之間具有全序關系）。

為了更好進行了解，下面通過兩個示意圖來對順序一緻性模型的特性做進一步的說明。

假設有兩個線程A和B并發執行。其中A線程有3個操作，它們在程式中的順序是：A1→A2→A3。B線程也有3個操作，它們在程式中的順序是：B1→B2→B3。

假設這兩個線程使用螢幕鎖來正确同步：A線程的3個操作執行後釋放螢幕鎖，随後B線程擷取同一個螢幕鎖。那麼程式在順序一緻性模型中的執行效果将如圖3-11所示。

圖3-11　順序一緻性模型的一種執行效果

現在我們再假設這兩個線程沒有做同步，下面是這個未同步程式在順序一緻性模型中的執行示意圖，如圖3-12所示。

圖3-12　順序一緻性模型中的另一種執行效果

未同步程式在順序一緻性模型中雖然整體執行順序是無序的，但所有線程都隻能看到一個一緻的整體執行順序。以上圖為例，線程A和B看到的執行順序都是：B1→A1→A2→B2→A3→B3。之是以能得到這個保證是因為順序一緻性記憶體模型中的每個操作必須立即對任意線程可見。

但是，在JMM中就沒有這個保證。未同步程式在JMM中不但整體的執行順序是無序的，而且所有線程看到的操作執行順序也可能不一緻。比如，在目前線程把寫過的資料緩存在本地記憶體中，在沒有重新整理到主記憶體之前，這個寫操作僅對目前線程可見；從其他線程的角度來觀察，會認為這個寫操作根本沒有被目前線程執行。隻有目前線程把本地記憶體中寫過的資料重新整理到主記憶體之後，這個寫操作才能對其他線程可見。在這種情況下，目前線程和其他線程看到的操作執行順序将不一緻。

3.3.3　同步程式的順序一緻性效果

下面，對前面的示例程式ReorderExample用鎖來同步，看看正确同步的程式如何具有順序一緻性。

請看下面的示例代碼。

class SynchronizedExample {
int a = 0;
boolean f?lag = false;

public synchronized void writer() {        // 擷取鎖
    a = 1;
    f?lag = true;
}                        // 釋放鎖

public synchronized void reader() {        // 擷取鎖
    if (f?lag) {
        int i = a;
        ……
    }                        // 釋放鎖
}
}

在上面示例代碼中，假設A線程執行writer()方法後，B線程執行reader()方法。這是一個正确同步的多線程程式。根據JMM規範，該程式的執行結果将與該程式在順序一緻性模型中的執行結果相同。下面是該程式在兩個記憶體模型中的執行時序對比圖，如圖3-13

順序一緻性模型中，所有操作完全按程式的順序串行執行。而在JMM中，臨界區内的代碼可以重排序（但JMM不允許臨界區内的代碼“逸出”到臨界區之外，那樣會破壞螢幕的語義）。JMM會在退出臨界區和進入臨界區這兩個關鍵時間點做一些特别處理，使得線程在這兩個時間點具有與順序一緻性模型相同的記憶體視圖（具體細節後文會說明）。雖然線程A在臨界區内做了重排序，但由于螢幕互斥執行的特性，這裡的線程B根本無法“觀察”到線程A在臨界區内的重排序。這種重排序既提高了執行效率，又沒有改變程式的執行

結果。

圖3-13　兩個記憶體模型中的執行時序對比圖

從這裡我們可以看到，JMM在具體實作上的基本方針為：在不改變（正确同步的）程式執行結果的前提下，盡可能地為編譯器和處理器的優化打開友善之門。

3.3.4　未同步程式的執行特性

對于未同步或未正确同步的多線程程式，JMM隻提供最小安全性：線程執行時讀取到的值，要麼是之前某個線程寫入的值，要麼是預設值（0，Null，False），JMM保證線程讀操作讀取到的值不會無中生有（Out Of Thin Air）的冒出來。為了實作最小安全性，JVM在堆上配置設定對象時，首先會對記憶體空間進行清零，然後才會在上面配置設定對象（JVM内部會同步這兩個操作）。是以，在已清零的記憶體空間（Pre-zeroed Memory）配置設定對象時，域的預設初始化已經完成了。

JMM不保證未同步程式的執行結果與該程式在順序一緻性模型中的執行結果一緻。因為如果想要保證執行結果一緻，JMM需要禁止大量的處理器和編譯器的優化，這對程式的執行性能會産生很大的影響。而且未同步程式在順序一緻性模型中執行時，整體是無序的，其執行結果往往無法預知。而且，保證未同步程式在這兩個模型中的執行結果一緻沒什麼

意義。

未同步程式在JMM中的執行時，整體上是無序的，其執行結果無法預知。未同步程式在兩個模型中的執行特性有如下幾個差異。

1）順序一緻性模型保證單線程内的操作會按程式的順序執行，而JMM不保證單線程内的操作會按程式的順序執行（比如上面正确同步的多線程程式在臨界區内的重排序）。這一點前面已經講過了，這裡就不再贅述。

2）順序一緻性模型保證所有線程隻能看到一緻的操作執行順序，而JMM不保證所有線程能看到一緻的操作執行順序。這一點前面也已經講過，這裡就不再贅述。

3）JMM不保證對64位的long型和double型變量的寫操作具有原子性，而順序一緻性模型保證對所有的記憶體讀/寫操作都具有原子性。

第3個差異與處理器總線的工作機制密切相關。在計算機中，資料通過總線在處理器和記憶體之間傳遞。每次處理器和記憶體之間的資料傳遞都是通過一系列步驟來完成的，這一系列步驟稱之為總線事務（Bus Transaction）。總線事務包括讀事務（Read Transaction）和寫事務（Write Transaction）。讀事務從記憶體傳送資料到處理器，寫事務從處理器傳送資料到記憶體，每個事務會讀/寫記憶體中一個或多個實體上連續的字。這裡的關鍵是，總線會同步試圖并發使用總線的事務。在一個處理器執行總線事務期間，總線會禁止其他的處理器和I/O裝置執行記憶體的讀/寫。下面，讓我們通過一個示意圖來說明總線的工作機制，如圖3-14所示。

圖3-14　總線的工作機制

由圖可知，假設處理器A，B和C同時向總線發起總線事務，這時總線仲裁（Bus Arbitration）會對競争做出裁決，這裡假設總線在仲裁後判定處理器A在競争中獲勝（總線仲裁會確定所有處理器都能公平的通路記憶體）。此時處理器A繼續它的總線事務，而其他兩個處理器則要等待處理器A的總線事務完成後才能再次執行記憶體通路。假設在處理器A執行總線事務期間（不管這個總線事務是讀事務還是寫事務），處理器D向總線發起了總線事務，此時處理器D的請求會被總線禁止。

總線的這些工作機制可以把所有處理器對記憶體的通路以串行化的方式來執行。在任意時間點，最多隻能有一個處理器可以通路記憶體。這個特性確定了單個總線事務之中的記憶體讀/寫操作具有原子性。

在一些32位的處理器上，如果要求對64位資料的寫操作具有原子性，會有比較大的開銷。為了照顧這種處理器，Java語言規範鼓勵但不強求JVM對64位的long型變量和double型變量的寫操作具有原子性。當JVM在這種處理器上運作時，可能會把一個64位long/double型變量的寫操作拆分為兩個32位的寫操作來執行。這兩個32位的寫操作可能會被配置設定到不同的總線事務中執行，此時對這個64位變量的寫操作将不具有原子性。

當單個記憶體操作不具有原子性時，可能會産生意想不到後果。請看示意圖，如圖3-15所示。

圖3-15　總線事務執行的時序圖

如上圖所示，假設處理器A寫一個long型變量，同時處理器B要讀這個long型變量。處理器A中64位的寫操作被拆分為兩個32位的寫操作，且這兩個32位的寫操作被配置設定到不同的寫事務中執行。同時，處理器B中64位的讀操作被配置設定到單個的讀事務中執行。當處理器A和B按上圖的時序來執行時，處理器B将看到僅僅被處理器A“寫了一半”的無效值。

注意，在JSR -133之前的舊記憶體模型中，一個64位long/double型變量的讀/寫操作可以被拆分為兩個32位的讀/寫操作來執行。從JSR -133記憶體模型開始（即從JDK5開始），僅僅隻允許把一個64位long/double型變量的寫操作拆分為兩個32位的寫操作來執行，任意的讀操作在JSR -133中都必須具有原子性（即任意讀操作必須要在單個讀事務中執行）。

3.4　volatile的記憶體語義

當聲明共享變量為volatile後，對這個變量的讀/寫将會很特别。為了揭開volatile的神秘面紗，下面将介紹volatile的記憶體語義及volatile記憶體語義的實作。

3.4.1　volatile的特性

了解volatile特性的一個好方法是把對volatile變量的單個讀/寫，看成是使用同一個鎖對這些單個讀/寫操作做了同步。下面通過具體的示例來說明，示例代碼如下。

class VolatileFeaturesExample {

volatile long vl = 0L;            // 使用volatile聲明64位的long型變量

public void set(long l) {
    vl = l;                    // 單個volatile變量的寫
}

public void getAndIncrement () {
    vl++;                    // 複合（多個）volatile變量的讀/寫
}

public long get() {
    return vl;                // 單個volatile變量的讀
}

}

假設有多個線程分别調用上面程式的3個方法，這個程式在語義上和下面程式等價。

long vl = 0L;                    // 64位的long型普通變量

public synchronized void set(long l) {    // 對單個的普通變量的寫用同一個鎖同步
    vl = l;
}

public void getAndIncrement () {        // 普通方法調用
    long temp = get();            // 調用已同步的讀方法
    temp += 1L;                // 普通寫操作
    set(temp);                // 調用已同步的寫方法
}

public synchronized long get() {        // 對單個的普通變量的讀用同一個鎖同步
    return vl;
}

如上面示例程式所示，一個volatile變量的單個讀/寫操作，與一個普通變量的讀/寫操作都是使用同一個鎖來同步，它們之間的執行效果相同。

鎖的happens-before規則保證釋放鎖和擷取鎖的兩個線程之間的記憶體可見性，這意味着對一個volatile變量的讀，總是能看到（任意線程）對這個volatile變量最後的寫入。

鎖的語義決定了臨界區代碼的執行具有原子性。這意味着，即使是64位的long型和double型變量，隻要它是volatile變量，對該變量的讀/寫就具有原子性。如果是多個volatile操作或類似于volatile++這種複合操作，這些操作整體上不具有原子性。

簡而言之，volatile變量自身具有下列特性。

可見性。對一個volatile變量的讀，總是能看到（任意線程）對這個volatile變量最後的寫入。

原子性：對任意單個volatile變量的讀/寫具有原子性，但類似于volatile++這種複合操作不具有原子性。

3.4.2　volatile寫-讀建立的happens-before關系

上面講的是volatile變量自身的特性，對程式員來說，volatile對線程的記憶體可見性的影響比volatile自身的特性更為重要，也更需要我們去關注。

從JSR-133開始（即從JDK5開始），volatile變量的寫-讀可以實作線程之間的通信。

從記憶體語義的角度來說，volatile的寫-讀與鎖的釋放-擷取有相同的記憶體效果：volatile寫和鎖的釋放有相同的記憶體語義；volatile讀與鎖的擷取有相同的記憶體語義。

請看下面使用volatile變量的示例代碼。

class VolatileExample {

int           a = 0;
volatile boolean f?lag = false;

public void writer() {
    a = 1;            // 1
    f?lag = true;        // 2
}

public void reader() {
    if (f?lag) {        // 3
        int i = a;        // 4
        ……
    }
}

假設線程A執行writer()方法之後，線程B執行reader()方法。根據happens-before規則，這個過程建立的happens-before關系可以分為3類：

1）根據程式次序規則，1 happens-before 2; 3 happens-before 4。

2）根據volatile規則，2 happens-before 3。

3）根據happens-before的傳遞性規則，1 happens-before 4。

上述happens-before關系的圖形化表現形式如下。

圖3-16　happens-before關系

在上圖中，每一個箭頭連結的兩個節點，代表了一個happens-before關系。黑色箭頭表示程式順序規則；橙色箭頭表示volatile規則；藍色箭頭表示組合這些規則後提供的happens-before保證。

這裡A線程寫一個volatile變量後，B線程讀同一個volatile變量。A線程在寫volatile變量之前所有可見的共享變量，在B線程讀同一個volatile變量後，将立即變得對B線程可見。

本文統一用粗實線辨別組合後産生的happens-before關系。

3.4.3　volatile寫-讀的記憶體語義

volatile寫的記憶體語義如下。

當寫一個volatile變量時，JMM會把該線程對應的本地記憶體中的共享變量值重新整理到主記憶體。

以上面示例程式VolatileExample為例，假設線程A首先執行writer()方法，随後線程B執行reader()方法，初始時兩個線程的本地記憶體中的f?lag和a都是初始狀态。圖3-17是線程A執行volatile寫後，共享變量的狀态示意圖。

圖3-17　共享變量的狀态示意圖

如圖3-17所示，線程A在寫f?lag變量後，本地記憶體A中被線程A更新過的兩個共享變量的值被重新整理到主記憶體中。此時，本地記憶體A和主記憶體中的共享變量的值是一緻的。

volatile讀的記憶體語義如下。

當讀一個volatile變量時，JMM會把該線程對應的本地記憶體置為無效。線程接下來将從主記憶體中讀取共享變量。

圖3-18為線程B讀同一個volatile變量後，共享變量的狀态示意圖。

如圖所示，在讀f?lag變量後，本地記憶體B包含的值已經被置為無效。此時，線程B必須從主記憶體中讀取共享變量。線程B的讀取操作将導緻本地記憶體B與主記憶體中的共享變量的值變成一緻。

如果我們把volatile寫和volatile讀兩個步驟綜合起來看的話，在讀線程B讀一個volatile變量後，寫線程A在寫這個volatile變量之前所有可見的共享變量的值都将立即變得對讀線程B可見。

下面對volatile寫和volatile讀的記憶體語義做個總結。

線程A寫一個volatile變量，實質上是線程A向接下來将要讀這個volatile變量的某個線程發出了（其對共享變量所做修改的）消息。

線程B讀一個volatile變量，實質上是線程B接收了之前某個線程發出的（在寫這個volatile變量之前對共享變量所做修改的）消息。

線程A寫一個volatile變量，随後線程B讀這個volatile變量，這個過程實質上是線程A通過主記憶體向線程B發送消息。

圖3-18　共享變量的狀态示意圖

3.4.4　volatile記憶體語義的實作

下面來看看JMM如何實作volatile寫/讀的記憶體語義。

前文提到過重排序分為編譯器重排序和處理器重排序。為了實作volatile記憶體語義，JMM會分别限制這兩種類型的重排序類型。表3-5是JMM針對編譯器制定的volatile重排序規則表。

表3-5　volatile重排序規則表

舉例來說，第三行最後一個單元格的意思是：在程式中，當第一個操作為普通變量的讀或寫時，如果第二個操作為volatile寫，則編譯器不能重排序這兩個操作。

從表3-5我們可以看出。

當第二個操作是volatile寫時，不管第一個操作是什麼，都不能重排序。這個規則確定volatile寫之前的操作不會被編譯器重排序到volatile寫之後。

當第一個操作是volatile讀時，不管第二個操作是什麼，都不能重排序。這個規則確定volatile讀之後的操作不會被編譯器重排序到volatile讀之前。

當第一個操作是volatile寫，第二個操作是volatile讀時，不能重排序。

為了實作volatile的記憶體語義，編譯器在生成位元組碼時，會在指令序列中插入記憶體屏障來禁止特定類型的處理器重排序。對于編譯器來說，發現一個最優布置來最小化插入屏障的總數幾乎不可能。為此，JMM采取保守政策。下面是基于保守政策的JMM記憶體屏障插入

政策。

在每個volatile寫操作的前面插入一個StoreStore屏障。

在每個volatile寫操作的後面插入一個StoreLoad屏障。

在每個volatile讀操作的後面插入一個LoadLoad屏障。

在每個volatile讀操作的後面插入一個LoadStore屏障。

上述記憶體屏障插入政策非常保守，但它可以保證在任意處理器平台，任意的程式中都能得到正确的volatile記憶體語義。

下面是保守政策下，volatile寫插入記憶體屏障後生成的指令序列示意圖，如圖3-19所示。

圖3-19　指令序列示意圖

圖3-19中的StoreStore屏障可以保證在volatile寫之前，其前面的所有普通寫操作已經對任意處理器可見了。這是因為StoreStore屏障将保障上面所有的普通寫在volatile寫之前重新整理到主記憶體。

這裡比較有意思的是，volatile寫後面的StoreLoad屏障。此屏障的作用是避免volatile寫與後面可能有的volatile讀/寫操作重排序。因為編譯器常常無法準确判斷在一個volatile寫的後面是否需要插入一個StoreLoad屏障（比如，一個volatile寫之後方法立即return）。為了保證能正确實作volatile的記憶體語義，JMM在采取了保守政策：在每個volatile寫的後面，或者在每個volatile讀的前面插入一個StoreLoad屏障。從整體執行效率的角度考慮，JMM最終選擇了在每個volatile寫的後面插入一個StoreLoad屏障。因為volatile寫-讀記憶體語義的常見使用模式是：一個寫線程寫volatile變量，多個讀線程讀同一個volatile變量。當讀線程的數量大大超過寫線程時，選擇在volatile寫之後插入StoreLoad屏障将帶來可觀的執行效率的提升。從這裡可以看到JMM在實作上的一個特點：首先確定正确性，然後再去追求執行效率。

下面是在保守政策下，volatile讀插入記憶體屏障後生成的指令序列示意圖，如圖3-20

圖3-20　指令序列示意圖

圖3-20中的LoadLoad屏障用來禁止處理器把上面的volatile讀與下面的普通讀重排序。LoadStore屏障用來禁止處理器把上面的volatile讀與下面的普通寫重排序。

上述volatile寫和volatile讀的記憶體屏障插入政策非常保守。在實際執行時，隻要不改變volatile寫-讀的記憶體語義，編譯器可以根據具體情況省略不必要的屏障。下面通過具體的示例代碼進行說明。

class VolatileBarrierExample {

int a;
volatile int v1 = 1;
volatile int v2 = 2;

void readAndWrite() {
    int i = v1;    // 第一個volatile讀
    int j = v2;    // 第二個volatile讀
    a = i + j;    // 普通寫
    v1 = i + 1;    // 第一個volatile寫
    v2 = j * 2;    // 第二個 volatile寫
}

…            // 其他方法

針對readAndWrite()方法，編譯器在生成位元組碼時可以做如下的優化。

圖3-21　指令序列示意圖

注意，最後的StoreLoad屏障不能省略。因為第二個volatile寫之後，方法立即return。此時編譯器可能無法準确斷定後面是否會有volatile讀或寫，為了安全起見，編譯器通常會在這裡插入一個StoreLoad屏障。

上面的優化針對任意處理器平台，由于不同的處理器有不同“松緊度”的處理器記憶體模型，記憶體屏障的插入還可以根據具體的處理器記憶體模型繼續優化。以X86處理器為例，圖3-21中除最後的StoreLoad屏障外，其他的屏障都會被省略。

前面保守政策下的volatile讀和寫，在X86處理器平台可以優化成如圖3-22所示。

前文提到過，X86處理器僅會對寫-讀操作做重排序。X86不會對讀-讀、讀-寫和寫-寫操作做重排序，是以在X86處理器中會省略掉這3種操作類型對應的記憶體屏障。在X86中，JMM僅需在volatile寫後面插入一個StoreLoad屏障即可正确實作volatile寫-讀的記憶體語義。這意味着在X86處理器中，volatile寫的開銷比volatile讀的開銷會大很多（因為執行StoreLoad屏障開銷會比較大）。

圖3-22　指令序列示意圖

3.4.5　JSR-133為什麼要增強volatile的記憶體語義

在JSR-133之前的舊Java記憶體模型中，雖然不允許volatile變量之間重排序，但舊的Java記憶體模型允許volatile變量與普通變量重排序。在舊的記憶體模型中，VolatileExample示例程式可能被重排序成下列時序來執行，如圖3-23所示。

圖3-23　線程執行時序圖

在舊的記憶體模型中，當1和2之間沒有資料依賴關系時，1和2之間就可能被重排序（3和4類似）。其結果就是：讀線程B執行4時，不一定能看到寫線程A在執行1時對共享變量的修改。

是以，在舊的記憶體模型中，volatile的寫-讀沒有鎖的釋放-獲所具有的記憶體語義。為了提供一種比鎖更輕量級的線程之間通信的機制，JSR-133專家組決定增強volatile的記憶體語義：嚴格限制編譯器和處理器對volatile變量與普通變量的重排序，確定volatile的寫-讀和鎖的釋放-擷取具有相同的記憶體語義。從編譯器重排序規則和處理器記憶體屏障插入政策來看，隻要volatile變量與普通變量之間的重排序可能會破壞volatile的記憶體語義，這種重排序就會被編譯器重排序規則和處理器記憶體屏障插入政策禁止。

由于volatile僅僅保證對單個volatile變量的讀/寫具有原子性，而鎖的互斥執行的特性可以確定對整個臨界區代碼的執行具有原子性。在功能上，鎖比volatile更強大；在可伸縮性和執行性能上，volatile更有優勢。如果讀者想在程式中用volatile代替鎖，請一定謹慎，具體詳情請參閱Brian Goetz的文章《Java理論與實踐：正确使用Volatile變量》。

3.5　鎖的記憶體語義

衆所周知，鎖可以讓臨界區互斥執行。這裡将介紹鎖的另一個同樣重要，但常常被忽視的功能：鎖的記憶體語義。

3.5.1　鎖的釋放-擷取建立的happens-before關系

鎖是Java并發程式設計中最重要的同步機制。鎖除了讓臨界區互斥執行外，還可以讓釋放鎖的線程向擷取同一個鎖的線程發送消息。

下面是鎖釋放-擷取的示例代碼。

class MonitorExample {

int a = 0;

public synchronized void writer() {        // 1
    a++;                    // 2
}                        // 3

public synchronized void reader() {        // 4
    int i = a;                // 5
    ……
}                        // 6

假設線程A執行writer()方法，随後線程B執行reader()方法。根據happens-before規則，這個過程包含的happens-before關系可以分為3類。

1）根據程式次序規則，1 happens-before 2, 2 happens-before 3; 4 happens-before 5, 5 happens -before 6。

2）根據螢幕鎖規則，3 happens-before 4。

3）根據happens-before的傳遞性，2 happens-before 5。

上述happens-before關系的圖形化表現形式如圖3-24所示。

圖3-24　happens-before關系圖

在圖3-24中，每一個箭頭連結的兩個節點，代表了一個happens-before關系。黑色箭頭表示程式順序規則；橙色箭頭表示螢幕鎖規則；藍色箭頭表示組合這些規則後提供的happens-before保證。

圖3-24表示線上程A釋放了鎖之後，随後線程B擷取同一個鎖。在上圖中，2 happens-before 5。是以，線程A在釋放鎖之前所有可見的共享變量，線上程B擷取同一個鎖之後，将立刻變得對B線程可見。

3.5.2　鎖的釋放和擷取的記憶體語義

當線程釋放鎖時，JMM會把該線程對應的本地記憶體中的共享變量重新整理到主記憶體中。以上面的MonitorExample程式為例，A線程釋放鎖後，共享資料的狀态示意圖如圖3-25

圖3-25　共享資料的狀态示意圖

當線程擷取鎖時，JMM會把該線程對應的本地記憶體置為無效。進而使得被螢幕保護的臨界區代碼必須從主記憶體中讀取共享變量。圖3-26是鎖擷取的狀态示意圖。

圖3-26　鎖擷取的狀态示意圖

對比鎖釋放-擷取的記憶體語義與volatile寫-讀的記憶體語義可以看出：鎖釋放與volatile寫有相同的記憶體語義；鎖擷取與volatile讀有相同的記憶體語義。

下面對鎖釋放和鎖擷取的記憶體語義做個總結。

線程A釋放一個鎖，實質上是線程A向接下來将要擷取這個鎖的某個線程發出了（線程A對共享變量所做修改的）消息。

線程B擷取一個鎖，實質上是線程B接收了之前某個線程發出的（在釋放這個鎖之前對共享變量所做修改的）消息。

線程A釋放鎖，随後線程B擷取這個鎖，這個過程實質上是線程A通過主記憶體向線程B發送消息。

3.5.3　鎖記憶體語義的實作

本文将借助ReentrantLock的源代碼，來分析鎖記憶體語義的具體實作機制。

class ReentrantLockExample {

int a = 0;
ReentrantLock lock = new ReentrantLock();

public void writer() {
    lock.lock();        // 擷取鎖
    try {
        a++;
    } f?inally {
        lock.unlock();    // 釋放鎖
    }
}

public void reader () {
    lock.lock();        // 擷取鎖
    try {
        int i = a;
        ……
    } f?inally {
        lock.unlock();    // 釋放鎖
    }
}

在ReentrantLock中，調用lock()方法擷取鎖；調用unlock()方法釋放鎖。

ReentrantLock的實作依賴于Java同步器架構AbstractQueuedSynchronizer（本文簡稱之為AQS）。AQS使用一個整型的volatile變量（命名為state）來維護同步狀态，馬上我們會看到，這個volatile變量是ReentrantLock記憶體語義實作的關鍵。

圖3-27是ReentrantLock的類圖（僅畫出與本文相關的部分）。

圖3-27　ReentrantLock的類圖

ReentrantLock分為公平鎖和非公平鎖，我們首先分析公平鎖。

使用公平鎖時，加鎖方法lock()調用軌迹如下。

1）ReentrantLock : lock()。

2）FairSync : lock()。

3）AbstractQueuedSynchronizer : acquire(int arg)。

4）ReentrantLock : tryAcquire(int acquires)。

在第4步真正開始加鎖，下面是該方法的源代碼。

protected f?inal boolean tryAcquire(int acquires) {

f?inal Thread current = Thread.currentThread();
int c = getState();        // 擷取鎖的開始，首先讀volatile變量state
if (c == 0) {
    if (isFirst(current) &&
        compareAndSetState(0, acquires)) {
            setExclusiveOwnerThread(current);
            return true;
        }
}
else if (current == getExclusiveOwnerThread()) {
    int nextc = c + acquires;
    if (nextc < 0)    
        throw new Error("Maximum lock count exceeded");
    setState(nextc);
    return true;
}
return false;

從上面源代碼中我們可以看出，加鎖方法首先讀volatile變量state。

在使用公平鎖時，解鎖方法unlock()調用軌迹如下。

1）ReentrantLock : unlock()。

2）AbstractQueuedSynchronizer : release(int arg)。

3）Sync : tryRelease(int releases)。

在第3步真正開始釋放鎖，下面是該方法的源代碼。

protected f?inal boolean tryRelease(int releases) {

int c = getState() - releases;
if (Thread.currentThread() != getExclusiveOwnerThread())
    throw new IllegalMonitorStateException();
boolean free = false;
if (c == 0) {
    free = true;
    setExclusiveOwnerThread(null);
}
setState(c);            // 釋放鎖的最後，寫volatile變量state
return free;

從上面的源代碼可以看出，在釋放鎖的最後寫volatile變量state。

公平鎖在釋放鎖的最後寫volatile變量state，在擷取鎖時首先讀這個volatile變量。根據volatile的happens-before規則，釋放鎖的線程在寫volatile變量之前可見的共享變量，在擷取鎖的線程讀取同一個volatile變量後将立即變得對擷取鎖的線程可見。

現在我們來分析非公平鎖的記憶體語義的實作。非公平鎖的釋放和公平鎖完全一樣，是以這裡僅僅分析非公平鎖的擷取。使用非公平鎖時，加鎖方法lock()調用軌迹如下。

2）NonfairSync : lock()。

3）AbstractQueuedSynchronizer : compareAndSetState(int expect, int update)。

在第3步真正開始加鎖，下面是該方法的源代碼。

protected f?inal boolean compareAndSetState(int expect, int update) {

return unsafe.compareAndSwapInt(this, stateOffset, expect, update);

該方法以原子操作的方式更新state變量，本文把Java的compareAndSet()方法調用簡稱為CAS。JDK文檔對該方法的說明如下：如果目前狀态值等于預期值，則以原子方式将同步狀态設定為給定的更新值。此操作具有volatile讀和寫的記憶體語義。

這裡我們分别從編譯器和處理器的角度來分析，CAS如何同時具有volatile讀和volatile寫的記憶體語義。

前文我們提到過，編譯器不會對volatile讀與volatile讀後面的任意記憶體操作重排序；編譯器不會對volatile寫與volatile寫前面的任意記憶體操作重排序。組合這兩個條件，意味着為了同時實作volatile讀和volatile寫的記憶體語義，編譯器不能對CAS與CAS前面和後面的任意記憶體操作重排序。

下面我們來分析在常見的intel X86處理器中，CAS是如何同時具有volatile讀和volatile寫的記憶體語義的。

下面是sun.misc.Unsafe類的compareAndSwapInt()方法的源代碼。

public f?inal native boolean compareAndSwapInt(Object o, long offset,
                                              int expected,
                                              int x);

可以看到，這是一個本地方法調用。這個本地方法在openjdk中依次調用的c++代碼為：unsafe.cpp，atomic.cpp和atomic_windows_x86.inline.hpp。這個本地方法的最終實作在openjdk的如下位置：openjdk-7-fcs-src-b147-27_jun_2011openjdkhotspotsrcos_cpuwindows_x86vm atomic_windows_x86.inline.hpp（對應于Windows作業系統，X86處理器）。下面是對應于intel X86處理器的源代碼的片段。

inline jint Atomic::cmpxchg (jint exchange_value, volatile jint* dest,

jint     compare_value) {

// alternative for InterlockedCompareExchange

int mp = os::is_MP();

__asm {

mov edx, dest
mov ecx, exchange_value
mov eax, compare_value
LOCK_IF_MP(mp)
cmpxchg dword ptr [edx], ecx

如上面源代碼所示，程式會根據目前處理器的類型來決定是否為cmpxchg指令添加lock字首。如果程式是在多處理器上運作，就為cmpxchg指令加上lock字首（Lock Cmpxchg）。反之，如果程式是在單處理器上運作，就省略lock字首（單處理器自身會維護單處理器内的順序一緻性，不需要lock字首提供的記憶體屏障效果）。

intel的手冊對lock字首的說明如下。

1）確定對記憶體的讀-改-寫操作原子執行。在Pentium及Pentium之前的處理器中，帶有lock字首的指令在執行期間會鎖住總線，使得其他處理器暫時無法通過總線通路記憶體。很顯然，這會帶來昂貴的開銷。從Pentium 4、Intel Xeon及P6處理器開始，Intel使用緩存鎖定（Cache Locking）來保證指令執行的原子性。緩存鎖定将大大降低lock字首指令的執行開銷。

2）禁止該指令，與之前和之後的讀和寫指令重排序。

3）把寫緩沖區中的所有資料重新整理到記憶體中。

上面的第2點和第3點所具有的記憶體屏障效果，足以同時實作volatile讀和volatile寫的記憶體語義。

經過上面的分析，現在我們終于能明白為什麼JDK文檔說CAS同時具有volatile讀和volatile寫的記憶體語義了。

現在對公平鎖和非公平鎖的記憶體語義做個總結。

公平鎖和非公平鎖釋放時，最後都要寫一個volatile變量state。

公平鎖擷取時，首先會去讀volatile變量。

非公平鎖擷取時，首先會用CAS更新volatile變量，這個操作同時具有volatile讀和volatile寫的記憶體語義。

從本文對ReentrantLock的分析可以看出，鎖釋放-擷取的記憶體語義的實作至少有下面兩種方式。

1）利用volatile變量的寫-讀所具有的記憶體語義。

2）利用CAS所附帶的volatile讀和volatile寫的記憶體語義。

3.5.4　concurrent包的實作

由于Java的CAS同時具有volatile讀和volatile寫的記憶體語義，是以Java線程之間的通信現在有了下面4種方式。

1）A線程寫volatile變量，随後B線程讀這個volatile變量。

2）A線程寫volatile變量，随後B線程用CAS更新這個volatile變量。

3）A線程用CAS更新一個volatile變量，随後B線程用CAS更新這個volatile變量。

4）A線程用CAS更新一個volatile變量，随後B線程讀這個volatile變量。

Java的CAS會使用現代處理器上提供的高效機器級别的原子指令，這些原子指令以原子方式對記憶體執行讀-改-寫操作，這是在多處理器中實作同步的關鍵（從本質上來說，能夠支援原子性讀-改-寫指令的計算機，是順序計算圖靈機的異步等價機器，是以任何現代的多處理器都會去支援某種能對記憶體執行原子性讀-改-寫操作的原子指令）。同時，volatile變量的讀/寫和CAS可以實作線程之間的通信。把這些特性整合在一起，就形成了整個concurrent包得以實作的基石。如果我們仔細分析concurrent包的源代碼實作，會發現一個通用化的實作模式。

首先，聲明共享變量為volatile。

然後，使用CAS的原子條件更新來實作線程之間的同步。

同時，配合以volatile的讀/寫和CAS所具有的volatile讀和寫的記憶體語義來實作線程之間的通信。

AQS，非阻塞資料結構和原子變量類（java.util.concurrent.atomic包中的類），這些concurrent包中的基礎類都是使用這種模式來實作的，而concurrent包中的高層類又是依賴于這些基礎類來實作的。從整體來看，concurrent包的實作示意圖如3-28所示。

圖3-28　concurrent包的實作示意圖

3.6　f?inal域的記憶體語義

與前面介紹的鎖和volatile相比，對f?inal域的讀和寫更像是普通的變量通路。下面将介紹f?inal域的記憶體語義。

3.6.1　f?inal域的重排序規則

對于f?inal域，編譯器和處理器要遵守兩個重排序規則。

1）在構造函數内對一個f?inal域的寫入，與随後把這個被構造對象的引用指派給一個引用變量，這兩個操作之間不能重排序。

2）初次讀一個包含f?inal域的對象的引用，與随後初次讀這個f?inal域，這兩個操作之間不能重排序。

下面通過一些示例性的代碼來分别說明這兩個規則。

public class FinalExample {

int i;                    // 普通變量
f?inal int j;                // f?inal變量
static FinalExample obj;

public FinalExample () {        // 構造函數
    i = 1;                // 寫普通域
    j = 2;                // 寫f?inal域
}

public static void writer () {    // 寫線程A執行
    obj = new FinalExample ();
}

public static void reader () {    // 讀線程B執行
    FinalExample object = obj;    // 讀對象引用
    int a = object.i;            // 讀普通域
    int b = object.j;            // 讀f?inal域
}

這裡假設一個線程A執行writer()方法，随後另一個線程B執行reader()方法。下面我們通過這兩個線程的互動來說明這兩個規則。

3.6.2　寫f?inal域的重排序規則

寫f?inal域的重排序規則禁止把f?inal域的寫重排序到構造函數之外。這個規則的實作包含下面2個方面。

1）JMM禁止編譯器把f?inal域的寫重排序到構造函數之外。

2）編譯器會在f?inal域的寫之後，構造函數return之前，插入一個StoreStore屏障。這個屏障禁止處理器把f?inal域的寫重排序到構造函數之外。

現在讓我們分析writer()方法。writer()方法隻包含一行代碼：f?inalExample = new FinalExample()。這行代碼包含兩個步驟，如下。

1）構造一個FinalExample類型的對象。

2）把這個對象的引用指派給引用變量obj。

假設線程B讀對象引用與讀對象的成員域之間沒有重排序（馬上會說明為什麼需要這個假設），圖3-29是一種可能的執行時序。

在圖3-29中，寫普通域的操作被編譯器重排序到了構造函數之外，讀線程B錯誤地讀取了普通變量i初始化之前的值。而寫f?inal域的操作，被寫f?inal域的重排序規則“限定”在了構造函數之内，讀線程B正确地讀取了f?inal變量初始化之後的值。

寫f?inal域的重排序規則可以確定：在對象引用為任意線程可見之前，對象的f?inal域已經被正确初始化過了，而普通域不具有這個保障。以上圖為例，在讀線程B“看到”對象引用obj時，很可能obj對象還沒有構造完成（對普通域i的寫操作被重排序到構造函數外，此時初始值1還沒有寫入普通域i）。

圖3-29　線程執行時序圖

3.6.3　讀f?inal域的重排序規則

讀f?inal域的重排序規則是，在一個線程中，初次讀對象引用與初次讀該對象包含的f?inal域，JMM禁止處理器重排序這兩個操作（注意，這個規則僅僅針對處理器）。編譯器會在讀f?inal域操作的前面插入一個LoadLoad屏障。

初次讀對象引用與初次讀該對象包含的f?inal域，這兩個操作之間存在間接依賴關系。由于編譯器遵守間接依賴關系，是以編譯器不會重排序這兩個操作。大多數處理器也會遵守間接依賴，也不會重排序這兩個操作。但有少數處理器允許對存在間接依賴關系的操作做重排序（比如alpha處理器），這個規則就是專門用來針對這種處理器的。

reader()方法包含3個操作。

初次讀引用變量obj。

初次讀引用變量obj指向對象的普通域j。

初次讀引用變量obj指向對象的f?inal域i。

現在假設寫線程A沒有發生任何重排序，同時程式在不遵守間接依賴的處理器上執行，圖3-30所示是一種可能的執行時序。

圖3-30　線程執行時序圖

在圖3-30中，讀對象的普通域的操作被處理器重排序到讀對象引用之前。讀普通域時，該域還沒有被寫線程A寫入，這是一個錯誤的讀取操作。而讀f?inal域的重排序規則會把讀對象f?inal域的操作“限定”在讀對象引用之後，此時該f?inal域已經被A線程初始化過了，這是一個正确的讀取操作。

讀f?inal域的重排序規則可以確定：在讀一個對象的f?inal域之前，一定會先讀包含這個f?inal域的對象的引用。在這個示例程式中，如果該引用不為null，那麼引用對象的f?inal域一定已經被A線程初始化過了。

3.6.4　final域為引用類型

上面我們看到的f?inal域是基礎資料類型，如果f?inal域是引用類型，将會有什麼效果？請看下列示例代碼。

public class FinalReferenceExample {

f?inal int[] intArray;                // f?inal是引用類型
static FinalReferenceExample obj;

public FinalReferenceExample () {        // 構造函數
    intArray = new int[1];            // 1
    intArray[0] = 1;                // 2
}

public static void writerOne () {        // 寫線程A執行
    obj = new FinalReferenceExample ();    // 3
}

public static void writerTwo () {        // 寫線程B執行
    obj.intArray[0] = 2;            // 4
}

public static void reader () {        // 讀線程C執行
    if (obj != null) {            // 5
        int temp1 = obj.intArray[0];    // 6
    }
}

本例f?inal域為一個引用類型，它引用一個int型的數組對象。對于引用類型，寫f?inal域的重排序規則對編譯器和處理器增加了如下限制：在構造函數内對一個f?inal引用的對象的成員域的寫入，與随後在構造函數外把這個被構造對象的引用指派給一個引用變量，這兩個操作之間不能重排序。

對上面的示例程式，假設首先線程A執行writerOne()方法，執行完後線程B執行writerTwo()方法，執行完後線程C執行reader()方法。圖3-31是一種可能的線程執行時序。

在圖3-31中，1是對f?inal域的寫入，2是對這個f?inal域引用的對象的成員域的寫入，3是把被構造的對象的引用指派給某個引用變量。這裡除了前面提到的1不能和3重排序外，2和3也不能重排序。

JMM可以確定讀線程C至少能看到寫線程A在構造函數中對f?inal引用對象的成員域的寫入。即C至少能看到數組下标0的值為1。而寫線程B對數組元素的寫入，讀線程C可能看得到，也可能看不到。JMM不保證線程B的寫入對讀線程C可見，因為寫線程B和讀線程C之間存在資料競争，此時的執行結果不可預知。

如果想要確定讀線程C看到寫線程B對數組元素的寫入，寫線程B和讀線程C之間需要使用同步原語（lock或volatile）來確定記憶體可見性。

3.6.5　為什麼f?inal引用不能從構造函數内“溢出”

前面我們提到過，寫f?inal域的重排序規則可以確定：在引用變量為任意線程可見之前，該引用變量指向的對象的f?inal域已經在構造函數中被正确初始化過了。其實，要得到這個效果，還需要一個保證：在構造函數内部，不能讓這個被構造對象的引用為其他線程所見，也就是對象引用不能在構造函數中“逸出”。為了說明問題，讓我們來看下面的示例代碼。

public class FinalReferenceEscapeExample {

f?inal int i;
static FinalReferenceEscapeExample obj;

public FinalReferenceEscapeExample () {
    i = 1;                // 1寫f?inal域
    obj = this;            // 2 this引用在此"逸出"
}

public static void writer() {
    new FinalReferenceEscapeExample ();
}

public static void reader() {
    if (obj != null) {        // 3
        int temp = obj.i;        // 4
    }
}

圖3-31　引用型f?inal的執行時序圖

假設一個線程A執行writer()方法，另一個線程B執行reader()方法。這裡的操作2使得對象還未完成構造前就為線程B可見。即使這裡的操作2是構造函數的最後一步，且在程式中操作2排在操作1後面，執行read()方法的線程仍然可能無法看到f?inal域被初始化後的值，因為這裡的操作1和操作2之間可能被重排序。實際的執行時序可能如圖3-32所示。

圖3-32　多線程執行時序圖

從圖3-32可以看出：在構造函數傳回前，被構造對象的引用不能為其他線程所見，因為此時的f?inal域可能還沒有被初始化。在構造函數傳回後，任意線程都将保證能看到f?inal域正确初始化之後的值。

3.6.6　f?inal語義在處理器中的實作

現在我們以X86處理器為例，說明f?inal語義在處理器中的具體實作。

上面我們提到，寫f?inal域的重排序規則會要求編譯器在f?inal域的寫之後，構造函數return之前插入一個StoreStore障屏。讀f?inal域的重排序規則要求編譯器在讀f?inal域的操作前面插入一個LoadLoad屏障。

由于X86處理器不會對寫-寫操作做重排序，是以在X86處理器中，寫f?inal域需要的StoreStore障屏會被省略掉。同樣，由于X86處理器不會對存在間接依賴關系的操作做重排序，是以在X86處理器中，讀f?inal域需要的LoadLoad屏障也會被省略掉。也就是說，在X86處理器中，f?inal域的讀/寫不會插入任何記憶體屏障！

3.6.7　JSR-133為什麼要增強f?inal的語義

在舊的Java記憶體模型中，一個最嚴重的缺陷就是線程可能看到f?inal域的值會改變。比如，一個線程目前看到一個整型f?inal域的值為0（還未初始化之前的預設值），過一段時間之後這個線程再去讀這個f?inal域的值時，卻發現值變為1（被某個線程初始化之後的值）。最常見的例子就是在舊的Java記憶體模型中，String的值可能會改變。

為了修補這個漏洞，JSR-133專家組增強了f?inal的語義。通過為f?inal域增加寫和讀重排序規則，可以為Java程式員提供初始化安全保證：隻要對象是正确構造的（被構造對象的引用在構造函數中沒有“逸出”），那麼不需要使用同步（指lock和volatile的使用）就可以保證任意線程都能看到這個f?inal域在構造函數中被初始化之後的值。

帶你讀《Java并發程式設計的藝術》之三：Java記憶體模型

第3章：Java記憶體模型

3.1　Java記憶體模型的基礎

繼續閱讀

Java小案例——随機數猜測随機數猜測

nginx location中斜線的位置的重要性

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的簡單使用

neo4j之cypher使用文檔

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

mybatis_入門程式Mybatis入門

AOP程式設計_Android優雅權限架構(1)概念基礎，2021金三銀四前言正文大綱正文

面試題解析：你接口測試是怎麼做的？

Effective Java 8:通用程式設計

OOM三種類型

工廠模式-三種類型

【遞歸】高效率求2的n次幂

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method

帶你讀《Java并發程式設計的藝術》之三：Java記憶體模型

第3章：Java記憶體模型

3.1 Java記憶體模型的基礎

繼續閱讀

3.1　Java記憶體模型的基礎