測試多線程對多核cpu的分支預測的影響

測試多線程對多核cpu的分支預測的影響

前言：

測試：

總結：

前言：

測試：

總結：

繼續閱讀

metacity程序CPU占用率過高

利用taskset指令，将某程序綁定到某個CPU上

線程過多導緻cpu使用率 100%

【2011-6-3】線程過多導緻cpu使用率 100%

從es源碼發現CPU熱點線程

帶你讀《基于CUDA的GPU并行程式開發指南》之三：改進第一個CPU并行程式第3章

雲栖新聞｜阿裡平頭哥玄鐵CPU出貨量已突破25億

一個CPU核可以設計為兩個以上的線程

top 顯示按照記憶體、CPU排序

cpu線程_CPU的核心數是什麼？線程數又是什麼？有什麼關聯？

cpu線程_cpu處理器多線程有什麼用

cpu線程_Linux 線程CPU占用率過高定位分析

cpu線程_探讨超線程CPU對遊戲的影響和最佳遊戲CPU

cpu線程_如何關閉CPU的超線程系統配置的更改處理器數量并不是關閉超線程通過BIOS關閉超線程的方法

cpu線程_一般網遊需要幾核幾線程的cpu

cpu線程_Java進階進階多線程學習之路（四）CPU與記憶體

現代的cpu都有流水線，分支預測功能，CPU的分支預測準确性可以達到98%以上，但是如果預測失敗，則流水線失效，性能損失很嚴重。

CPU使用的分支預測技術可以參考：

處理器分支預測研究的曆史和現狀.pdf 同時多線程處理器上的動态分支預測器設計方案研究.pdf

正确地利用這些特性，可以寫出高效的程式。

比如在寫if，else語句時，應當把大機率事件放到if語句中，把小機率事件放到else語句中。

但是通常這種考慮都是基于單線程的，在多線程下有可能出現意外情況，比如多個線程同時執行同一處的代碼。

下面基于Intel Core i5的一些多線程分支預測的測試。

測試思路（真實測試時發現不止以下三種情況，詳細見下面的測試結果）：

兩個線程執行同一處代碼，而if判斷總為true。

兩個線程執行同一處代碼，一個的if判斷總為true，另一個的if判斷時為true，時為false。

兩個線程執行不同的代碼（邏輯功能一樣，隻是位置不同），一個的if判斷總為true，另一個的if判斷時為true，時為false。

代碼如下：

其中test1測試的是同一處代碼，當傳入偶數參數時，則if判斷總為true，當傳入奇數參數時，if判斷時為true時為false。

test2函數測試的是不同一處的代碼，當傳入偶數參數時，則if判斷總為true，當傳入奇數參數時，if判斷時為true時為false。

import java.util.concurrent.CountDownLatch;
public class Test {
	public static int loop = 1000000000;
	public static int sum = 0;
	public static CountDownLatch startGate;
	public static CountDownLatch endGate;
	
	public static void test1(int x1, int x2) throws InterruptedException{
		startGate = new CountDownLatch(1);
		endGate = new CountDownLatch(2);
		new Thread(new T1(x1)).start();
		new Thread(new T1(x2)).start();
		Test.startGate.countDown();
		Test.endGate.await();
	}
	public static void test2(int x1, int x2) throws InterruptedException{
		startGate = new CountDownLatch(1);
		endGate = new CountDownLatch(2);
		new Thread(new T1(x1)).start();
		new Thread(new T2(x2)).start();
		Test.startGate.countDown();
		Test.endGate.await();
	}
}

class T1 implements Runnable{
	int xxx = 0;
	public T1(int xxx){
		this.xxx = xxx;
	}
	@Override
	public void run() {
		try {
			int sum = 0;
			int temp = 0;
			Test.startGate.await();
			long start = System.nanoTime();
			for(int i = 0; i < Test.loop; ++i){
				temp += xxx;
				if(temp % 2 == 0){
					sum += 100;
				}else{
					sum += 200;
				}
			}
			Test.sum += sum;
			long end = System.nanoTime();
			System.out.format("%s, T1(%d): %d\n", Thread.currentThread().getName(), xxx, end - start);
		} catch (InterruptedException e) {
			e.printStackTrace();
		}finally{
			Test.endGate.countDown();
		}
	}
}
class T2 implements Runnable{
	int xxx = 0;
	public T2(int xxx){
		this.xxx = xxx;
	}
	@Override
	public void run() {
		try {
			int sum = 0;
			int temp = 0;
			Test.startGate.await();
			long start = System.nanoTime();
			for(int i = 0; i < Test.loop; ++i){
				temp += xxx;
				if(temp % 2 == 0){
					sum += 100;
				}else{
					sum += 200;
				}
			}
			Test.sum += sum;
			long end = System.nanoTime();
			System.out.format("%s, T2(%d): %d\n", Thread.currentThread().getName(), xxx, end - start);
		} catch (InterruptedException e) {
			e.printStackTrace();
		}finally{
			Test.endGate.countDown();
		}
	}
}

因為測試的情況多種，簡潔表述如下：

一個test1函數會有兩個結果，如test1(2, 3)得到兩個結果2.1s，2.2s，表示兩個線程執行同一份代碼，一個的if判斷總是true（2是偶數），另一個的總是false（3是奇數），其中第一個線程平均執行一次計算的時間是2.1s，第二個線程平均執行一次計算的時間是2.2s。

測試的main函數中有兩個for循環，每個10次。在表述測試結果時，用簡略表示，如：

一行資料表示執行一次main函數的結果，後面的時間是粗略平均計算得到的

test1(2,3)

2.1s

test1(2,4)

main函數：

public static void main(String[] args) throws InterruptedException {
		for(int i = 0; i < 10; ++i){
			test1(2, 3);
		}
		System.out.println("!!!!!!!!!!!!!!!!!!!!");
		for(int i = 0; i < 10; ++i){
			test1(2, 4);
		}		
	}

測試結果如下：

先來分析第1行資料，test1(2,3)的結果是最壞的，顯然這是因為兩個線程執行同一份代碼，且兩者的分支預測結果互相幹擾，導緻總是不準。

但是為什麼後面的test1(2,4)的結果也是比較差？盡管兩個線程執行的是同一份代碼，但是兩個線程中if的判斷都總是true，為什麼會出現耗時比較多的情況？

簡單推測1：可能是之前的test1(2,3)影響了test1(2,4)的分支預測的結果，分支預測器中有曆史表，前面執行的分支預測曆史會影響後面的選擇。

再來分析第2行，顯然test1(2,4)是最好的結果，兩個線程執行同一份代碼，且if總是為true。再看第2行的test(2,3)結果，比第1行的要好，為什麼這個和第1行的資料差這麼多？

簡單推測2：應該是不同的核有自己的分支預測器。

再來看test2函數的測試結果，從第4行來看，test2(2,3)的結果符合預期，但是顯然test2(2,4)的結果不理想，為什麼兩個線程執行不同地方的代碼，if判斷總是true，結果會不同？

簡單推測3：受test(2,3)的結果的影響，結合簡單推測1和2，就可以了解為什麼test(2,4)的前一個結果是1.3s，後一個是1.9s了。

再來分析第5行資料，這行資料完全符合預期。

推測：i5的分支預測器是一個混合的分支預測器。每個核都有曆史表，每一個核都有自己的分支預測器。

多線程下的分支預測并不是很樂觀，如果可以避開多個線程執行同一份代碼，且分支預測條件的結果總是變化，則盡量避開。

test2(2,3)

test2(2,4)