天天看點

CPU 執行程式的秘密,藏在了這 15 張圖裡

CPU 執行程式的秘密,藏在了這 15 張圖裡

前言

代碼寫了那麼多,你知道

a = 1 + 2

這條代碼是怎麼被 CPU 執行的嗎?

軟體用了那麼多,你知道軟體的 32 位和 64 位之間的差別嗎?再來 32 位的作業系統可以運作在 64 位的電腦上嗎?64 位的作業系統可以運作在 32 位的電腦上嗎?如果不行,原因是什麼?

CPU 看了那麼多,我們都知道 CPU 通常分為 32 位和 64 位,你知道 64 位相比 32 位 CPU 的優勢在哪嗎?64 位 CPU 的計算性能一定比 32 位 CPU 高很多嗎?

不知道也不用慌張,接下來就循序漸進的、一層一層的攻破這些問題。

CPU 執行程式的秘密,藏在了這 15 張圖裡

正文

圖靈機的工作方式

要想知道程式執行的原理,我們可以先從「圖靈機」說起,圖靈的基本思想是用機器來模拟人們用紙筆進行數學運算的過程,而且還定義了計算機由哪些部分組成,程式又是如何執行的。

圖靈機長什麼樣子呢?你從下圖可以看到圖靈機的實際樣子:

CPU 執行程式的秘密,藏在了這 15 張圖裡

圖來源自:http://www.kristergustafsson.me/turing-machine/

圖靈機的基本組成如下:

  • 有一條「紙帶」,紙帶由一個個連續的格子組成,每個格子可以寫入字元,紙帶就好比記憶體,而紙帶上的格子的字元就好比記憶體中的資料或程式;
  • 有一個「讀寫頭」,讀寫頭可以讀取紙帶上任意格子的字元,也可以把字元寫入到紙帶的格子;
  • 讀寫頭上有一些部件,比如存儲單元、控制單元以及運算單元:

    1、存儲單元用于存放資料;

    2、控制單元用于識别字元是資料還是指令,以及控制程式的流程等;

    3、運算單元用于執行運算指令;

知道了圖靈機的組成後,我們以簡單數學運算的

1 + 2

作為例子,來看看它是怎麼執行這行代碼的。

  • 首先,用讀寫頭把 「1、2、+」這 3 個字元分别寫入到紙帶上的 3 個格子,然後讀寫頭先停在 1 字元對應的格子上;
CPU 執行程式的秘密,藏在了這 15 張圖裡
  • 接着,讀寫頭讀入 1 到儲存設備中,這個儲存設備稱為圖靈機的狀态;
CPU 執行程式的秘密,藏在了這 15 張圖裡
  • 然後讀寫頭向右移動一個格,用同樣的方式把 2 讀入到圖靈機的狀态,于是現在圖靈機的狀态中存儲着兩個連續的數字, 1 和 2;
CPU 執行程式的秘密,藏在了這 15 張圖裡
  • 讀寫頭再往右移動一個格,就會碰到 + 号,讀寫頭讀到 + 号後,将 + 号傳輸給「控制單元」,控制單元發現是一個 + 号而不是數字,是以沒有存入到狀态中,因為

    +

    号是運算符指令,作用是加和目前的狀态,于是通知「運算單元」工作。運算單元收到要加和狀态中的值的通知後,就會把狀态中的 1 和 2 讀入并計算,再将計算的結果 3 存放到狀态中;
CPU 執行程式的秘密,藏在了這 15 張圖裡
  • 最後,運算單元将結果傳回給控制單元,控制單元将結果傳輸給讀寫頭,讀寫頭向右移動,把結果 3 寫入到紙帶的格子中;
CPU 執行程式的秘密,藏在了這 15 張圖裡

通過上面的圖靈機計算

1 + 2

的過程,可以發現圖靈機主要功能就是讀取紙帶格子中的内容,然後交給控制單元識别字元是數字還是運算符指令,如果是數字則存入到圖靈機狀态中,如果是運算符,則通知運算符單元讀取狀态中的數值進行計算,計算結果最終傳回給讀寫頭,讀寫頭把結果寫入到紙帶的格子中。

事實上,圖靈機這個看起來很簡單的工作方式,和我們今天的計算機是基本一樣的。接下來,我們一同再看看當今計算機的組成以及工作方式。

馮諾依曼模型

在 1945 年馮諾依曼和其他計算機科學家們提出了計算機具體實作的報告,其遵循了圖靈機的設計,而且還提出用電子元件構造計算機,并約定了用二進制進行計算和存儲,還定義計算機基本結構為 5 個部分,分别是中間處理器(CPU)、記憶體、輸入裝置、輸出裝置、總線。

CPU 執行程式的秘密,藏在了這 15 張圖裡

這 5 個部分也被稱為馮諾依曼模型,接下來看看這 5 個部分的具體作用。

記憶體

我們的程式和資料都是存儲在記憶體,存儲的區域是線性的。

資料存儲的機關是一個二進制位(bit),即 0 或 1。最小的存儲機關是位元組(byte),1 位元組等于 8 位。

記憶體的位址是從 0 開始編号的,然後自增排列,最後一個位址為記憶體總位元組數 - 1,這種結構好似我們程式裡的數組,是以記憶體的讀寫任何一個資料的速度都是一樣的。

中間處理器

中間處理器也就是我們常說的 CPU,32 位和 64 位 CPU 最主要差別在于一次能計算多少位元組資料:

  • 32 位 CPU 一次可以計算 4 個位元組;
  • 64 位 CPU 一次可以計算 8 個位元組;

這裡的 32 位和 64 位,通常稱為 CPU 的位寬。

之是以 CPU 要這樣設計,是為了能計算更大的數值,如果是 8 位的 CPU,那麼一次隻能計算 1 個位元組

0~255

範圍内的數值,這樣就無法一次完成計算

10000 * 500

,于是為了能一次計算大數的運算,CPU 需要支援多個 byte 一起計算,是以 CPU 位寬越大,可以計算的數值就越大,比如說 32 位 CPU 能計算的最大整數是

4294967295

CPU 内部還有一些元件,常見的有寄存器、控制單元和邏輯運算單元等。其中,控制單元負責控制 CPU 工作,邏輯運算單元負責計算,而寄存器可以分為多種類,每種寄存器的功能又不盡相同。

CPU 中的寄存器主要作用是存儲計算時的資料,你可能好奇為什麼有了記憶體還需要寄存器?原因很簡單,因為記憶體離 CPU 太遠了,而寄存器就在 CPU 裡,還緊挨着控制單元和邏輯運算單元,自然計算時速度會很快。

常見的寄存器種類:

  • 通用寄存器,用來存放需要進行運算的資料,比如需要進行加和運算的兩個資料。
  • 程式計數器,用來存儲 CPU 要執行下一條指令「所在的記憶體位址」,注意不是存儲了下一條要執行的指令,此時指令還在記憶體中,程式計數器隻是存儲了下一條指令的位址。
  • 指令寄存器,用來存放程式計數器指向的指令,也就是指令本身,指令被執行完成之前,指令都存儲在這裡。

總線

總線是用于 CPU 和記憶體以及其他裝置之間的通信,總線可分為 3 種:

  • 位址總線,用于指定 CPU 将要操作的記憶體位址;
  • 資料總線,用于讀寫記憶體的資料;
  • 控制總線,用于發送和接收信号,比如中斷、裝置複位等信号,CPU 收到信号後自然進行響應,這時也需要控制總線;

當 CPU 要讀寫記憶體資料的時候,一般需要通過兩個總線:

  • 首先要通過「位址總線」來指定記憶體的位址;
  • 再通過「資料總線」來傳輸資料;

輸入、輸出裝置

輸入裝置向計算機輸入資料,計算機經過計算後,把資料輸出給輸出裝置。期間,如果輸入裝置是鍵盤,按下按鍵時是需要和 CPU 進行互動的,這時就需要用到控制總線了。

線路位寬與 CPU 位寬

資料是如何通過位址總線傳輸的呢?其實是通過操作電壓,低電壓表示 0,高壓電壓則表示 1。

如果構造了高低高這樣的信号,其實就是 101 二進制資料,十進制則表示 5,如果隻有一條線路,就意味着每次隻能傳遞 1 bit 的資料,即 0 或 1,那麼傳輸 101 這個資料,就需要 3 次才能傳輸完成,這樣的效率非常低。

這樣一位一位傳輸的方式,稱為串行,下一個 bit 必須等待上一個 bit 傳輸完成才能進行傳輸。當然,想一次多傳一些資料,增加線路即可,這時資料就可以并行傳輸。

為了避免低效率的串行傳輸的方式,線路的位寬最好一次就能通路到所有的記憶體位址。 CPU 要想操作的記憶體位址就需要位址總線,如果位址總線隻有 1 條,那每次隻能表示 「0 或 1」這兩種情況,是以 CPU 一次隻能操作 2 個記憶體位址;如果想要 CPU 操作 4G 的記憶體,那麼就需要 32 條位址總線,因為

2 ^ 32 = 4G

知道了線路位寬的意義後,我們再來看看 CPU 位寬。

CPU 的位寬最好不要小于線路位寬,比如 32 位 CPU 控制 40 位寬的位址總線和資料總線的話,工作起來就會非常複雜且麻煩,是以 32 位的 CPU 最好和 32 位寬的線路搭配,因為 32 位 CPU 一次最多隻能操作 32 位寬的位址總線和資料總線。

如果用 32 位 CPU 去加和兩個 64 位大小的數字,就需要把這 2 個 64 位的數字分成 2 個低位 32 位數字和 2 個高位 32 位數字來計算,先加個兩個低位的 32 位數字,算出進位,然後加和兩個高位的 32 位數字,最後再加上進位,就能算出結果了,可以發現 32 位 CPU 并不能一次性計算出加和兩個 64 位數字的結果。

對于 64 位 CPU 就可以一次性算出加和兩個 64 位數字的結果,因為 64 位 CPU 可以一次讀入 64 位的數字,并且 64 位 CPU 内部的邏輯運算單元也支援 64 位數字的計算。

但是并不代表 64 位 CPU 性能比 32 位 CPU 高很多,很少應用需要算超過 32 位的數字,是以如果計算的數額不超過 32 位數字的情況下,32 位和 64 位 CPU 之間沒什麼差別的,隻有當計算超過 32 位數字的情況下,64 位的優勢才能展現出來。

另外,32 位 CPU 最大隻能操作 4GB 記憶體,就算你裝了 8 GB 記憶體條,也沒用。而 64 位 CPU 尋址範圍則很大,理論最大的尋址空間為

2^64

程式執行的基本過程

在前面,我們知道了程式在圖靈機的執行過程,接下來我們來看看程式在馮諾依曼模型上是怎麼執行的。

程式實際上是一條一條指令,是以程式的運作過程就是把每一條指令一步一步的執行起來,負責執行指令的就是 CPU 了。

CPU 執行程式的秘密,藏在了這 15 張圖裡

那 CPU 執行程式的過程如下:

  • 第一步,CPU 讀取「程式計數器」的值,這個值是指令的記憶體位址,然後 CPU 的「控制單元」操作「位址總線」指定需要通路的記憶體位址,接着通知記憶體裝置準備資料,資料準備好後通過「資料總線」将指令資料傳給 CPU,CPU 收到記憶體傳來的資料後,将這個指令資料存入到「指令寄存器」。
  • 第二步,CPU 分析「指令寄存器」中的指令,确定指令的類型和參數,如果是計算類型的指令,就把指令交給「邏輯運算單元」運算;如果是存儲類型的指令,則交由「控制單元」執行;
  • 第三步,CPU 執行完指令後,「程式計數器」的值自增,表示指向下一條指令。這個自增的大小,由 CPU 的位寬決定,比如 32 位的 CPU,指令是 4 個位元組,需要 4 個記憶體位址存放,是以「程式計數器」的值會自增 4;

簡單總結一下就是,一個程式執行的時候,CPU 會根據程式計數器裡的記憶體位址,從記憶體裡面把需要執行的指令讀取到指令寄存器裡面執行,然後根據指令長度自增,開始順序讀取下一條指令。

CPU 從程式計數器讀取指令、到執行、再到下一條指令,這個過程會不斷循環,直到程式執行結束,這個不斷循環的過程被稱為 CPU 的指令周期。

a = 1 + 2 執行具體過程

知道了基本的程式執行過程後,接下來用

a = 1 + 2

的作為例子,進一步分析該程式在馮諾伊曼模型的執行過程。

CPU 是不認識

a = 1 + 2

這個字元串,這些字元串隻是友善我們程式員認識,要想這段程式能跑起來,還需要把整個程式翻譯成彙編語言的程式,這個過程稱為編譯成彙編代碼。

針對彙編代碼,我們還需要用彙編器翻譯成機器碼,這些機器碼由 0 和 1 組成的機器語言,這一條條機器碼,就是一條條的計算機指令,這個才是 CPU 能夠真正認識的東西。

下面來看看

a = 1 + 2

在 32 位 CPU 的執行過程。

程式編譯過程中,編譯器通過分析代碼,發現 1 和 2 是資料,于是程式運作時,記憶體會有個專門的區域來存放這些資料,這個區域就是「資料段」。如下圖,資料 1 和 2 的區域位置:

  • 資料 1 被存放到 0x100 位置;
  • 資料 2 被存放到 0x104 位置;

注意,資料和指令是分開區域存放的,存放指令區域的地方稱為「正文段」。

編譯器會把

a = 1 + 2

翻譯成 4 條指令,存放到正文段中。如圖,這 4 條指令被存放到了 0x200 ~ 0x20c 的區域中:

  • 0x200 的内容是

    load

    指令将 0x100 位址中的資料 1 裝入到寄存器

    R0

  • 0x204 的内容是

    load

    指令将 0x104 位址中的資料 2 裝入到寄存器

    R1

  • 0x208 的内容是

    add

    指令将寄存器

    R0

    R1

    的資料相加,并把結果存放到寄存器

    R2

  • 0x20c 的内容是

    store

    指令将寄存器

    R2

    中的資料存回資料段中的 0x108 位址中,這個位址也就是變量

    a

    記憶體中的位址;

編譯完成後,具體執行程式的時候,程式計數器會被設定為 0x200 位址,然後依次執行這 4 條指令。

上面的例子中,由于是在 32 位 CPU 執行的,是以一條指令是占 32 位大小,是以你會發現每條指令間隔 4 個位元組。

而資料的大小是根據你在程式中指定的變量類型,比如

int

類型的資料則占 4 個位元組,

char

類型的資料則占 1 個位元組。

指令

上面的例子中,圖中指令的内容我寫的是簡易的彙編代碼,目的是為了友善了解指令的具體内容,事實上指令的内容是一串二進制數字的機器碼,每條指令都有對應的機器碼,CPU 通過解析機器碼來知道指令的内容。

不同的 CPU 有不同的指令集,也就是對應着不同的彙編語言和不同的機器碼,接下來選用最簡單的 MIPS 指集,來看看機器碼是如何生成的,這樣也能明白二進制的機器碼的具體含義。

MIPS 的指令是一個 32 位的整數,高 6 位代表着操作碼,表示這條指令是一條什麼樣的指令,剩下的 26 位不同指令類型所表示的内容也就不相同,主要有三種類型R、I 和 J。

CPU 執行程式的秘密,藏在了這 15 張圖裡

一起具體看看這三種類型的含義:

  • R 指令,用在算術和邏輯操作,裡面由讀取和寫入資料的寄存器位址。如果是邏輯位移操作,後面還有位移操作的「位移量」,而最後的「功能碼」則是再前面的操作碼不夠的時候,擴充操作碼來表示對應的具體指令的;
  • I 指令,用在資料傳輸、條件分支等。這個類型的指令,就沒有了位移量和操作碼,也沒有了第三個寄存器,而是把這三部分直接合并成了一個位址值或一個常數;
  • J 指令,用在跳轉,高 6 位之外的 26 位都是一個跳轉後的位址;

接下來,我們把前面例子的這條指令:「

add

指令将寄存器

R0

R1

的資料相加,并把結果放入到

R3

」,翻譯成機器碼。

CPU 執行程式的秘密,藏在了這 15 張圖裡

加和運算 add 指令是屬于 R 指令類型:

  • add 對應的 MIPS 指令裡操作碼是

    000000

    ,以及最末尾的功能碼是

    100000

    ,這些數值都是固定的,查一下 MIPS 指令集的手冊就能知道的;
  • rs 代表第一個寄存器 R0 的編号,即

    00000

  • rt 代表第二個寄存器 R1 的編号,即

    00001

  • rd 代表目标的臨時寄存器 R2 的編号,即

    00010

  • 因為不是位移操作,是以位移量是

    00000

把上面這些數字拼在一起就是一條 32 位的 MIPS 加法指令了,那麼用 16 進制表示的機器碼則是

0x00011020

編譯器在編譯程式的時候,會構造指令,這個過程叫做指令的編碼。CPU 執行程式的時候,就會解析指令,這個過程叫作指令的解碼。

現代大多數 CPU 都使用來流水線的方式來執行指令,所謂的流水線就是把一個任務拆分成多個小任務,于是一條指令通常分為 4 個階段,稱為 4 級流水線,如下圖:

CPU 執行程式的秘密,藏在了這 15 張圖裡

四個階段的具體含義:

  1. CPU 通過程式計數器讀取對應記憶體位址的指令,這個部分稱為 Fetch(取得指令);
  2. CPU 對指令進行解碼,這個部分稱為 Decode(指令譯碼);
  3. CPU 執行指令,這個部分稱為 Execution(執行指令);
  4. CPU 将計算結果存回寄存器或者将寄存器的值存入記憶體,這個部分稱為 Store(資料回寫);

上面這 4 個階段,我們稱為指令周期(Instrution Cycle),CPU 的工作就是一個周期接着一個周期,周而複始。

事實上,不同的階段其實是由計算機中的不同元件完成的:

  • 取指令的階段,我們的指令是存放在存儲器裡的,實際上,通過程式計數器和指令寄存器取出指令的過程,是由控制器操作的;
  • 指令的譯碼過程,也是由控制器進行的;
  • 指令執行的過程,無論是進行算術操作、邏輯操作,還是進行資料傳輸、條件分支操作,都是由算術邏輯單元操作的,也就是由運算器處理的。但是如果是一個簡單的無條件位址跳轉,則是直接在控制器裡面完成的,不需要用到運算器。

指令的類型

指令從功能角度劃分,可以分為 5 大類:

  • 資料傳輸類型的指令,比如

    store/load

    是寄存器與記憶體間資料傳輸的指令,

    mov

    是将一個記憶體位址的資料移動到另一個記憶體位址的指令;
  • 運算類型的指令,比如加減乘除、位運算、比較大小等等,它們最多隻能處理兩個寄存器中的資料;
  • 跳轉類型的指令,通過修改程式計數器的值來達到跳轉執行指令的過程,比如程式設計中常見的

    if-else

    swtich-case

    、函數調用等。
  • 信号類型的指令,比如發生中斷的指令

    trap

  • 閑置類型的指令,比如指令

    nop

    ,執行後 CPU 會空轉一個周期;

指令的執行速度

CPU 的硬體參數都會有

GHz

這個參數,比如一個 1 GHz 的 CPU,指的是時鐘頻率是 1 G,代表着 1 秒會産生 1G 次數的脈沖信号,每一次脈沖信号高低電平的轉換就是一個周期,稱為時鐘周期。

對于 CPU 來說,在一個時鐘周期内,CPU 僅能完成一個最基本的動作,時鐘頻率越高,時鐘周期就越短,工作速度也就越快。

一個時鐘周期一定能執行完一條指令嗎?答案是不一定的,大多數指令不能在一個時鐘周期完成,通常需要若幹個時鐘周期。不同的指令需要的時鐘周期是不同的,加法和乘法都對應着一條 CPU 指令,但是乘法需要的時鐘周期就要比加法多。

如何讓程式跑的更快?

程式執行的時候,耗費的 CPU 時間少就說明程式是快的,對于程式的 CPU 執行時間,我們可以拆解成 CPU 時鐘周期數(CPU Cycles)和時鐘周期時間(Clock Cycle Time)的乘積。

時鐘周期時間就是我們前面提及的 CPU 主頻,主頻越高說明 CPU 的工作速度就越快,比如我手頭上的電腦的 CPU 是 2.4 GHz 四核 Intel Core i5,這裡的 2.4 GHz 就是電腦的主頻,時鐘周期時間就是 1/2.4G。

要想 CPU 跑的更快,自然縮短時鐘周期時間,也就是提升 CPU 主頻,但是今非彼日,摩爾定律早已失效,當今的 CPU 主頻已經很難再做到翻倍的效果了。

另外,換一個更好的 CPU,這個也是我們軟體工程師控制不了的事情,我們應該把目光放到另外一個乘法因子 —— CPU 時鐘周期數,如果能減少程式所需的 CPU 時鐘周期數量,一樣也是能提升程式的性能的。

對于 CPU 時鐘周期數我們可以進一步拆解成:「指令數 x 每條指令的平均時鐘周期數(Cycles Per Instruction,簡稱

CPI

)」,于是程式的 CPU 執行時間的公式可變成如下:

是以,要想程式跑的更快,優化這三者即可:

  • 指令數,表示執行程式所需要多少條指令,以及哪些指令。這個層面是基本靠編譯器來優化,畢竟同樣的代碼,在不同的編譯器,編譯出來的計算機指令會有各種不同的表示方式。
  • 每條指令的平均時鐘周期數 CPI,表示一條指令需要多少個時鐘周期數,現代大多數 CPU 通過流水線技術(Pipline),讓一條指令需要的 CPU 時鐘周期數盡可能的少;
  • 時鐘周期時間,表示計算機主頻,取決于計算機硬體。有的 CPU 支援超頻技術,打開了超頻意味着把 CPU 内部的時鐘給調快了,于是 CPU 工作速度就變快了,但是也是有代價的,CPU 跑的越快,散熱的壓力就會越大,CPU 會很容易奔潰。

很多廠商為了跑分而跑分,基本都是在這三個方面入手的哦,特别是超頻這一塊。

總結

最後我們再來回答開頭的問題。

64 位相比 32 位 CPU 的優勢在哪嗎?64 位 CPU 的計算性能一定比 32 位 CPU 高很多嗎?

64 位相比 32 位 CPU 的優勢主要展現在兩個方面:

  • 64 位 CPU 可以一次計算超過 32 位的數字,而 32 位 CPU 如果要計算超過 32 位的數字,要分多步驟進行計算,效率就沒那麼高,但是大部分應用程式很少會計算那麼大的數字,是以隻有運算大數字的時候,64 位 CPU 的優勢才能展現出來,否則和 32 位 CPU 的計算性能相差不大。
  • 64 位 CPU 可以尋址更大的記憶體空間,32 位 CPU 最大的尋址位址是 4G,即使你加了 8G 大小的記憶體,也還是隻能尋址到 4G,而 64 位 CPU 最大尋址位址是

    2^64

    ,遠超于 32 位 CPU 最大尋址位址的

    2^32

你知道軟體的 32 位和 64 位之間的差別嗎?再來 32 位的作業系統可以運作在 64 位的電腦上嗎?64 位的作業系統可以運作在 32 位的電腦上嗎?如果不行,原因是什麼?

64 位和 32 位軟體,實際上代表指令是 64 位還是 32 位的:

  • 如果 32 位指令在 64 位機器上執行,需要一套相容機制,就可以做到相容運作了。但是如果 64 位指令在 32 位機器上執行,就比較困難了,因為 32 位的寄存器存不下 64 位的指令;
  • 作業系統其實也是一種程式,我們也會看到作業系統會分成 32 位作業系統、64 位作業系統,其代表意義就是作業系統中程式的指令是多少位,比如 64 位作業系統,指令也就是 64 位,是以不能裝在 32 位機器上。

總之,硬體的 64 位和 32 位指的是 CPU 的位寬,軟體的 64 位和 32 位指的是指令的位寬。

絮叨

大家好,我是小林,一個專為大家圖解的工具人,如果覺得文章對你有幫助,歡迎分享給你的朋友,這對小林非常重要,謝謝你們,我們下次見!

推薦閱讀

讀者問:小林怎麼學作業系統和計算機網絡呀?