天天看點

記憶體對齊性能測試

記憶體對齊的重要性大家都知道, 那麼記憶體不對齊, 對性能有多大的影響?  本文做個小實驗:

#include <stdio.h>
#include <stdlib.h>
#include "ctimer.h"

int main()
{
    char buf[512];
    printf("buf[0]'s addr [%x][%d]\n", (int)(char*)&buf[0],(int)(char*)&buf[0]);
    printf("buf[1]'s addr [%x][%d]\n", (int)(char*)&buf[1],(int)(char*)&buf[1]);

    CMyTimer t1;

    int tmp = 0;
    int count = 1000000;

    memset(buf, sizeof(buf), 0);

    t1.Begin();
    for (int i=0; i<count; ++i)
    {
        for (int j=1;j<(sizeof(buf)-4);j+=4)
        {
            tmp = *(int*)&buf[j];
            tmp++;
            *(int*)&buf[j] = tmp;
        }
    }
    printf("use time : %5.1f\n", t1.GetElapseTimeMS());

    memset(buf, sizeof(buf), 0);
    t1.Begin();
    for (int i=0; i<count; ++i)
    {
        for (int j=2;j<(sizeof(buf)-4);j+=4)
        {
            tmp = *(int*)&buf[j];
            tmp++;
            *(int*)&buf[j] = tmp;
        }
    }
    printf("use time : %5.1f\n", t1.GetElapseTimeMS());

    memset(buf, sizeof(buf), 0);
    t1.Begin();
    for (int i=0; i<count; ++i)
    {
        for (int j=3;j<(sizeof(buf)-4);j+=4)
        {
            tmp = *(int*)&buf[j];
            tmp++;
            *(int*)&buf[j] = tmp;
        }
    }
    printf("use time : %5.1f\n", t1.GetElapseTimeMS());

    memset(buf, sizeof(buf), 0);
    t1.Begin();
    for (int i=0; i<count; ++i)
    {
        for (int j=0;j<(sizeof(buf)-4);j+=4)
        {
            tmp = *(int*)&buf[j];
            tmp++;
            *(int*)&buf[j] = tmp;
        }
    }
    printf("use time : %5.1f\n", t1.GetElapseTimeMS());
    return 0;
}           

測試結果如下:

buf[0]'s addr [bfa26aac][-1079874900]
buf[1]'s addr [bfa26aad][-1079874899]
use time : 936.6
use time : 979.9
use time : 980.4
use time : 769.9 // 可以看到對齊後的效果要好點           

基本上  (980-770)/980 = 0.21. 有21%的性能差異.

程式邏輯解釋:

1) 首先在棧上申請buf, 一般情況下, buf的首位址都是記憶體對齊後的 (編譯器不會那麼傻, 給使用者在棧上配置設定一個位址不對齊的變量)

2) 然後做了4各個測試. 第一個測試, 錯位一個位元組, 每次讀取一個整形,再寫入一個整形. 後面依次錯位2,3,0位元組. 其中最後一次相當于沒有錯位.