天天看點

LINUX存儲相關知識串燒

linux 記憶體是所有從事相關技術人員,需要深入了解的計算機資源管理方法論,合理的使用記憶體,有助于提升機器的性能和穩定性。本文主要從記憶體的原理和結構,到記憶體的算法優化,再到使用場景,去探尋記憶體管理的機制和奧秘。主要介紹了 linux 記憶體組織結構和頁面布局,記憶體碎片産生原因和優化算法,linux 核心幾種記憶體管理的方法,記憶體使用場景以及記憶體使用的那些坑。

一 走進 linux 記憶體

1、記憶體是什麼?

  1. 記憶體又稱主存,是 CPU 能直接尋址的存儲空間,由半導體器件制成,主要是DRAM構成。
  2. 記憶體的最核心特點是可随機存取,存取速率快。
  3. LINUX存儲相關知識串燒
  4. 計算機系統存儲體系結構圖

2、記憶體的作用

從微觀來,CPU的運算需要空間存放中間資料。從宏觀來看,系統的運作或程序的執行都需要一個存儲空間去容納它的資料,而這個空間就是記憶體。

1.暫時存放 cpu 的運算資料;

2.硬碟等外部存儲器交換的資料;

3.保障 cpu 計算的穩定性和高性能;

計算機存儲器 典型容量 存取時間
寄存器 <KB 1ns
一級cache <MB 5-10ns
二級cache 1-10MB 50ns
記憶體 0.1-100GB 100ns
硬碟 0.1-10TB 10ms
可移動存儲媒體 0.1-10TB 1-100ms

二 linux 記憶體空間

1、linux 記憶體位址空間

LINUX存儲相關知識串燒

Linux記憶體管理全貌

2、記憶體位址——使用者态&核心态

  • 使用者态:運作于使用者态的代碼(ring3)在讀取某些位址空間時要受到處理器的限制;
  • 核心态: 運作于核心态的代碼(ring0),在處理器的存儲保護中,一般使用者程式無讀取權限。
  • 使用者态切換到核心态的 3 種方式:系統調用、異常、外設中斷。
  • 差別:每個程序都有完全屬于自己的,獨立的,不被幹擾的記憶體空間;使用者态的程式就不能随意操作其他使用者态程式和核心的位址空間,具有一定的隔離作用;但核心程式可以通路使用者空間,且所有核心态線程共享核心位址空間。
  • LINUX存儲相關知識串燒
  • 各層隻有向外的通路權

3、記憶體位址——MMU 位址轉換

  • MMU 是一種硬體電路,它包含兩個部件,一個是分段部件,一個是分頁部件.
  • 分段機制把一個邏輯位址轉換為線性位址.
  • 分頁機制把一個線性位址轉換為實體位址。
  • LINUX存儲相關知識串燒
  • 位址轉換步驟

4、記憶體位址——分段機制

1. 段選擇符

  • 為了友善快速檢索段選擇符,處理器提了 6 個分段寄存器來緩存段選擇符,它們分别是:cs,ss,ds,es,fs 和 gs。
  • 段的基位址(Base Address):線上性位址空間中段的起始位址。
  • 段的界限(Limit):在虛拟位址空間中,段的最大偏移量。

2. 分段實作

邏輯位址的段寄存器中提供了段描述符,然後從段描述符中得到段基址和段界限,然後加上邏輯位址的偏移量,就得到了線性位址。

5、記憶體位址——分頁機制(32 位)

  • 分頁機制是在分段機制之後進行的,它進一步将線性位址轉換為實體位址。
  • 高10 位為頁目錄偏移量
  • 次10 位為頁表項偏移量
  • 低12 位為頁内偏移量(單頁的大小為 4KB)。
  • LINUX存儲相關知識串燒
  • 記憶體分頁機制

6、使用者态位址空間

  • TEXT:代碼段,存放可執行代碼、字元串字面值、隻讀變量。
  • DATA:資料段,存放程式中已經初始化的全局變量。
  • BSS 段:存放程式中未初始化的全局變量。
  • HEAP:運作時堆,在程式運作中使用 malloc 申請的記憶體區域。
  • MMAP:共享庫及匿名檔案的映射區域。
  • STACK:使用者程序棧,存放程式中的局部變量等。
  • LINUX存儲相關知識串燒
  • 使用者态程序位址空間

7、核心态位址空間

  • 直接映射區:線性空間中從 3G 開始的最大 896M 的區間,為直接記憶體映射區。
  • 動态記憶體映射區:該區域由核心函數 vmalloc 來配置設定。
  • 永久記憶體映射區:線性空間中從3G開始的896M以上的區間,為永久記憶體映射區,可通路高端記憶體資料。
  • 固定映射區:該區域和 4G 的頂端隻有 4k 的隔離帶,其每個位址項都服務于特定的用途,如: ACPI_BASE 等。
  • LINUX存儲相關知識串燒
  • 核心态位址空間

8、程序記憶體空間

  • 使用者程序通常情況隻能通路使用者空間的虛拟位址vm_area_struct,不能通路核心空間虛拟位址。
  • 核心空間是由核心負責映射,不會跟着程序變化;核心空間位址有自己對應的頁表vm_struct,使用者程序各自有不同的頁表。
  • LINUX存儲相關知識串燒

三 Linux記憶體配置設定算法

1、記憶體碎片

1.基本原理

  • 産生原因:當記憶體配置設定較小,并且配置設定的這些小的記憶體生存周期又較長時,如果反複申請該類型的記憶體,将産生記憶體碎片。
  • 優點:提高配置設定速度,便于記憶體管理,防止記憶體洩露。
  • 缺點:大量的記憶體碎片會使系統緩慢,記憶體使用率低,浪費大。

2.如何避免記憶體碎片

  • 少用動态記憶體配置設定的函數(盡量使用棧空間)
  • 調用配置設定和釋放記憶體函數時,盡量将他們放在同一個函數中。
  • 盡量一次性申請較大的記憶體,而不要反複申請小記憶體。
  • 盡可能申請大塊的 ,2 的指數幂大小的記憶體空間。
  • 外部碎片避免——夥伴系統算法。
  • 内部碎片避免——slab 算法。
  • 自己進行記憶體管理工作,設計記憶體池。

2、夥伴系統算法——組織結構

1. 概念

為核心提供了一種用于配置設定一組連續頁而建立的一種高效的配置設定政策,并有效的解決了外碎片問題。配置設定的記憶體區是以頁框(4KB)為基本機關的

2.外部碎片

外部碎片指的是還沒有被配置設定出去,但又由于太小了而無法配置設定給其它申請記憶體空間的新程序的記憶體空間。

3.組織結構

把所有的空閑頁分組為 11 個塊連結清單,每個塊連結清單分别包含大小為 1,2,4,8,16,32,64,128,256,512 和 1024 個連續頁框的頁塊。最大可以申請 1024 個連續頁,對應 4MB 大小的連續記憶體。

LINUX存儲相關知識串燒

夥伴系統組織結構

3、夥伴系統算法——申請和回收

0.何為夥伴關系

大小相同的兩塊記憶體塊,如果他們在實體上相連,則稱為夥伴關系,否則為非夥伴關系。

LINUX存儲相關知識串燒

夥伴關系

1.申請算法

申請 2^i 個頁塊存儲空間

  • 如果 2^i 對應的塊連結清單有空閑頁塊,則配置設定給應用;
  • 如果沒有空閑頁塊,則查找 2^(i+1) 對應的塊連結清單是否有空閑頁塊,如果有,則将其分成兩個大小為2^i 的塊,其中一個配置設定給應用,另外一個插入到 2^i 對應的塊連結清單中。
  • 如果 2^(i+1) 塊連結清單中沒有空閑頁塊,則重複上個步驟 ,直到找到有空閑頁塊的塊連結清單。
  • 如果仍然沒有,則傳回記憶體配置設定失敗。

2.回收算法

釋放 2^i 個頁塊存儲空間

  • 查找 2^i 個頁塊對應的塊連結清單,是否有與其實體位址是連續的頁塊,如果沒有,則無需合并。
  • 如果有,則合并成為 2^(i+1)的頁塊,以此類推,繼續查找下一級塊連結,直到不能合并為止。
  • LINUX存儲相關知識串燒
  • 合并

4、如何配置設定 4M 以上記憶體?

1.為何限制大塊記憶體配置設定

  • 配置設定的記憶體越大, 失敗的可能性越大。
  • 大塊記憶體使用場景少

2.核心中擷取 4M 以上大記憶體的方法

  • 修改 MAX_ORDER, 重新編譯核心
  • 核心啟動選型傳遞"mem="參數, 如"mem=80M,預留部分記憶體;然後通過

    request_mem_region 和 ioremap_nocache 将預留的記憶體映射到子產品中。需要修改核心啟動參數, 無需重新編譯核心. 但這種方法不支援 x86 架構, 隻支援 ARM, PowerPC 等非 x86 架構。

  • 在 start_kernel 中 mem_init 函數之前調用 alloc_boot_mem 函數預配置設定大塊記憶體, 需要重新編譯核心。
  • vmalloc 函數,核心代碼使用它來配置設定在虛拟記憶體中連續但在實體記憶體中不一定連續的記憶體。

5、夥伴系統——反碎片機制

1. 不可移動頁

  • 這些頁在記憶體中有固定的位置,不能夠移動,也不可回收
  • 核心代碼段,資料段,核心 kmalloc() 出來的記憶體,核心線程占用的記憶體等

2. 可回收頁

這些頁不能移動,但可以删除。核心在回收頁占據了太多的記憶體時或者記憶體短缺時進行頁面回收###3. 可移動頁

  • 這些頁可以任意移動,使用者空間應用程式使用的頁都屬于該類别。它們是通過頁表映射的
  • 當它們移動到新的位置,頁表項也會相應的更新。

6、slab 算法——基本原理

1. 基本概念

  • Linux 所使用的 slab 配置設定器的基礎是 Jeff Bonwick 為 SunOS 作業系統首次引入的一種算法
  • 它的基本思想是将核心中經常使用的對象放到高速緩存中,并且由系統保持為初始的可利用狀态。比如程序描述符,核心中會頻繁對此資料進行申請和釋放

2. 内部碎片

已經被配置設定出去的的記憶體空間大于請求所需的記憶體空間

3. 基本目标

  • 減少夥伴算法在配置設定小塊連續記憶體時所産生的内部碎片
  • 将頻繁使用的對象緩存起來,減少配置設定、初始化和釋放對象的時間開銷
  • 通過着色技術調整對象以更好的使用硬體高速緩存

7、slab 配置設定器的結構

  • 由于對象是從 slab 中配置設定和釋放的,是以單個 slab 可以在 slab 清單之間進行移動
  • slabs_empty 清單中的 slab 是進行回收(reaping)的主要備選對象
  • slab 還支援通用對象的初始化,進而避免了為同一目而對一個對象重複進行初始化
  • LINUX存儲相關知識串燒
  • Appslab配置設定器的結構

8、slab 高速緩存

1. 普通高速緩存

  • slab 配置設定器所提供的小塊連續記憶體的配置設定是通過通用高速緩存實作的
  • 通用高速緩存所提供的對象具有幾何分布的大小,範圍為 32 到 131072 位元組。
  • 核心中提供了 kmalloc() 和 kfree() 兩個接口分别進行記憶體的申請和釋放

2. 專用高速緩存

  • 核心為專用高速緩存的申請和釋放提供了一套完整的接口,根據所傳入的參數為具體的對象配置設定 slab 緩存
  • kmem_cache_create() 用于對一個指定的對象建立高速緩存。它從 cache_cache 普通高速緩存中為新的專有緩存配置設定一個高速緩存描述符,并把這個描述符插入到高速緩存描述符形成的 cache_chain 連結清單中
  • kmem_cache_alloc() 在其參數所指定的高速緩存中配置設定一個 slab。
  • kmem_cache_free() 在其參數所指定的高速緩存中釋放一個 slab

9、核心态記憶體池

1. 基本原理

  • 先申請配置設定一定數量的、大小相等的記憶體塊留作備用
  • 當有新的記憶體需求時,就從記憶體池中分出一部分記憶體塊,若記憶體塊不夠再繼續申請新的記憶體

    這樣做的一個顯著優點是盡量避免了記憶體碎片,使得記憶體配置設定效率得到提升

2. 核心 API

  • mempool_create 建立記憶體池對象
  • mempool_alloc 配置設定函數獲得該對象
  • mempool_free 釋放一個對象
  • mempool_destroy 銷毀記憶體池
  • LINUX存儲相關知識串燒
  • 核心态記憶體池

10、使用者态記憶體池

1. C++ 執行個體

LINUX存儲相關知識串燒

使用者态記憶體池

11、DMA 記憶體

1. 什麼是 DMA

直接記憶體通路是一種硬體機制,它允許外圍裝置和主記憶體之間直接傳輸它們的 I/O 資料,而不需要系統處理器的參與

2. DMA 控制器的功能

  • 能向 CPU 發出系統保持(HOLD)信号,提出總線接管請求
  • 當 CPU 發出允許接管信号後,負責對總線的控制,進入 DMA 方式
  • 能對存儲器尋址及能修改位址指針,實作對記憶體的讀寫操作
  • 能決定本次 DMA 傳送的位元組數,判斷 DMA 傳送是否結束
  • 發出 DMA 結束信号,使 CPU 恢複正常工作狀态

3. DMA 信号

  • DREQ:DMA 請求信号。是外設向 DMA 控制器提出要求,DMA 操作的申請信号
  • DACK:DMA 響應信号。是 DMA 控制器向提出 DMA 請求的外設表示已收到請求和正進行處理的信号
  • HRQ:DMA 控制器向 CPU 發出的信号,要求接管總線的請求信号。
  • HLDA:CPU 向 DMA 控制器發出的信号,允許接管總線的應答信号
  • LINUX存儲相關知識串燒
  • DMA

四、 記憶體使用場景

1、記憶體的使用場景

  • page 管理
  • slab(kmalloc、記憶體池)
  • 使用者态記憶體使用(malloc、relloc 檔案映射、共享記憶體)
  • 程式的記憶體 map(棧、堆、code、data)
  • 核心和使用者态的資料傳遞(copy_from_user、copy_to_user)
  • 記憶體映射(硬體寄存器、保留記憶體)
  • DMA 記憶體

2、使用者态記憶體配置設定函數

  • alloca 是向棧申請記憶體,是以無需釋放
  • malloc 所配置設定的記憶體空間未被初始化,使用 malloc() 函數的程式開始時(記憶體空間還沒有被重新配置設定) 能正常運作,但經過一段時間後(記憶體空間已被重新配置設定) 可能會出現問題
  • calloc 會将所配置設定的記憶體空間中的每一位都初始化為零
  • realloc 擴充現有記憶體空間大小
  1. 如果目前連續記憶體塊足夠 realloc 的話,隻是将 p 所指向的空間擴大,并傳回 p 的指針位址。這個時候 q 和 p 指向的位址是一樣的
  2. 如果目前連續記憶體塊不夠長度,再找一個足夠長的地方,配置設定一塊新的記憶體,q,并将 p 指向的内容 copy 到 q,傳回 q。并将 p 所指向的記憶體空間删除
  • mmap 将一個檔案或者其它對象映射進記憶體,多程序可通路3、核心态記憶體配置設定函數函數配置設定原理最大記憶體其他_get_free_pages直接對頁框進行操作4MB适用于配置設定較大量的連續實體記憶體kmem_cache_alloc基于 slab 機制實作128KB适合需要頻繁申請釋放相同大小記憶體塊時使用kmalloc基于 kmem_cache_alloc 實作128KB最常見的配置設定方式,需要小于頁框大小的記憶體時可以使用vmalloc建立非連續實體記憶體到虛拟位址的映射實體不連續,适合需要大記憶體,但是對位址連續性沒有要求的場合dma_alloc_coherent基于_alloc_pages 實作4MB适用于 DMA 操作ioremap實作已知實體位址到虛拟位址的映射适用于實體位址已知的場合,如裝置驅動alloc_bootmem在啟動 kernel 時,預留一段記憶體,核心看不見小于實體記憶體大小,記憶體管理要求較高

4、malloc 申請記憶體

  • 調用 malloc 函數時,它沿 free_chuck_list 連接配接表尋找一個大到足以滿足使用者請求所需要的記憶體塊
  • LINUX存儲相關知識串燒
  • malloc函數
  • free_chuck_list 連接配接表的主要工作是維護一個空閑的堆空間緩沖區連結清單
  • 如果空間緩沖區連結清單沒有找到對應的節點,需要通過系統調用 sys_brk 延伸程序的棧空間
  • LINUX存儲相關知識串燒
  • 圖檔發自簡書App

5、缺頁異常

  • 通過 get_free_pages 申請一個或多個實體頁面
  • 換算 addr 在程序 pdg 映射中所在的 pte 位址
  • 将 addr 對應的 pte 設定為實體頁面的首位址
  • 系統調用:Brk—申請記憶體小于等于 128kb,do_map—申請記憶體大于 128kb
  • LINUX存儲相關知識串燒
  • 缺頁異常

6、使用者程序通路記憶體分析

  • 使用者态程序獨占虛拟位址空間,兩個程序的虛拟位址可相同
  • 在通路使用者态虛拟位址空間時,如果沒有映射實體位址,通過系統調用發出缺頁異常
  • 缺頁異常陷入核心,配置設定實體位址空間,與使用者态虛拟位址建立映射
  • LINUX存儲相關知識串燒
  • 使用者程序通路記憶體分析

7、共享記憶體

1. 原理

  • 它允許多個不相關的程序去通路同一部分邏輯記憶體
  • 兩個運作中的程序之間傳輸資料,共享記憶體将是一種效率極高的解決方案
  • 兩個運作中的程序共享資料,是程序間通信的高效方法,可有效減少資料拷貝的次數
  • LINUX存儲相關知識串燒
  • 共享記憶體

2. shm 接口

  • shmget 建立共享記憶體
  • shmat 啟動對該共享記憶體的通路,并把共享記憶體連接配接到目前程序的位址空間
  • shmdt 将共享記憶體從目前程序中分離

五、 記憶體使用那些坑

1. C 記憶體洩露

  • 在類的構造函數和析構函數中沒有比對地調用 new 和 delete 函數
  • 沒有正确地清除嵌套的對象指針
  • 沒有将基類的析構函數定義為虛函數
  • 當基類的指針指向子類對象時,如果基類的析構函數不是 virtual,那麼子類的析構函數将不會被調用,子類的資源沒有得到正确釋放,是以造成記憶體洩露
  • 缺少拷貝構造函數,按值傳遞會調用(拷貝)構造函數,引用傳遞不會調用
  • 指向對象的指針數組不等同于對象數組,數組中存放的是指向對象的指針,不僅要釋放每個對象的空間,還要釋放每個指針的空間
  • 缺少重載指派運算符,也是逐個成員拷貝的方式複制對象,如果這個類的大小是可變的,那麼結果就是造成記憶體洩露

2、C 野指針

  • 指針變量沒有初始化
  • 指針被 free 或 delete 後,沒有設定為 NULL
  • 指針操作超越了變量的作用範圍,比如傳回指向棧記憶體的指針就是野指針
  • 通路空指針(需要做空判斷)
  • sizeof 無法擷取數組的大小
  • 試圖修改常量,如:char p="1234";p='1';

3、C 資源通路沖突

  • 多線程共享變量沒有用 valotile 修飾
  • 多線程通路全局變量未加鎖
  • 全局變量僅對單程序有效
  • 多程序寫共享記憶體資料,未做同步處理
  • mmap 記憶體映射,多程序不安全

4、STL 疊代器失效

  • 被删除的疊代器失效
  • 添加元素(insert/push_back 等)、删除元素導緻順序容器疊代器失效

5、C++ 11 智能指針

  • auto_ptr 替換為 unique_ptr
  • LINUX存儲相關知識串燒
  • 圖檔發自簡書App
  • 使用 make_shared 初始化一個 shared_ptr

性能:當你建立新的對象,然後建立一個shared_ptr,這種情況發生兩個動态記憶體配置設定,一個是來自新對象本身,再進行第二次由shared_ptr構造函數建立的管理器對象;

當你使用make_shared,C++編譯器的單一記憶體配置設定大到足以容納兩個管理對象和新對象。

  • weak_ptr 智能指針助手
(1)原理分析:
LINUX存儲相關知識串燒
(2)資料結構:

boost::weak_ptr //它是boost提供的一個弱引用的智能指針,它的聲明可以簡化如下:

​namespace boost {​

​​

​template <typename T> class weak_ptr {​

​​

​public:​

​​

​template <typename Y>​

​​

​weak_ptr(const shared_ptr<Y>&r);​

​​

​weak_ptr(const weak_ptr&r);​

​​

​~weak_ptr();​

​​

​T*get() const; //1用于通路智能指針對象​

​​

​bool expired() const; //2用于檢測所管理的對象是否已經釋放​

​​

​shared_ptr<T> lock() const;3用于擷取所管理對象的強引用指針​

​​

​};​

​​

​}​

(3)使用方法:
  1. lock() 擷取所管理的對象的強引用指針
  2. expired() 檢測所管理的對象是否已經釋放
  3. get() 通路智能指針對象

6、C++ 11 更小更快更安全

  • std::atomic 原子資料類型 多線程安全
  • std::array 定長數組開銷比 array 小和 std::vector 不同的是 array 的長度是固定的,不能動态拓展
  • std::vector vector 瘦身 shrink_to_fit():将 capacity 減少為于 size() 相同的大小

    td::forward_list

  • forward_list 是單連結清單(std::list 是雙連結清單),隻需要順序周遊的場合,forward_list 能更加節省記憶體,插入和删除的性能高于 list
  • std::unordered_map、std::unordered_set用 hash 實作的無序的容器,插入、删除和查找的時間複雜度都是 O(1),在不關注容器内元素順序的場合,使用 unordered 的容器能獲得更高的性能

六、 如何檢視記憶體

  • 系統中記憶體使用情況:cat /proc/meminfo
  • 程序的記憶體使用情況:cat /proc/28040/status
  • 查詢記憶體總使用率:free
  • 查詢程序 cpu 和記憶體使用占比:top
  • 虛拟記憶體統計:vmstat
  • 程序消耗記憶體占比和排序:ps aux –sort -rss
  • 釋放系統記憶體緩存:/proc/sys/vm/drop_caches

繼續閱讀