天天看點

Redis原理詳解

資料類型

Redis最為常用的資料類型主要有以下五種:

String

Hash

List

Set

Sorted set

在具體描述這幾種資料類型之前,我們先通過一張圖了解下Redis内部記憶體管理中是如何描述這些不同資料類型的:

<a href="http://s3.51cto.com/wyfs02/M01/58/5C/wKiom1SvUaiAGz1-AADTt6pnZyY572.jpg" target="_blank"></a>

首先Redis内部使用一個redisObject對象來表示所有的key和value,redisObject最主要的資訊如上圖所示:type 代表一個value對象具體是何種資料類型,encoding是不同資料類型在redis内部的存儲方式,比如:type=string代表value存 儲的是一個普通字元串,那麼對應的encoding可以是raw或者是int,如果是int則代表實際redis内部是按數值型類存儲和表示這個字元串 的,當然前提是這個字元串本身可以用數值表示,比如:"123" "456"這樣的字元串。

這裡需要特殊說明一下vm字段,隻有打開了Redis的虛拟記憶體功能,此字段才會真正的配置設定記憶體,該功能預設是關閉狀态的,該功能會在後面具體描 述。通過上圖我們可以發現Redis使用redisObject來表示所有的key/value資料是比較浪費記憶體的,當然這些記憶體管理成本的付出主要也 是為了給Redis不同資料類型提供一個統一的管理接口,實際作者也提供了多種方法幫助我們盡量節省記憶體使用,我們随後會具體讨論。

下面我們先來逐一的分析下這五種資料類型的使用和内部實作方式:

常用指令:  

set,get,decr,incr,mget 等。

應用場景:

String是最常用的一種資料類型,普通的key/value存儲都可以歸為此類,這裡就不所做解釋了。

實作方式:

String在redis内部存儲預設就是一個字元串,被redisObject所引用,當遇到incr,decr等操作時會轉成數值型進行計算,此時redisObject的encoding字段為int。

常用指令:

hget,hset,hgetall 等。

我們簡單舉個執行個體來描述下Hash的應用場景,比如我們要存儲一個使用者資訊對象資料,包含以下資訊:

使用者ID為查找的key,存儲的value使用者對象包含姓名,年齡,生日等資訊,如果用普通的key/value結構來存儲,主要有以下2種存儲方式:

第一種方式将使用者ID作為查找key,把其他資訊封裝成一個對象以序列化的方式存儲,這種方式的缺點是,增加了序列化/反序列化的開銷,并且在需要修改其中一項資訊時,需要把整個對象取回,并且修改操作需要對并發進行保護,引入CAS等複雜問題。

    第二種方法是這個使用者資訊對象有多少成員就存成多少個key-value對兒,用使用者ID+對應屬性的名稱作為唯一辨別來取得對應屬性的值,雖然省去了序列化開銷和并發問題,但是使用者ID為重複存儲,如果存在大量這樣的資料,記憶體浪費還是非常可觀的。

    那麼Redis提供的Hash很好的解決了這個問題,Redis的Hash實際是内部存儲的Value為一個HashMap,并提供了直接存取這個Map成員的接口。

    也就是說,Key仍然是使用者ID, value是一個Map,這個Map的key是成員的屬性名,value是屬性值,這樣對資料的修改和存取都可以直接通過其内部Map的 Key(Redis裡稱内部Map的key為field), 也就是通過 key(使用者ID) + field(屬性标簽) 就可以操作對應屬性資料了,既不需要重複存儲資料,也不會帶來序列化和并發修改控制的問題。很好的解決了問題。

    這裡同時需要注意,Redis提供了接口(hgetall)可以直接取到全部的屬性資料,但是如果内部Map的成員很多,那麼涉及到周遊整 個内部Map的操作,由于Redis單線程模型的緣故,這個周遊操作可能會比較耗時,而另其它用戶端的請求完全不響應,這點需要格外注意。

    上面已經說到Redis Hash對應Value内部實際就是一個HashMap,實際這裡會有2種不同實作,這個Hash的成員比較少時Redis為了節省記憶體會采用類似一維數組的方式來緊湊存儲,而不會采用真正的HashMap結構,對應的value redisObject的encoding為zipmap,當成員數量增大時會自動轉成真正的HashMap,此時encoding為ht。

lpush,rpush,lpop,rpop,lrange等。

應用場景:  

Redis list的應用場景非常多,也是Redis最重要的資料結構之一,比如twitter的關注清單,粉絲清單等都可以用Redis的list結構來實作,比較好了解,這裡不再重複。

實作方式:  

Redis list的實作為一個雙向連結清單,即可以支援反向查找和周遊,更友善操作,不過帶來了部分額外的記憶體開銷,Redis内部的很多實作,包括發送緩沖隊列等也都是用的這個資料結構。

sadd,spop,smembers,sunion 等。

Redis set對外提供的功能與list類似是一個清單的功能,特殊之處在于set是可以自動排重的,當你需要存儲一個清單資料,又不希望出現重複資料時,set 是一個很好的選擇,并且set提供了判斷某個成員是否在一個set集合内的重要接口,這個也是list所不能提供的。

set 的内部實作是一個 value永遠為null的HashMap,實際就是通過計算hash的方式來快速排重的,這也是set能提供判斷一個成員是否在集合内的原因。

zadd,zrange,zrem,zcard等

使用場景:

Redis sorted set的使用場景與set類似,差別是set不是自動有序的,而sorted set可以通過使用者額外提供一個優先級(score)的參數來為成員排序,并且是插入有序的,即自動排序。當你需要一個有序的并且不重複的集合清單,那麼 可以選擇sorted set資料結構,比如twitter 的public timeline可以以發表時間作為score來存儲,這樣擷取時就是自動按時間排好序的。

Redis sorted set的内部使用HashMap和跳躍表(SkipList)來保證資料的存儲和有序,HashMap裡放的是成員到score的映射,而跳躍表裡存放的 是所有的成員,排序依據是HashMap裡存的score,使用跳躍表的結構可以獲得比較高的查找效率,并且在實作上比較簡單。

vm-enabled=no

關閉Redis的虛拟記憶體功能,并不成熟。

maxmemory

早前版本次參數是告訴Redis當使用了多少實體記憶體後就開始拒絕後續的寫入請求,新一點的版本應該有這個參數maxmemory-policy來執行置換政策,具體如下:

volatile-lru:在使用了過期設定的集合中,嘗試删除一個最近沒在用的鍵。

volatile-tt:在使用了過期設定的集合中,嘗試删除一個有較短expire時間的鍵。

volatile-random:在使用了過期設定的集合中随機删除一個鍵。

allkeys-lru:跟volatile-lru類似,但它會将每一種類型鍵都移除,不管是有效還是過期的隻要設定了過期時間。

allkeys-random:跟volatile-random類似,但它會将每一種類型鍵都移除,不管是有效還是過期的隻要設定了過期時間。

當value這個Map内部不超過多少個成員時會采用線性緊湊格式存儲,預設是64,即value内部有64個以下的成員就是使用線性緊湊存儲,超過該值自動轉成真正的HashMap。hash-max-zipmap-value 含義是當 value這個Map内部的每個成員值長度不超過多少位元組就會采用線性緊湊存儲來節省空間。以上2個條件任意一個條件超過設定值都會轉換成真正的HashMap,也就不會再節省記憶體了。

list資料類型多少節點以下會采用去指針的緊湊存儲格式。

list資料類型節點值大小小于多少位元組會采用緊湊存儲格式。

set資料類型内部資料如果全部是數值型,且包含多少節點以下會采用緊湊格式存儲。

    最後想說的是Redis内部實作沒有對記憶體配置設定方面做過多的優化,在一定程度上會存在記憶體碎片,不過大多數情況下這個不會成為Redis的性能瓶頸,不過如果在Redis内部存儲的大部分資料是數值型的話,Redis内部采用了一個shared integer的方式來省去配置設定記憶體的開銷,即在系統啟動時先配置設定一個從1~n 那麼多個數值對象放在一個池子中,如果存儲的資料恰好是這個數值範圍内的資料,則直接從池子裡取出該對象,并且通過引用計數的方式來共享,這樣在系統存儲了大量數值下,也能一定程度上節省記憶體并且提高性能,這個參數值n的設定需要修改源代碼中的一行宏定義REDIS_SHARED_INTEGERS,該值 預設是10000,可以根據自己的需要進行修改,修改後重新編譯就可以了。

Redis由于支援非常豐富的記憶體資料結構類型,如何把這些複雜的記憶體組織方式持久化到磁盤上是一個難題,是以Redis的持久化方式與傳統資料庫的方式有比較多的差别,Redis一共支援四種持久化方式,分别是:

定時快照方式(snapshot)

基于語句追加檔案的方式(aof)

虛拟記憶體(vm)

Diskstore方式

redis支援小量資料落地功能,後兩種種方式并不成熟,下面分别介紹下這幾種持久化方式:

定時快照方式(snapshot):

該持久化方式實際是在Redis内部一個定時器事件,每隔固定時間去檢查目前資料發生的改變次數與時間是否滿足配置的持久化觸發的條件,如果滿足則 通過作業系統fork調用來建立出一個子程序,這個子程序預設會與父程序共享相同的位址空間,這時就可以通過子程序來周遊整個記憶體來進行存儲操作,而主進 程則仍然可以提供服務,當有寫入時由作業系統按照記憶體頁(page)為機關來進行copy-on-write保證父子程序之間不會互相影響。

該持久化的主要缺點是定時快照隻是代表一段時間内的記憶體映像,是以系統重新開機會丢失上次快照與重新開機之間所有的資料。

基于語句追加方式(aof):

aof方式實際類似mysql的基于語句的binlog方式,即每條會使Redis記憶體資料發生改變的指令都會追加到一個log檔案中,也就是說這個log檔案就是Redis的持久化資料。

aof的方式的主要缺點是追加log檔案可能導緻體積過大,當系統重新開機恢複資料時如果是aof的方式則加載資料會非常慢,幾十G的資料可能需要幾小 時才能加載完,當然這個耗時并不是因為磁盤檔案讀取速度慢,而是由于讀取的所有指令都要在記憶體中執行一遍。另外由于每條指令都要寫log,是以使用aof 的方式,Redis的讀寫性能也會有所下降。

虛拟記憶體方式:

虛拟記憶體方式是Redis來進行使用者空間的資料換入換出的一個政策,此種方式在實作的效果上比較差,主要問題是代碼複雜,重新開機慢,複制慢等等,目前已經被作者放棄。

diskstore方式:

diskstore方式是作者放棄了虛拟記憶體方式後選擇的一種新的實作方式,也就是傳統的B-tree的方式,目前仍在實驗階段,後續是否可用我們可以拭目以待。

有Redis線上運維經驗的人會發現Redis在實體記憶體使用比較多,但還沒有超過實際實體記憶體總容量時就會發生不穩定甚至崩潰的問題,有人認為是 基于快照方式持久化的fork系統調用造成記憶體占用加倍而導緻的,這種觀點是不準确的,因為fork 調用的copy-on-write機制是基于作業系統頁這個機關的,也就是隻有有寫入的髒頁會被複制,但是一般你的系統不會在短時間内所有的頁都發生了寫 入而導緻複制,那麼是什麼原因導緻Redis崩潰的呢?

答案是Redis的持久化使用了Buffer IO造成的,所謂Buffer IO是指Redis對持久化檔案的寫入和讀取操作都會使用實體記憶體的Page Cache,而大多數資料庫系統會使用Direct IO來繞過這層Page Cache并自行維護一個資料的Cache,而當Redis的持久化檔案過大(尤其是快照檔案),并對其進行讀寫時,磁盤檔案中的資料都會被加載到實體内 存中作為作業系統對該檔案的一層Cache,而這層Cache的資料與Redis記憶體中管理的資料實際是重複存儲的,雖然核心在實體記憶體緊張時會做 Page Cache的剔除工作,但核心很可能認為某塊Page Cache更重要,而讓你的程序開始Swap ,這時你的系統就會開始出現不穩定或者崩潰了。我們的經驗是當你的Redis實體記憶體使用超過記憶體總容量的3/5時就會開始比較危險了。

Redis的複制功能是完全建立在基于記憶體快照的持久化政策基礎上的,也就是說無論你的持久化政策選擇的是什麼,隻要用到了 Redis的複制功能,就一定會有記憶體快照發生。

Redis複制流程在Slave和Master端各自是一套狀态機流轉,涉及的狀态資訊是:

Slave 端:

Master端:

整個狀态機流程過程如下:

Slave端在配置檔案中添加了slave of指令,于是Slave啟動時讀取配置檔案,初始狀态為REDIS_REPL_CONNECT。

Slave端在定時任務serverCron(Redis内部的定時器觸發事件)中連接配接Master,發送sync指令,然後阻塞等待master發送回其記憶體快照檔案(最新版的Redis已經不需要讓Slave阻塞)。

Master端收到sync指令簡單判斷是否有正在進行的記憶體快照子程序,沒有則立即開始記憶體快照,有則等待其結束,當快照完成後會将該檔案發送給Slave端。

Slave端接收Master發來的記憶體快照檔案,儲存到本地,待接收完成後,清空記憶體表,重新讀取Master發來的記憶體快照檔案,重建整個記憶體表資料結構,并最終狀态置位為 REDIS_REPL_CONNECTED狀态,Slave狀态機流轉完成。

Master端在發送快照檔案過程中,接收的任何會改變資料集的指令都會暫時先儲存在Slave網絡連接配接的發送緩存隊列裡(list資料結構),待快照完成後,依次發給Slave,之後收到的指令相同處理,并将狀态置位為 REDIS_REPL_ONLINE。

整個複制過程完成,流程如下圖所示:

<a href="http://s3.51cto.com/wyfs02/M01/58/6A/wKioL1SvgebhgyYlAAGDqOweOZ4569.jpg" target="_blank"></a>

從上面的流程可以看出,Slave從庫在連接配接Master主庫時,Master會進行記憶體快照,然後把整個快照檔案發給Slave,也就是沒有象MySQL那樣有複制位置的概念,即無增量複制,這會給整個叢集搭建帶來非常多的問題。

比如一台線上正在運作的Master主庫配置了一台從庫進行簡單讀寫分離,這時Slave由于網絡或者其它原因與Master斷開了連接配接,那麼當 Slave進行重新連接配接時,需要重新擷取整個Master的記憶體快照,Slave所有資料跟着全部清除,然後重建立立整個記憶體表,一方面Slave恢複的時間會非常慢,另一方面也會給主庫帶來壓力。

是以基于上述原因,如果你的Redis叢集需要主從複制,那麼最好事先配置好所有的從庫,避免中途再去增加從庫。

在我們分析過了Redis的複制與持久化功能後,我們不難得出一個結論,實際上Redis目前釋出的版本還都是一個單機版的思路,主要的問題集中在,持久化方式不夠成熟,複制機制存在比較大的缺陷,這時我們又開始重新思考Redis的定位:Cache還是Storage?如果作為Cache的話,似乎除了有些非常特殊的業務場景,必須要使用Redis的某種資料結構之外,我們使用Memcached可能更合适,畢竟Memcached無論用戶端包和伺服器本身更久經考驗。如果是作為存儲Storage的話,我們面臨的最大的問題是無論是持久化還是複制都沒有辦法解決Redis單點問題,即一台Redis挂掉了,沒有太好的辦法能夠快速的恢複,通常幾十G的持久化資料,Redis重新開機加載需要幾個小時的時間,而複制又有缺陷,如何解決呢?

1、讀多于寫且對實時性要求不高:用Sentinel實作讀寫分離;

2、讀寫均勻且實時性要求高:采用一緻性哈稀分片(Shard)

參考資料:

<a href="http://blog.csdn.net/freebird_lb/article/details/7778999" target="_blank">http://blog.csdn.net/freebird_lb/article/details/7778999</a>

<a href="http://www.tuicool.com/articles/naeEJbv" target="_blank">http://www.tuicool.com/articles/naeEJbv</a>

<a href="http://www.cnblogs.com/lulu/archive/2013/06/10/3130878.html" target="_blank">http://www.cnblogs.com/lulu/archive/2013/06/10/3130878.html</a>

本文轉自 古道卿 51CTO部落格,原文連結:http://blog.51cto.com/gudaoqing/1601114