Redis 提供了不同級别的持久化方式:
RDB持久化方式能夠在指定的時間間隔能對你的資料進行快照存儲.
AOF持久化方式記錄每次對伺服器寫的操作,當伺服器重新開機的時候會重新執行這些指令來恢複原始的資料,AOF指令以redis協定追加儲存每次寫的操作到檔案末尾.Redis還能對AOF檔案進行背景重寫,使得AOF檔案的體積不至于過大.
如果你隻希望你的資料在伺服器運作的時候存在,你也可以不使用任何持久化方式.
你也可以同時開啟兩種持久化方式, 在這種情況下, 當redis重新開機的時候會優先載入AOF檔案來恢複原始的資料,因為在通常情況下AOF檔案儲存的資料集要比RDB檔案儲存的資料集要完整.
最重要的事情是了解RDB和AOF持久化方式的不同,讓我們以RDB持久化方式開始:
RDB是一個非常緊湊的檔案,它儲存了某個時間點得資料集,非常适用于資料集的備份,比如你可以在每個小時報儲存一下過去24小時内的資料,同時每天儲存過去30天的資料,這樣即使出了問題你也可以根據需求恢複到不同版本的資料集.
RDB是一個緊湊的單一檔案,很友善傳送到另一個遠端資料中心或者亞馬遜的S3(可能加密),非常适用于災難恢複.
RDB在儲存RDB檔案時父程序唯一需要做的就是fork出一個子程序,接下來的工作全部由子程序來做,父程序不需要再做其他IO操作,是以RDB持久化方式可以最大化redis的性能.
與AOF相比,在恢複大的資料集的時候,RDB方式會更快一些.
如果你希望在redis意外停止工作(例如電源中斷)的情況下丢失的資料最少的話,那麼RDB不适合你.雖然你可以配置不同的save時間點(例如每隔5分鐘并且對資料集有100個寫的操作),是Redis要完整的儲存整個資料集是一個比較繁重的工作,你通常會每隔5分鐘或者更久做一次完整的儲存,萬一在Redis意外當機,你可能會丢失幾分鐘的資料.
RDB 需要經常fork子程序來儲存資料集到硬碟上,當資料集比較大的時候,fork的過程是非常耗時的,可能會導緻Redis在一些毫秒級内不能響應用戶端的請求.如果資料集巨大并且CPU性能不是很好的情況下,這種情況會持續1秒,AOF也需要fork,但是你可以調節重寫日志檔案的頻率來提高資料集的耐久度.
使用AOF 會讓你的Redis更加耐久: 你可以使用不同的fsync政策:無fsync,每秒fsync,每次寫的時候fsync.使用預設的每秒fsync政策,Redis的性能依然很好(fsync是由背景線程進行處理的,主線程會盡力處理用戶端請求),一旦出現故障,你最多丢失1秒的資料.
AOF檔案是一個隻進行追加的日志檔案,是以不需要寫入seek,即使由于某些原因(磁盤空間已滿,寫的過程中當機等等)未執行完整的寫入指令,你也也可使用redis-check-aof工具修複這些問題.
Redis 可以在 AOF 檔案體積變得過大時,自動地在背景對 AOF 進行重寫: 重寫後的新 AOF 檔案包含了恢複目前資料集所需的最小指令集合。 整個重寫操作是絕對安全的,因為 Redis 在建立新 AOF 檔案的過程中,會繼續将指令追加到現有的 AOF 檔案裡面,即使重寫過程中發生停機,現有的 AOF 檔案也不會丢失。 而一旦新 AOF 檔案建立完畢,Redis 就會從舊 AOF 檔案切換到新 AOF 檔案,并開始對新 AOF 檔案進行追加操作。
AOF 檔案有序地儲存了對資料庫執行的所有寫入操作, 這些寫入操作以 Redis 協定的格式儲存, 是以 AOF 檔案的内容非常容易被人讀懂, 對檔案進行分析(parse)也很輕松。 導出(export) AOF 檔案也非常簡單: 舉個例子, 如果你不小心執行了 FLUSHALL 指令, 但隻要 AOF 檔案未被重寫, 那麼隻要停止伺服器, 移除 AOF 檔案末尾的 FLUSHALL 指令, 并重新開機 Redis , 就可以将資料集恢複到 FLUSHALL 執行之前的狀态。
對于相同的資料集來說,AOF 檔案的體積通常要大于 RDB 檔案的體積。
根據所使用的 fsync 政策,AOF 的速度可能會慢于 RDB 。 在一般情況下, 每秒 fsync 的性能依然非常高, 而關閉 fsync 可以讓 AOF 的速度和 RDB 一樣快, 即使在高負荷之下也是如此。 不過在處理巨大的寫入載入時,RDB 可以提供更有保證的最大延遲時間(latency)。
一般來說, 如果想達到足以媲美 PostgreSQL 的資料安全性, 你應該同時使用兩種持久化功能。
如果你非常關心你的資料, 但仍然可以承受數分鐘以内的資料丢失, 那麼你可以隻使用 RDB 持久化。
有很多使用者都隻使用 AOF 持久化, 但我們并不推薦這種方式: 因為定時生成 RDB 快照(snapshot)非常便于進行資料庫備份, 并且 RDB 恢複資料集的速度也要比 AOF 恢複的速度要快, 除此之外, 使用 RDB 還可以避免之前提到的 AOF 程式的 bug 。
Note: 因為以上提到的種種原因, 未來我們可能會将 AOF 和 RDB 整合成單個持久化模型。 (這是一個長期計劃。) 接下來的幾個小節将介紹 RDB 和 AOF 的更多細節。
在預設情況下, Redis 将資料庫快照儲存在名字為 dump.rdb的二進制檔案中。你可以對 Redis 進行設定, 讓它在“ N 秒内資料集至少有 M 個改動”這一條件被滿足時, 自動儲存一次資料集。你也可以通過調用 SAVE或者 BGSAVE , 手動讓 Redis 進行資料集儲存操作。
比如說, 以下設定會讓 Redis 在滿足“ 60 秒内有至少有 1000 個鍵被改動”這一條件時, 自動儲存一次資料集:
這種持久化方式被稱為快照 snapshotting.
當 Redis 需要儲存 dump.rdb 檔案時, 伺服器執行以下操作:
Redis 調用forks. 同時擁有父程序和子程序。
子程序将資料集寫入到一個臨時 RDB 檔案中。
當子程序完成對新 RDB 檔案的寫入時,Redis 用新 RDB 檔案替換原來的 RDB 檔案,并删除舊的 RDB 檔案。
這種工作方式使得 Redis 可以從寫時複制(copy-on-write)機制中獲益。
快照功能并不是非常耐久(dura ble): 如果 Redis 因為某些原因而造成故障停機, 那麼伺服器将丢失最近寫入、且仍未儲存到快照中的那些資料。 從 1.1 版本開始, Redis 增加了一種完全耐久的持久化方式: AOF 持久化。
你可以在配置檔案中打開AOF方式:
從現在開始, 每當 Redis 執行一個改變資料集的指令時(比如 SET), 這個指令就會被追加到 AOF 檔案的末尾。這樣的話, 當 Redis 重新啟時, 程式就可以通過重新執行 AOF 檔案中的指令來達到重建資料集的目的。
因為 AOF 的運作方式是不斷地将指令追加到檔案的末尾, 是以随着寫入指令的不斷增加, AOF 檔案的體積也會變得越來越大。舉個例子, 如果你對一個計數器調用了 100 次 INCR , 那麼僅僅是為了儲存這個計數器的目前值, AOF 檔案就需要使用 100 條記錄(entry)。然而在實際上, 隻使用一條 SET 指令已經足以儲存計數器的目前值了, 其餘 99 條記錄實際上都是多餘的。
為了處理這種情況, Redis 支援一種有趣的特性: 可以在不打斷服務用戶端的情況下, 對 AOF 檔案進行重建(rebuild)。執行 BGREWRITEAOF 指令, Redis 将生成一個新的 AOF 檔案, 這個檔案包含重建目前資料集所需的最少指令。Redis 2.2 需要自己手動執行 BGREWRITEAOF 指令; Redis 2.4 則可以自動觸發 AOF 重寫, 具體資訊請檢視 2.4 的示例配置檔案。
你可以配置 Redis 多久才将資料 fsync 到磁盤一次。有三種方式:
每次有新指令追加到 AOF 檔案時就執行一次 fsync :非常慢,也非常安全
每秒 fsync 一次:足夠快(和使用 RDB 持久化差不多),并且在故障時隻會丢失 1 秒鐘的資料。
從不 fsync :将資料交給作業系統來處理。更快,也更不安全的選擇。
推薦(并且也是預設)的措施為每秒 fsync 一次, 這種 fsync 政策可以兼顧速度和安全性。
伺服器可能在程式正在對 AOF 檔案進行寫入時停機, 如果停機造成了 AOF 檔案出錯(corrupt), 那麼 Redis 在重新開機時會拒絕載入這個 AOF 檔案, 進而確定資料的一緻性不會被破壞。當發生這種情況時, 可以用以下方法來修複出錯的 AOF 檔案:
為現有的 AOF 檔案建立一個備份。
使用 Redis 附帶的 redis-check-aof 程式,對原來的 AOF 檔案進行修複:
$ redis-check-aof –fix
(可選)使用 diff -u 對比修複後的 AOF 檔案和原始 AOF 檔案的備份,檢視兩個檔案之間的不同之處。
重新開機 Redis 伺服器,等待伺服器載入修複後的 AOF 檔案,并進行資料恢複。
AOF 重寫和 RDB 建立快照一樣,都巧妙地利用了寫時複制機制:
Redis 執行 fork() ,現在同時擁有父程序和子程序。
子程序開始将新 AOF 檔案的内容寫入到臨時檔案。
對于所有新執行的寫入指令,父程序一邊将它們累積到一個記憶體緩存中,一邊将這些改動追加到現有 AOF 檔案的末尾,這樣樣即使在重寫的中途發生停機,現有的 AOF 檔案也還是安全的。
當子程序完成重寫工作時,它給父程序發送一個信号,父程序在接收到信号之後,将記憶體緩存中的所有資料追加到新 AOF 檔案的末尾。
搞定!現在 Redis 原子地用新檔案替換舊檔案,之後所有指令都會直接追加到新 AOF 檔案的末尾。
在 Redis 2.2 或以上版本,可以在不重新開機的情況下,從 RDB 切換到 AOF :
為最新的 dump.rdb 檔案建立一個備份。
将備份放到一個安全的地方。
執行以下兩條指令:
redis-cli config set appendonly yes
redis-cli config set save “”
確定寫指令會被正确地追加到 AOF 檔案的末尾。
執行的第一條指令開啟了 AOF 功能: Redis 會阻塞直到初始 AOF 檔案建立完成為止, 之後 Redis 會繼續處理指令請求, 并開始将寫入指令追加到 AOF 檔案末尾。
執行的第二條指令用于關閉 RDB 功能。 這一步是可選的, 如果你願意的話, 也可以同時使用 RDB 和 AOF 這兩種持久化功能。
重要:别忘了在 redis.conf 中打開 AOF 功能! 否則的話, 伺服器重新開機之後, 之前通過 CONFIG SET 設定的配置就會被遺忘, 程式會按原來的配置來啟動伺服器。
在版本号大于等于 2.4 的 Redis 中, BGSAVE 執行的過程中, 不可以執行 BGREWRITEAOF 。 反過來說, 在 BGREWRITEAOF 執行的過程中, 也不可以執行 BGSAVE。這可以防止兩個 Redis 背景程序同時對磁盤進行大量的 I/O 操作。
如果 BGSAVE 正在執行, 并且使用者顯示地調用 BGREWRITEAOF 指令, 那麼伺服器将向使用者回複一個 OK 狀态, 并告知使用者, BGREWRITEAOF 已經被預定執行: 一旦 BGSAVE 執行完畢, BGREWRITEAOF 就會正式開始。 當 Redis 啟動時, 如果 RDB 持久化和 AOF 持久化都被打開了, 那麼程式會優先使用 AOF 檔案來恢複資料集, 因為 AOF 檔案所儲存的資料通常是最完整的。
在閱讀這個小節前, 請牢記下面這句話: 確定你的資料由完整的備份. 磁盤故障, 節點失效, 諸如此類的問題都可能讓你的資料消失不見, 不進行備份是非常危險的。
Redis 對于資料備份是非常友好的, 因為你可以在伺服器運作的時候對 RDB 檔案進行複制: RDB 檔案一旦被建立, 就不會進行任何修改。 當伺服器要建立一個新的 RDB 檔案時, 它先将檔案的内容儲存在一個臨時檔案裡面, 當臨時檔案寫入完畢時, 程式才使用 rename(2) 原子地用臨時檔案替換原來的 RDB 檔案。
這也就是說, 無論何時, 複制 RDB 檔案都是絕對安全的。
建立一個定期任務(cron job), 每小時将一個 RDB 檔案備份到一個檔案夾, 并且每天将一個 RDB 檔案備份到另一個檔案夾。
確定快照的備份都帶有相應的日期和時間資訊, 每次執行定期任務腳本時, 使用 find 指令來删除過期的快照: 比如說, 你可以保留最近 48 小時内的每小時快照, 還可以保留最近一兩個月的每日快照。
至少每天一次, 将 RDB 備份到你的資料中心之外, 或者至少是備份到你運作 Redis 伺服器的實體機器之外。
Redis 的容災備份基本上就是對資料進行備份, 并将這些備份傳送到多個不同的外部資料中心。容災備份可以在 Redis 運作并産生快照的主資料中心發生嚴重的問題時, 仍然讓資料處于安全狀态。
因為很多 Redis 使用者都是創業者, 他們沒有大把大把的錢可以浪費, 是以下面介紹的都是一些實用又便宜的容災備份方法:
Amazon S3 ,以及其他類似 S3 的服務,是一個建構災難備份系統的好地方。 最簡單的方法就是将你的每小時或者每日 RDB 備份加密并傳送到 S3 。 對資料的加密可以通過 gpg -c 指令來完成(對稱加密模式)。 記得把你的密碼放到幾個不同的、安全的地方去(比如你可以把密碼複制給你組織裡最重要的人物)。 同時使用多個儲存服務來儲存資料檔案,可以提升資料的安全性。
傳送快照可以使用 SCP 來完成(SSH 的元件)。 以下是簡單并且安全的傳送方法: 買一個離你的資料中心非常遠的 VPS , 裝上 SSH , 建立一個無密碼的 SSH 用戶端 key , 并将這個 key 添加到 VPS 的 authorized_keys 檔案中, 這樣就可以向這個 VPS 傳送快照備份檔案了。 為了達到最好的資料安全性,至少要從兩個不同的提供商那裡各購買一個 VPS 來進行資料容災備份。
需要注意的是, 這類容災系統如果沒有小心地進行處理的話, 是很容易失效的。最低限度下, 你應該在檔案傳送完畢之後, 檢查所傳送備份檔案的體積和原始快照檔案的體積是否相同。 如果你使用的是 VPS , 那麼還可以通過比對檔案的 SHA1 校驗和來确認檔案是否傳送完整。
另外, 你還需要一個獨立的警報系統, 讓它在負責傳送備份檔案的傳送器(transfer)失靈時通知你。
本文作者:陳群
本文來自雲栖社群合作夥伴rediscn,了解相關資訊可以關注redis.cn網站。