天天看點

絕了!一個 rm-rf 把公司整個資料庫删沒了...

點選上方“Python程式設計與實戰”,選擇“置頂公衆号”

第一時間擷取 Python 技術幹貨!

絕了!一個 rm-rf 把公司整個資料庫删沒了...

作者:zhouyu

來源:https://www.cnblogs.com/zhouyu629/p/3734494.html

經曆了兩天不懈努力,終于恢複了一次誤操作删除的生産伺服器資料。

對本次事故過程和解決辦法記錄在此,警醒自己,也提示别人莫犯此錯。

也希望遇到問題的朋友能找到一絲靈感解決問題。

01

事故背景

安排一個妹子在一台生産伺服器上安裝 Oracle,妹子邊研究邊安裝,感覺裝的不對,準備解除安裝重新安裝。

從網上找到解除安裝方法,其中要執行一行指令删除 Oracle 的安裝目錄,指令如下:

rm -rf $ORACLE_BASE/*

           

如果 ORACLE_BASE 這個變量沒有指派,那指令就變成了:

rm -rf /*

           

等等,妹子使用的可是 Root 賬戶啊。就這樣,把整個盤的檔案全部删除了,包括應用 Tomcat、MySQL 資料庫 and so on......

MySQL 資料庫不是在運作嗎?Linux 能删除正在執行的檔案?反正是徹底删除了,最後還剩一個 Tomcat 的 Log 檔案,估計是檔案過大,一時沒有删除成功。

看着妹子自責的眼神,又是因為這事是我安排她做的,也沒有跟她講清厲害關系,沒有任何教育訓練,責任隻能一個人背了,況且怎麼能讓美女背負這個責任呢?

打電話到機房,将盤挂到另一台伺服器上,SSH 上去檢視檔案全部被清,這台伺服器運作的可是一個客戶的生産系統啊,已經運作大半年了,得盡快恢複啊。

于是找來脫機備份的資料庫,發現備份檔案隻有 1KB,裡面隻有幾行熟悉的 mysqldump 注釋(難道是 Crontab 執行的備份腳本有問題),最接近的備份也是 2013 年 12 月份的了,真是屋漏偏逢連夜雨啊。

想起來一位上司說過的案例:當一個生産系統挂掉以後,發現所有備份都有問題,刻錄的CD光牒也有劃痕,錄音帶機也壞了(一個業界前輩,估計以前還用CD光牒做備份了),沒想到今天真的應驗到我的身上了,怎麼辦?

部門上司知道情況後,已經做了最壞的 B 計劃:上司親自帶隊和産品 AA 周日趕到客戶所在的地市,星期一去上司層溝通;BB 和 CC 去客戶管理者那邊想辦法說服客戶......

02

救命稻草:ext3grep

趕快到網上去查資料進行誤删資料恢複,還真找到一款 ext3grep 能夠恢複通過 rm -rf 删除的檔案,我們磁盤也是 ext3 格式,且網上有不少的成功案例。

于是燃起了一絲希望,趕快對盤 umount,防止重新寫入補删檔案扇區。下載下傳 ext3grep,安裝(編譯安裝過程艱辛暫且不表)。

先執行掃描檔案名指令:

ext3grep /dev/vgdata/LogVol00 --dump-names

           

列印出了所有被删除檔案及路徑,心中狂喜,不用執行 B 計劃了,檔案都在呢。

這款軟體不能按目錄恢複檔案,隻能執行恢複全部指令:

ext3grep /dev/vgdata/LogVol00 --restore-all

           

結果目前盤空間不足,沒辦法隻能恢複檔案,嘗試了幾個檔案,居然部分成功部分失敗:

ext3grep /dev/vgdata/LogVol00 --restore-file var/lib/mysql/aqsh/tb_b_attench.MYD

           

心裡不禁一涼,難道是删除磁盤上被寫過檔案了?恢複機率不大了啊,能恢複幾個算幾個吧,說不定重要資料檔案剛好在能恢複的 MYD 檔案中。

于是先将所有檔案名重定向到一個檔案檔案中:

ext3grep /dev/vgdata/LogVol00 --dump-names >/usr/allnames.txt

           

過濾出來所有 MySQL 資料庫的檔案名存成 mysqltbname.txt。

編寫腳本恢複檔案:

while read LINE
do
    echo "begin to restore file " $LINE
    ext3grep /dev/vgdata/LogVol00 --restore-file $LINE
    if [ $? != 0 ]
    then
        echo "restore failed, exit"
       # exit 1
    fi
done < ./mysqltbname.txt

           

執行,大概運作了 20 分鐘,恢複了 40 多個檔案,但不夠啊,我們将近 100 張表,每張表 frm,myd,myi 三個檔案,怎麼說也有 300 多個左右啊!

将找回來的檔案附到現有資料庫上,更要檔案權限為 777 後,重新開機 MySQL,也算是找回一部分資料了,但客戶重要的考勤簽到資料、手機端上報資料(據說客戶按這些資料做員工績效的)還沒找回來啊。

咋辦?中間又試了另一款工具 extundelete,跟 ext3grep 文法基本一緻,原理應該也一樣了,但是據說能按目錄恢複。

好吧,試一試:

extundelete /dev/vgdata/LogVol00 --restore-directory var/lib/mysql/aqsh

           

果然不出所料,恢複不出來!!!!!!!!那些檔案已被破壞了。跟上司彙報,執行 B 計劃吧......無奈之下下班回家。(周末了,回去休息一下,想想辦法吧)

03

靈機一動:Binlog

第二天早晨一早就醒了(心裡有事啊),背上電腦,去公司(這個周末算是報帳了,不挨批,通報,罰款,開除就不錯了,還過什麼周末啊)。

依舊運作 ext3grep,extundelete,也就那幾招啊,把系統架到測試伺服器上,看看資料能不能想辦法補一補吧。

在測試伺服器上進行 mysqldump,恢複檔案,覆寫恢複回來的檔案,給檔案權重限,重新開機 MySQL。

Wait,Wait,不是有 Binlog 嗎?我們服務都要求開啟 Binlog,說不定能通過 Binlog 裡恢複資料呢?

于是從 Dump 出來的檔案名裡找到 Binlog 的檔案,一共三個:

  • mysql-binlog0001
  • mysql-bin.000009
  • mysql-bin.000010

恢複一下 0001:

ext3grep /dev/vgdata/LogVol00 --restore-file var/lib/mysql/mysql-bin.000001

           

居然失敗了......再看另兩個檔案,mysql-bin.000010 大概幾百 MB,應該靠譜一點,執行還原指令,居然成功了!

趕快 SCP 到測試伺服器。執行 Binlog 還原:

mysqlbinlog /usr/mysql-bin.000010 | mysql -uroot -p

           

輸入密碼,卡住了(好現象),經過漫長的等待,終于結束了。打開應用,哦,感謝 CCTV,MTV,資料回來了!

04

後記

也希望謹記此次事故,以後不再犯同樣的錯誤。事故反思如下:

  • 本次安排 MM 進行伺服器維護時沒有提前對她進行說明厲害情況,自己也未重視,管理混亂,流程混亂。一個線上的生産系統,任何一個改動一定要先謀而後動。
  • 自動備份出現問題,沒有任何人檢查。脫機備份人員每次從伺服器上下載下傳 1K 的檔案卻從未重視。需要明确大家在工作崗位上的責任。
  • 事故發生後,沒有及時發現,造成部分資料寫入磁盤,造成不可恢複問題。需要編寫應用監控程式,服務一旦有異常,短信告警相關責任人。
  • 不能使用 Root 使用者來操作。應該在伺服器上開設不同權限級别的使用者。

這裡給大家分享下本文所用到的工具連結:

 1.ext3grep:

下載下傳位址:https://code.google.com/p/ext3grep/

編譯安裝依賴包比較多,可以到網上搜尋如何安裝。可惜的是作者給出的 howto被牆了,我翻牆将 how to 的 pdf 文檔下載下傳下來了,讀完後你将會對 linux 的檔案系統有進一步的認識。下載下傳 howto

這個工具有一個 Bug,出錯後不會向下執行:

ext3grep: init_directories.cc:534: void init_directories(): Assertion `lost_plus_found_directory_iter != all_directories.end()' failed.

           

進而造成恢複失敗,作者放出了一個更新檔,下載下傳位址:https://ext3grep.googlecode.com/issues/attachment?aid=3222478933841854269&name=lostfound_missing.patch&token=ABZ6GAfPeDpgvmC7lK0tdcQCktSl6-dODw%3A1400329392182。

2. extundelete:

下載下傳位址:http://extundelete.sourceforge.net/

功能跟 ext3grep 差不多,原理應該也差不多。

最後希望各位同行的小夥伴們能謹記本文事件,開心敲代碼,永遠不出錯~

—— 推 薦 閱 讀 ——

一個高性能的web服務是如何搭建的?

一文讀懂Python web架構和web伺服器之間的關系

Flask 藍圖機制及應用

利用 Flask 動态展示 Pyecharts 圖表資料的幾種方法

點個“在看”必升職加薪喔