引以為戒：記一次心驚肉跳的伺服器誤删檔案的恢複過程

<b></b>

經曆了兩天的不懈努力，終于恢複了一次誤操作删除的生産伺服器資料。對本次事故過程和解決辦法記錄在此，警醒自己，也提示别人莫犯此錯。也希望遇到問題的朋友能找到一絲靈感解決問題。

1 事故背景

安排一個妹子在一台生産伺服器上安裝oracle，妹子邊研究邊安裝，感覺裝的不對，準備解除安裝重新安裝。從網上找到解除安裝方法，其中要執行一行指令删除oracle的安裝目錄，指令如下：

rm -rf $oracle_base/*

如果oracle_base這個變量沒有指派，那指令就變成了：

rm -rf /*

= =妹子使用的可是root賬戶啊。就這樣，把整個盤的檔案全部删除了，包括應用tomcat、mysql資料庫 and so on……

（mysql資料庫不是在運作嗎？linux能删除正在執行的檔案？反正是徹底删除了，最後還剩一個tomcat的log檔案，估計是檔案過大，一時沒有删除成功）

看着妹子自責的眼神，又是因為這事是我安排她做的，也沒有跟她講清利害關系，沒有任何教育訓練，責任隻能一個人背了，況且怎麼能讓美女背負這個責任呢？

打電話到機房，将盤挂到另一台伺服器上，ssh上去檢視檔案全部被清，這台伺服器運作的可是一個客戶的生産系統啊，已經運作大半年了，得盡快恢複啊。于是找來脫機備份的資料庫，發現備份檔案隻有1kb，裡面隻有幾行熟悉的mysqldump注釋（難道是crontab執行的備份腳本有問題），最接近的備份也是2013年12月份的了，真是屋漏偏逢連夜雨啊。

想起來一位上司說過的案例：當一個生産系統挂掉以後，發現所有備份都有問題，刻錄的CD光牒也有劃痕，錄音帶機也壞了（一個業界前輩，估計以前還用CD光牒做備份了），沒想到今天真的應驗到我的身上了，怎麼辦？

部門上司知道情況後，已經做了最壞的b計劃：上司親自帶隊和産品aa周日趕到客戶所在的地市，星期一去上司層溝通；bb和cc去客戶管理者那邊想辦法說服客戶……

2 救命稻草--ext3grep

趕快到網上去查資料進行誤删資料恢複，還真找到一款ext3grep能夠恢複通過rm -rf删除的檔案，我們磁盤也是ext3格式，且網上有不少的成功案例。于是燃起了一絲希望，趕快對盤umount，防止重新寫入補删檔案扇區。下載下傳ext3grep，安裝（編譯安裝過程艱辛暫且不表）。

先執行掃描檔案名指令：

ext3grep /dev/vgdata/logvol00 --dump-names

列印出了所有被删除檔案及路徑，心中狂喜，不用執行b計劃了，檔案都在呢。

這款軟體不能按目錄恢複檔案，隻能執行恢複全部指令：

ext3grep /dev/vgdata/logvol00 --restore-all

結果目前盤空間不足，沒辦法隻能恢複檔案，嘗試了幾個檔案，居然部分成功部分失敗。

ext3grep /dev/vgdata/logvol00 --restore-file var/lib/mysql/aqsh/tb_b_attench.myd

心裡不禁一涼，難道是删除磁盤上被寫過檔案了？恢複機率不大了啊，能恢複幾個算幾個吧，說不定重要資料檔案剛好在能恢複的myd檔案中。于是先将所有檔案名重定向到一個檔案檔案中：

ext3grep /dev/vgdata/logvol00 --dump-names >/usr/allnames.txt

過濾出來所有mysql資料庫的檔案名存成，mysqltbname.txt

編寫腳本恢複檔案：

執行，大概運作了20分鐘，恢複了40多個檔案，但不夠啊，我們将近100張表，每張表frm，myd，myi三個檔案，怎麼說也有300多個左右啊！将找回來的檔案附到現有資料庫上，更要檔案權限為777後，重新開機mysql，也算是找回一部分資料了，但客戶重要的考勤簽到資料、手機端上報資料（據說客戶按這些資料做員工績效的）還沒找回來啊。

咋辦？中間又試了另一款工具extundelete，跟ext3grep文法基本一緻，原理應該也一樣了，但是據說能按目錄恢複，好吧試一試。

extundelete /dev/vgdata/logvol00 --restore-directory var/lib/mysql/aqsh

果然不出所料，恢複不出來！那些檔案已被破壞了。跟上司彙報，執行b計劃吧……無奈之下下班回家（周末了，回去休息一下，想想辦法吧）

3 靈機一動：binlog

第二天早晨一早就醒了（心裡有事啊），背上電腦，去公司（這個周末算是報帳了，不挨批，通報，罰款，開除就不錯了，還過什麼周末啊）。

依舊運作ext3grep，extundelete，也就那幾招啊，把系統架到測試伺服器上，看看資料能不能想辦法補一補吧。在測試伺服器上進行mysqldump，恢複檔案，覆寫恢複回來的檔案，給檔案權重限，重新開機mysql。

wait，wait，不是有binlog嗎？我們服務都要求開啟binlog，說不定能通過binlog裡恢複資料呢？

于是從dump出來的檔案名裡找到binlog的檔案，一共三個，mysql-binlog0001，mysql-bin.000009，mysql-bin.000010，恢複一下0001。

ext3grep /dev/vgdata/logvol00 --restore-file var/lib/mysql/mysql-bin.000001

居然失敗了……

再看另兩個檔案，mysql-bin.000010大概幾百mb，應該靠譜一點，執行還原指令，居然成功了！

趕快scp到測試伺服器。執行binlog還原。

mysqlbinlog /usr/mysql-bin.000010 | mysql -uroot -p

輸入密碼，卡住了（好現象），經過漫長的等待，終于結束了。打開應用，哦，感謝cctv、mtv，資料回來了！

4 後記

經過此次事故，雖然資料很幸運能找回來了，但過程卻是驚心動魄的。也為自己的錯誤所帶來的後果，給同僚和上司帶來的連帶責任而後怕。也希望謹記此次事故，以後不再犯同樣的錯誤。事故反思如下：

本次安排mm進行伺服器維護時沒有提前對她進行說明利害情況，自己也未重視，管理混亂，流程混亂。一個線上的生産系統，任何一個改動一定要先謀而後動。

自動備份出現問題，沒有任何人檢查。脫機備份人員每次從伺服器上下載下傳1k的檔案卻從未重視。需要明确大家在工作崗位上的責任。

事故發生後，沒有及時發現，造成部分資料寫入磁盤，造成不可恢複問題。需要編寫應用監控程式，服務一旦有異常，短信告警相關責任人。

不能使用root使用者來操作。應該在伺服器上開設不同權限級别的使用者。

通過本次事故，幾位跟這個項目和事故沒有任何關系的同僚，主動前來幫忙，查資料，幫測試，有一位同僚還幫忙到晚上1點多鐘進行資料恢複測試。同時産品經理在想到面向客戶的巨大壓力的情況下，沒有慌亂而責怪開發人員和具體操作人，而讓大家能靜下心來想解決方案。部門上司也積極主動的幫忙想辦法，陪我們加班測試，實時跟蹤事情程序。

通過大家的共同努力，終于事情相對圓滿結束，接下來，周一上午進行集體反思，總結經驗教訓，這類事故一定盡量大努力進行避免。

本文所用到的工具連結：

1、ext3grep：https://code.google.com/p/ext3grep/

編譯安裝依賴包比較多，可以到網上搜尋如何安裝。可惜的是作者給出的howto被牆了，我fq将how to 的pdf文檔下載下傳下來了，讀完後你将會對linux的檔案系統有進一步的認識。下載下傳howto。

這個工具有一個bug，出錯後不會向下執行ext3grep: init_directories.cc:534: void init_directories(): assertion `lost_plus_found_directory_iter != all_directories.end()' failed.，進而造成恢複失敗，作者放出了一個更新檔，下載下傳位址：更新檔下載下傳（連結：https://ext3grep.googlecode.com/issues/attachment?aid=3222478933841854269&name=lostfound_missing.patch&token=abz6gafpedpgvmc7lk0tdcqcktsl6-dodw%3a1400329392182）。不明白為什麼作者的新版沒有把這個更新檔加進去。

2、extundelete：http://extundelete.sourceforge.net/

功能跟ext3grep差不多，原理應該也差不多。隻是号稱可以還原目錄，我這裡沒有試驗成功。

作者介紹 zhouyu

進階研發工程師，現就職于某大型國企，熟悉java、php等開發語言及oracle等主流資料庫，熟練掌握響應式軟體開發，跨平台app開發。熟悉cmmi和scrum軟體開發模型，有多年外企開發和管理經驗。

<b>本文來自雲栖社群合作夥伴"dbaplus"，原文釋出時間：2016-08-31</b>

引以為戒：記一次心驚肉跳的伺服器誤删檔案的恢複過程

繼續閱讀

Ubuntu16.04安裝Apache+MySQL+PHP1. 安裝Apache2. 安裝MySQL3. 安裝PHP4. 安裝phpMyAdmin

Linxu常用指令技巧彙總

ERROR 1 (HY000): Can't create/write to file '/tmp/#sql_4188_1.MYI' (Errcode: 28)

艱難安裝LDAP,SSL認證

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

MySQL的4種隔離級别？出現問題

XX系統實施過程問題總結

無元件上傳圖檔到資料庫中，最完整解決方案

【MySQL資料庫】資料庫索引事務1.索引2.事務

neo4j之cypher使用文檔

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

mysql使用source指令導入.sql檔案

登入plsql 報錯 the account is locked --使用者被鎖

SequoiaDB巨杉資料庫C++驅動概述

Oracle 批量查詢傳入List 傳回List