天天看點

我曾經對重複資料删除的一些誤解(一)

如今對于一個企業資料存儲容量壓力越來越大,因為随着企業的成長與發展,資料量也随之的成長起來,為此企業急需一門技術,能夠把儲存設備中重複的資料删除,以確定在儲存設備中存儲的是獨一無二的檔案。是以重複資料删除技術在近幾年中火熱起來,也是中小型企業追捧的技術。資料删除技術初衷很簡單,就是把重複部分除備援檔案、位元組或者資料塊減少成一項。它的目的也很簡單,就是為了保證存儲的資料檔案檔案不重複,進而減少資料容量。可是由于種種原因我曾經對于這種技術還存在着一些誤解。之後消除了這些誤區,對我之後使用重複資料删除技術來增加儲存設備的使用率很關鍵。

後期處理重複資料删除技術真的是後期嗎?

重複資料删除技術根據其實作的方式可以分為“聯機重複資料删除技術”和“後期處理重複資料删除技術”。兩個技術各有各的特點。後期處理重複資料删除技術這個名字有些容易讓人誤解,之前我一直誤認為後期處理重複資料删除方式是當所有資料備份過程結束後才進行驗證、删除操作的。之後我才知道我的了解是大錯特錯了。

其實後期處理重複資料删除技術通常是在虛拟的錄音帶媒體寫入備份資料後就開始進行工作了。也就是說實在等待虛拟錄音帶寫滿之後就開始。當然這中間根據需要有一定的延遲。如存儲管理者可以根據不同的情況對這個延遲進行設定。可以隻延遲短短的幾分鐘,也可以延遲幾個小時。延遲時間具體為多少,主要還是根據企業的實際情況來選擇。我現在通常是将這個作業放在伺服器比較空閑的時候進行,此時就會把這個延遲設定的比較長一點,如等到下班後進行等等。

這裡需要注意的是一般情況下,為了提高資料備份的效率,會對資料備份進行分組管理。此時等待時間是從第一組備份任務傳送備份資料流開始算起。當第一盤虛拟的備份錄音帶寫滿或者第一組備份資料寫入結束後,重複資料删除處理就不存在延遲等待問題。這主要是因為當系統在進行前一組寫入備份資料進行重複資料删除處理時,被分系統可以繼續往後續虛拟錄音帶媒體中寫入第二組的備份資料。簡單的說,就是重複資料處理作業與備份資料的寫入作業可以獨立運作。進而提高資料處理的效率。

後期處理重複資料删除是否會降低整體備份的效率。

從前我一直認為後期處理重複資料删除是否會降低整體備份的效率,如果光從技術上看,确實是這樣的。重複删除方式不僅會占用伺服器的資源。而且重複删除方式存在着一定的延遲。但是這是一個比較孤立的觀點。因為根據現在的重複資料删除技術,完全可以通過合理的配置來消除這種負面影響。

在實際工作中,我發現後期處理重複資料删除技術降低了資料備份的效率,那麼可以通過如下幾種方式來消除這個不利影響。一是可以将重複資料删除技術配置設定到多個單獨的伺服器上來分擔伺服器的壓力。一般情況下在對已寫入的備份資料進行重複資料删除時,不同的處理引擎往往會通路同一磁盤陣列。不過現在的技術可以使得他們通路同一磁盤陣列的不同區域。換句話說,就是可以實作高速的并發處理。這樣的話,就不會和持續寫入的備份資料流産生任何的沖突,進而不會影響資料備份的效率。二是可以适當調整資料延遲的時間。如可以縮短延遲時間,或者适當延長延遲時間避開資料備份的高峰時間等等。

是以我認為後期處理重複資料删除技術在一定程度上确實會影響到資料備份的整體效率。但是可以通過合理的配置這個負面影響降低到最低的程度。至少與其優勢相比,讓着個弊端可以忽略。