なぜなに Data Domain - 第二回 - Data Domain の重複排除でバックアップの悩みを解決!

こんにちは。

バックアップ管理者の皆様、バックアップ管理でこんなお悩みはお持ちではありませんか？

バックアップデータの増加

データ増加によるストレージ容量不足

大容量データバックアップのため、バックアップ時間が増加

大容量データバックアップのため、テープが1本で収まらず、複数のテープが必要

テープ媒体によるバックアップ運用管理の負担増加　（テープ交換）


このような悩みの種は『重複排除バックアップ』で解決します。
今回はData Domainに搭載されている機能の一つである
『重複排除』についてご紹介します。 

『重複排除』とは
バックアップ対象データを解析して重複しているデータを自動で検出して排除し、
変更点があったブロックのみをバックアップします。これにより保存先の
ストレージ容量を削減して効率よくストレージを管理することが出来ます。
重複したデータを取り除く技術から英語では『De-duplication』と
呼びます。

[E:shine] 次は重複排除の方式を見ていきましょう！ 

『インライン方式』 ・ 『ポストプロセス』
重複排除について見てきましたが、次は重複排除の方式について説明します。
重複排除には主に『インライン方式』と『ポストプロセス方式』の
2種類の方式があります。

『インライン方式』
ディスクにデータを書き込む前にデータの重複排除の処理が実行されます。

■『インライン方式』の利点は以下になります。

・　重複排除データがディスクに書かれることがないため、ディスク容量を
　　削減することが可能です。

・　バックアップと同時に重複排除されますので、レプリケーション機能を
　　搭載している重複排除ストレージであれば、災害対策としてより早く
　　重複排除済みのデータをレプリケーションすることが可能です。

『ポストプロセス方式』
データの書き込みと重複排除の処理を切り離して行います。
データは一度ディスクに保存してから重複排除の処理が実行されます。
最初にデータを書き込むためのディスク領域（バッファ）が必要になります。


■『ポストプロセス方式』の利点は以下になります。

・　インライン方式に比べて、より複雑で時間のかかる重複排除・圧縮処理を
    適用することで詳細な重複排除処理を実現可能にします。


図にすると『インライン方式』と『ポストプロセス』は
こんな感じになります。


[E:flair]　
Data Domain は『インライン方式』を採用しておりますので、
重複排除を行なうバッファ領域を必要としないため、ストレージ容量を
削減して効率よく重複排除排を実現することが可能です。


[E:shine] 次は重複排除の単位を見ていきましょう！


『重複排除』の単位
重複排除の方式について見てきましたが、次は重複排除の
単位について説明します。重複排除の単位は重複排除の効果に
左右しますので、とても重要になります。
主な重複排除製品で利用されている『重複排除』の単位は以下になります。

　　◆ 『固定長ブロック単位』
　　◆ 『可変長ブロック単位』 

『固定長ブロック単位』
書き込みされたデータを決まった固定長（4KB,8KB,12KBなど）の
固定サイズに分割して重複排除を行ないます。
図にすると『固定長ブロック単位』はこんな感じになります。


『可変長ブロック単位』

書き込みされたデータを数KB～数百KBの可変サイズに分割して
重複排除を行ないます。Data Domainは4-12KBの可変サイズに分割しています。
図にすると『可変長ブロック単位』はこんな感じになります。

3_2


[E:flair] 
Data Domain は『可変長ブロック単位』を採用しておりますので、
『固定長ブロック単位』の仕組みより多くの重複排除部分を探しだし、
高い重複排除効果とストレージ容量の削減効果を得られます。


  次は重複排除の仕組みについて見ていきましょう！

『重複排除の仕組み』
重複排除の方式を見てきましたが、次はData Domainが行う
『重複排除の仕組み』について説明します。
Data Domainの重複排除は5つの処理動作で重複排除を行います。
　　
　　１　データストリームをメモリ（NVRAM）に転送
　　２　セグメントの作成（可変長ブロック単位）
　　３　セグメント別にフィンガー・プリント作成
　　４　セグメントが一意かどうか検証
　　５　一意のセグメントを保存


図にするとこんな感じです。

次は重複排除の実測値について見ていきましょう！

『重複排除の実測値（圧縮を含む）』
重複排除の仕組みについて見てきましたが、Data Domain に
書き込みした際のデータサイズに実測値について見て行きましょう。


『一般的なデータセットにおける重複排除の
 実測値（圧縮を含む）』

データの種別によって、重複排除率（圧縮含む）は異なりますが、
Data Domain は毎回蓄積されるデータを排除し、変更ブロックのみを
保存するので、必要となるストレージの容量を大幅に削減できます。
初回のフルバックアップ時には平均　50～60%、2回目以降は
平均90%の削減効果を発揮します。


 『Microsoft SQLデータベースのダンプファイルの
  一般的なデータセットにおける重複排除の
  実測値（圧縮を含む）』 
 
Data Domain の管理画面ではData Domainaに
『書き込み前のデータ容量』と『書き込み後のデータ容量』を
確認することが可能です。

　『Pre-Compression』：104.8GB　重複排除前
　『Post-Compresion』：13.2GB　重複排除後（圧縮を含む）

上記、管理画面にてSQLの初回バックアップでは
重複排除率（圧縮を含む）が87.4% の高い重複排除率（高圧縮率）で
データが書き込みされていることが確認できます。


■　まとめ
Data Domainは管理者様が抱えていた悩みを優れた重複排除機能で解決し、
管理者様のバックアップ管理の負担を軽減することができる良い製品です。

Data Domainは多数の機能を搭載しておりますので、
次回は重複排除以外の機能をご紹介したいと思います。

それでは次回もよろしくお願い致します。

担当　斉藤・吉田