« PernixData FVP リモートフラッシュアクセス | メイン | ヒット率が仮想ツールボックスの最初のチェック項目 »

2014/06/02

なぜなに Data Domain - 第一回 - Data Domain って何ですか?

 

中堅・中小企業にとって、バックアップは今目の前にある課題の一つです。増え続ける膨大なデータの効率保管、災害対策といった課題を解決するには、汎用ストレージでは膨大なサイズのディスクが必要となってきています。そこでバックアップの解決策の一つとして、昨今注目を集めつつあるバックアップ専用ストレージ製品である EMC社の Data Domain を紹介致します。

 

Dd_2

■Data Domain その特徴とは

読み方は Data Domain(データドメイン)と読みます。はい、普通の読み方ですね。略称は DD(ディーディー) と呼びます。

DDの代表的な機能は「重複排除」、「レプリケーション」こちらの2つです。上記ではバックアップ専用ストレージとして紹介していますが、もう少し詳しく言うと バックアップ専用重複排除ストレージです。重複排除機能前提で設計されており、重複排除機能を無効にすることはできません。

 

重複排除って何?という方、簡単に言うとデータのサイズを小さくする機能です。DDデータが流れてくると、重複排除という技術で書込みデータを小さくしてから書き込みます。そのため、大容量のデータでも少ないディスク容量で保存が可能なんですね。 

 

一押しの機能は、「レプリケーション」機能です。重複排除機能はDDの根幹を成す機能ですので除きます。無いと動きませんので。。。

後でも簡単に説明しますが、お手軽ポン!でできます。弊社の販売の約半数がレプリケーション構成で販売されています。非常に手軽に設定でき、また1対1、N対1、1対Nのレプリケーションなど柔軟な構成が可能で転送手法も非常に優秀です。

 

また、DDでは全モデルで共通のOSが搭載されていて、全モデルが同じ機能を使用できます。

OSが同じですので、操作UIも共通、下位モデルの機能制限もありませんので、「このモデルではあの機能は使えない」といったこともありません。基本的にバックアップ対象の容量によってDDのモデルを選択することになります。

モデル選定も楽ちんですね。

 

 

■重複排除で小さくするってどういうこと?

DDはバックアップデータを保存する際にデータを「ブロック」という単位に分け、保存します。

ブロックをどんどん保存していくと、全く同じブロックが出てきますが、全く同じブロックを見つけるとそのブロック自体は保存しないで保存したことにする。という手法でバックアップデータのサイズを小さくしています。図にするとこんな感じです。

Dd2_3

 

重複排除については第二回で詳しく説明致します。

 

よく分からないという方、DDの中でこびとさんが頑張ってデータを小さくしている!とお考えください。こびとさん、とてもとても優秀です。

 

 

■重複排除とバックアップは相性が良いんです

DDの核となる重複排除機能。この機能はバックアップとは非常に相性が良いです。

なぜなら、バックアップって同じデータを何度も取得しているんです!

知っている方は、「あたりまえ」って思ったかもしれませんね。はい、バックアップでは当たり前の行為ですよね。

毎日フルバックアップを行っている場合、そのほとんどのデータは更新されていない場合が多いです。

 

例えば、1TBのデータを毎日フルバックアップして1か月間保存している場合のバックアップデータの量は・・・

 

1TB x 30 = 30TB

 

バックアップデータ用に30TBのサイズが必要となります。

バックアップ用途に30TBもの容量なんてなかなか用意できませんよね。

 

そこで Data Domain です。

DDでは同じデータは重複排除機能で「データを保存したことにします」。そのため、DDに保存される容量は「変更のあったブロック」だけとなります。普通に使用していると、データの変更量は1日数%しかありません。また、初回のバックアップではバックアップデータサイズを50%ほど重複排除(小さく)できることが多いです。初回バックアップを50%、2回目以降のバックアップを5%で計算してみましょう。

 

初回バックアップ 1TB x 50% = 50% 500GB

2回目以降バックアップ 1TB x 5% x29 =1.45TB

0.5TB + 1.45TB = 1.95TB

 

バックアップ用途に必要な容量は2TB になりました。

1/15 程ですね。

 

上記の計算は一般的な重複排除率を元にしていますので、若干のブレはあると思いますがほんとにこれくらいは小さくなります。

ファイルサーバのバックアップでは重複排除率99%(1回のバックアップのデータ書き込み率1%)なんてあっという間です。

 

「データを保存したことにする」のはDD上の話しですので、バックアップソフトからはきちんと毎日フルバックアップが取られています。今回の例であれば、もちろん保存期間の1か月どの時点にもリストアすることができます。

 

 

■接続方法はNASと同じ。でも汎用ストレージとは違うのです

DDへの保存方法はCIFS、NFSのファイル・プロトコル、FCのブロック・プロトコルと多岐に渡ります。全ての接続方法を同時に使用することもできます。なんとユニファイドストレージです!

 

CIFS、NFSはNASと同じように共有フォルダに保存することができます。

FC接続は特殊で、VTL(仮想テープライブラリ)として構成します。バックアップサーバからはVTL、テープ装置として認識されます。

 

汎用ストレージでは、IOPS(時間当たりのI/O処理能力)やNASであれば同時接続数など多数の細かい処理を同時にこなす能力が求められますが、バックアップ専用ストレージで求められる能力は異なります。

・基本的にDDに接続するサーバはバックアップサーバのみです。

・バックアップデータの書き込み(Write)よりがDDの処理のほとんどを占め、データの読み取り(Read)はほとんど発生しません(基本的にリストア時のみ)。

・バックアップデータは大容量のバックアップファイルです。

・バックアップデータをリアルタイムに重複排除しています。

 

つまり、DDでは少数のバックアップサーバから大容量のバックアップデータをリアルタイムに重複排除する能力が求められます。大量の Write の重複排除処理が行えれば良いということですね。

DDではその能力に特化した設計となっていますので、NASのようにユーザが直接ファイルサーバとして使用するような構成ではDDの能力を全く発揮できません。良い子はマネしないでください。

 

重要ですのでもう一度言います。

DDはバックアップ専用ストレージです。NAS(ファイルサーバ)として使用してはいけません。

 

 

■ここが凄いよ Data Domain

先ほど出てきたお勧め機能のレプリケーション。何が凄いって、手軽に構成できるところです。

3 Stepで完了します。

 

Step1 レプリケーション先DDを登録します。 

Step2 レプリケーション元フォルダを選択します。

Step3 レプリケーション先フォルダを選択します。

Step4 レプリケーションを開始します。

 

以上!4 Step でした・・・

 

レプリケーションされるデータは重複排除された後のデータですので、初回同期後は更新データ量しか転送されません。その更新データも、レプリケーション先のDDに同じブロックがある場合は転送されませんのでデータの転送量はものすごく抑えられます。

もちろんWAN越しのレプリケーションも可能です。お手軽に災害対策ができてしまいます。

下の図は N対1 のレプリケーション例です。各拠点のバックアップデータをデータセンターに集約しています。こんな構成が簡単に組めてしまいます。

Dd3

 

よく分からないという方、こびとさんが頑張ってデータを飛ばしている!とお考えください。こびとさん、とてもとても頑張り屋さんです。

 

予想以上に長文になってきました。詳細は次回以降にご紹介致します。

 

 

もう一つの凄いところ、Data Domain Boost Software(DD Boost)による重複排除処理の分散化。

突然 DD Boost なるフレーズが出てきました。

これは重複排除機能をバックアップサーバにやらせてしまおうという機能です。

バックアップサーバで重複排除を行うことで、DDの負担が軽くなり、複数バックアップ時の処理能力が上がります。バックアップサーバが多い場合に有効な機能です。

また、これまでは重複排除処理はDD内で行っていましたので、すべてのバックアップデータはDDまで転送されていました。バックアップサーバで重複排除を行うと、[バックアップサーバ - Data Domain ] 間に流れるデータは重複排除後の小さくなったデータですのでネットワークの負荷も軽減できます。

レプリケーション制御もバックアップソフトから行えるようになりますので、データフローの把握も一元化できます。

 

現在はEMC社のバックアップ製品 Avamar, Netorker やその他の一部のバックアップ製品のみ対応となっていますが、対応製品や機能もよくアップデートされているDDの中心機能の一つです。

下の図は、DD Boost の概念図です。この図だけ見てもちょっと難しいですね、こちらの機能についても今後紹介していきます。

 

Dd4

 

よく分からないという方、バックアップサーバへのこびとさんの出張機能とお考えください。こびとさん、酷使しすぎですね・・・

 

 

■意外と安かったエントリーモデル

Dd5

 

DDはEMC社の製品です。

「良い製品っぽいけど、お高いんじゃないかしら」と思った方、DDは意外とお財布に優しいです。

 

100TB~などの上位モデルはもちろんそれなりに値段が張りますがDD160のエントリーモデルでは1ドライブ8スロットのオートローダーテープ装置と比べてもなかなか良い価格です。テープメディアが不要ということを考えるとDDの方が安い場合もあるかもしれません。

 

さぁ、今すぐネットワールド営業までご相談ください。

限定○台、おひとり様○台までとはいいません。好きなだけお買い上げ頂けます。


因みに「Data Domain」のキーワードで Google 検索をかけると弊社HPが最初に出てきます。

 

■まとめ

ここまで読んで下さった皆様。Data Domainのまとめです。Data Domainとは、


 

・重複排除機能を持つ、バックアップの保存先専用ストレージです。

・バックアップサーバからはCIFS、NFS、FC等で接続します。

・NAS(ファイルサーバ)のように使用することができますが、絶対にNAS(ファイルサーバ)として使用してはいけません。

・レプリケーションが得意です。

・DD Boost という重複排除機能の拡張機能も持っています。

・意外と安かったりもします。

 

今回はData Domain 紹介の初回ということでさわり程度の記事にしようと思っていましたが、思ってた以上にボリュームが出てしまいました。設計はシンプルですが、意外と多機能で色々な使い方もできる良い製品です。

今回紹介しきれなかった、使い方や機能については次回以降随時紹介していきます。

デストリビュータだからこそできる、DDの苦手な分野や、あれはできない、などの紹介も交えていきたいと思います。

 

それでは、次回も宜しくお願い致します。

 

担当 斉藤・吉田

トラックバック

このページのトラックバックURL:
http://bb.lekumo.jp/t/trackback/655727/32269797

なぜなに Data Domain - 第一回 - Data Domain って何ですか?を参照しているブログ: