データセンタ管理はビッグデータ解析のキラーユースケース

本ブログエントリーはPernixData社のテクノロジーエバンジェリストであるFrank Denneman氏のブログの翻訳版です。 Frank氏について、詳しくはこちらもご参照ください。

本記事の原文はDatacenter management is the killer use case for Big Data analyticsで閲覧可能です。

ネットワールドのPernixDataに関する情報はこちら。本ブログのPernixDataの記事のまとめはこちら。

我々ITに身をおくものは持っている能力に比べ、遅いと評価されることがしばしばあります。クラウドコンピューティングを例に取ってみましょう。この30年あまり、我々はビジネスを助けるために、パッチワークだけにフォーカスしてきました。ビジネス運用を改善し、彼らのアクティビティを自動化することで、彼らの生産性を高めるか、(製品の)開発プロセスの一元性を担保してきたのです。今は、我々自身の内部のプロセスを自動化し、我々の展開操作の一元性を改善すべきタイミングに来ているのです。

同じような気付きがビッグデータによって起こっています。多くの会社組織がこれまでにわからなかった相関関係や隠れたパターン、マーケットのトレンド、顧客の特性や他のビジネスに有用な呪法をビッグデータ解析によって見つけようとしています。Hadoop クラスタのようなビッグデータシステムを展開されたことのある方も多いと思います。皮肉なことに、これはデータセンタサービスへも影響があり、新しいワークロードと消費されるリソースなどの隠れたパターンや隠れた相関性を見つけたり、既存のワークロードが将来新しいワークロードを格納するための能力にどのような影響をあたえるのかなどに役立つのです。

問題は、仮想化データセンタが各々別々のコンポーネントの積み重ねとして構成されていることです。全てのシステム、ホスト、スイッチ、ストレージシステムはログを取得され、それぞれのベンダーが必要な方法で可視化を行っています。情報の柔軟性の違い、時間間隔の違い、そして、出力フォーマットの違いがデータの相関付を非常に難しくしています。

更に問題なのは、ベンダーが出力フォーマットを固めたのがx86の仮想化が登場する以前出会ったということです。あらゆるものがあらゆる方法で仮想化データセンタの動的性を理解するのを極端に難しくしており、原因と結果(発生要因)と関係性(相関)の区別を難しくしているのです。

興味深いことに、ハイパーバイザーは非常にコンテキストリッチ(文脈を理解した)情報システムです。データを取得し、解析するためのデータを多く持ち、様々なリソースの利用状況と取得状況の全体像を把握することが出来るのです。これらのすべてのデータを展開し、処理することで、今現在のワークロードのパターンを理解することが出来るようになります。すべて同じ言葉、構造、フォーマットで巨大なデータの塊を取得することで、知られることのなかった相関や隠れたパターンを発見することが初めて可能になります。この十分なデータを持つことで、基本的に我々の想像力以外にそれを邪魔するものはなくなります。システムについての知識が増える度、新しいデータをマイニングすることができ、関係性を可視化し、原因と結果を判別できるようになるのです。これを行うこと自身でデータセンターの管理のプロセス、例えば運用や設計を見直すことが出来るのです。

こうした情報があれば、既存のワークロードを最適化したり、新しいワークロードのグループをどのシステムに載せるべきであると特定できるようになります。システムの状況を理解できるようになるため運用も変わります。それぞれのホストや仮想マシンをマイクロマネージメントするのではなく、クラスタの状況を監視できるようになります。つまり、新しいワークロードがどのようにクラスタの状況に影響をあたえるのか?を知ることが可能です。また、こうしたデータが有ればトレンド分析も行うことができ、ワークロードの季節変化なども知ることができます。なんども膨れ上がっているワークロードは何なのか?スケールアウト時に必要なリソース利用のトレンドとクラスタとホストの利用状況を本当に理解することが出来るのです。こうした情報はデータセンタの管理をこれまでとは違った形で行うことを可能にし、データセンタの設計をより正確に行う手助けとなります。

同じ言語、同じ構造、同じフォーマットですべてのデータを手に入れることのメリットはデータセンタを超えていけるということでもあります。各々のデータセンターのデータセットはITのライフサイクルの管理、既存のワークロードの展開や運用、改善し、将来のインフラストラクチャの設計に活用する上で非常に有用です。だけど、なぜそこで止める必要があるでしょうか?全ての仮想化データセンタで集められたこうしたすべてのデータはITのライフサイクルを改善する上でもっと役立ちます。同じサイズのデータセンタや、同じ業種のデータセンタを比較することで同じ仮想マシンが特定のホストシステム(Cisco対Dell対HP)で同じ仮想マシンを動作させた時のTCOを理解することができますし、どのストレージシステムを使うべきか、FVPを使うべきな否か、プライベートのデータセンターでやるのと、クラウドで動作させるのとでどちらがTCOが高いかなどの判断も行えます。こうした情報は今日のデータセンタ管理に置いては必要なものです。次のステップへと踏み出し、仮想化データセンタのITライフサイクルを改善するためにビッグデータ解析を活用する時が来ているのです。

VMworldのブース1023を訪れ、PernixData ArchitectとPernixData Cloudについて知っていただくことはこの次なる飛躍の手助けとなるはずです。

記事担当者: マーケティング本部三好哲生 (@pernixdata_netw)