株式会社ネットワールドのエンジニアがお届けする技術情報ブログです。
各製品のエキスパートたちが旬なトピックをご紹介します。

アラートがでない、それは大きな問題だ : Prism Centralとバックアップの期待値の話

本記事の原文はNutanixコミュニティのブログNutanix Connect Blogの記事の翻訳ヴァージョンです。原文の著者はNutanix社のSr Technical Marketing EngineerのDwayne Lessner氏です。原文を参照したい方はNo Alerts, Big Problems: A Story of Expectations with Prism Central and Backupsをご確認ください。情報は原文の投稿時のままの情報ですので、現時点では投稿時の情報と製品とで差異が出ている場合があります。

当社のNutanix社製品についてはこちら。本ブログのNutanix関連記事のまとめページこちら

ネットワールドのNutanix関連情報はぜひ以下のポータルから取得ください(初回はID、パスワードの取得が必要です)。

Fig365

過去に何度も私はバックアップソフトウェアの様々な部分でちょっと遊んでみたことが有ります。バックアップソフトウェアでの仕事はかっこいい仕事だとは思いませんが、VPの予算のスプレッドシートを復元してあげるようなときにはちょっと鼻が高かったりするもんです。ですが、もしもバックアップがうまく動かないということが手遅れになる前にわかるような方法があるもんでしょうか?もしも数百TBものバックアップを毎日行っているとしたら、バックアップの問題が他のシステムへ大惨事を引き起こす前にすべてを終えておかねばならず、時間の制約もしっかりとしたものになっているはずです。翌朝出社して、バックアップが失敗しているのを見つけるのは本当にがっかりすることですし、それが2,3日続くと更に酷いになります。ここでの問題の一部はいくつかのジョブが止まってしまう、もしくは非常に遅くなってしまい、失敗していない状態で居続けることです。バックアップジョブが失敗していないのですから、当然バックアップソフトウェアはアラートを出すことはありません。

AOS 5.5のリリースとともに、我々はPrism Central(PC)の5.5もリリースしました。PC 5.5には機械学習の機能を内包しており、継続的なリソースの利用率の分析と、リソースの消費の監視、おかしな振る舞いの発見、そして、リソースの計画を行うなどのツールを提供しています。パフォーマンスやリソースの利用率が学習した仮想マシンの振る舞い予測される幅からはみ出た場合にこの追加された不具合検知は記録を行います。不具合検知モジュールは5分毎に利用率を計測し、その値を予測される値と比較を行います。もしも計測値が幅を外れていた場合、その値は不具合であるとフラグ付されます。それぞれの振る舞いはPCのイベント内に記録されていきます。

この新しい機械学習の振る舞いは幅を上回った場合と、下回った場合の両方を見つけ出すことができます。CommvaultやNetBackupのようなバックアップソフトウェアを利用している場合、バックアッププロクシを利用しますが、バックアップジョブが期待通りに動作しているかどうかを見極めることもできます。もしもバックアップジョブが停止しているようなときにはリソースは低くなるはずなので、これをアラートすることができます。同様にフルバックアップを週1回行っているとすれば、PCはこれを傾向の考慮に入れてくれるので、インクリメンタルバックアップしか行っていないときとの差分を考慮してアラートを発行しません。更にいいことにはバックアップジョブが突然いつも以上に時間がかかっているということなども知ることができます。おそらく何らかの追加ストレージもバックアップ対象にされているということを考えるべきでしょう。

平日と週末の違いを考慮するため、PCは3つ別々のの期間のデータポイントを作成します。つまり、別々のデータポイントを作るのに3週間必要ということになりますが、こうすることで、27もの異なる計測値を仮想マシン、ホスト、そしてクラスタに対して利用することができるようになります。過去3週間の計測値データを記録し、分析することで、標準の振る舞いの幅を作成し、更に今後7日間分の予測が計算されます。以下の図の小さな青の幅は非常に一貫したワークロードを示しています。この画像のCommvaultサーバではCPUに負荷をかけるスクリプトが動いており、このような結果が出ています。より大きな変動のあるワークロードでは、この幅も大きな変動を示します。最小限の無効化が静的に設定されているため、多くの誤認識が無いようになっていますが、もしもデータ上の変動がそれ以上であった場合、その無効化は実際にはデータ上の変数となります。つまるところ、PCは皆様の環境に適応するアルゴリズムを提供しているのです。

Fig366

上のカスタムポリシーはPC上から作成可能です。不具合検知を利用することで、ワークロードのアイドル状態を検知できない静的な閾値を設定する必要はなくなるのです。

Nutanix上でメディアサーバを動作させているのであれば、そのワークセットサイズも見ることができます。もしもワーキングセットサイズが一定時間内で劇的に変化しているようなら、何が起こっているのか、よく見てみるのがよいでしょう。

Fig367

データセンターは静的なものではなく、PCは環境で何が起こっているのかを考慮しながら、無秩序なデータとアプリケーションとの戦いの助けとなるツールです。つまり、実際のユーザーが問題に気がつく前に、問題を知って対処することができるようになるのです。

もしもPCの面白いユースケースがあれば、是非教えて下さい。


© 2018 Nutanix, Inc. All rights reserved. Nutanix and the Nutanix logo are registered trademarks or trademarks of Nutanix, Inc. in the United States and other countries. All other brand names and logos mentioned herein are for identification purposes only and are the property of their respective holder(s), Nutanix may not associated with, or sponsored or endorsed by such holder(s).

記事担当者: マーケティング本部 三好哲生 (@Networld_NTNX

Ntc2018

Specter, Meltdownの脆弱性の記事に引き続き、機械学習シリーズ・・・ということになるのでしょうか。バックアップサーバなどの汎用的なユースケースにおいても機械学習は非常に有効ですね。特に記事の頭にあるように、バックアップソフトウェア自身は頑張っている(つもりな)のですが、実質死んでしまっているような場合、アラートをあげてくることはないので、気がついたときには後の祭りです。

同様の定期バッチ処理を行うようなソフトウェアでも同じことが言えるはずですし、VDIであれば多くの仮想マシンの中で変な動きをしている、そうした仮想マシンを見つけ出すことでプロアクティブにサポートを提供することができます。

本家のフォーラムに書き込むのは敷居が高いという方、是非@networld_NTNXあてにメンションで教えて下さい!