« Nutanix 回復性能 – パート2 – RF2 から RF3へ変換する | メイン | 今日のVMware PowerCLI : インストール »

2018/07/18

Nutanix 回復性能 – パート3 – RF3でのノード障害

本記事の原文はもともとNutanix社のStaff Solution Architectで、Nutanix Platform Expert (NPX) #001、

そしてVMware Certified Design Expert (VCDX) #90として活動しているJosh Odger氏によるものです。

原文を参照したい方はNutanix Resiliency – Part 3 – Node failure rebuild performance with RF3をご確認ください。

情報は原文の投稿時のままの情報ですので、現時点では投稿時の情報と製品とで差異が出ている場合があります。

当社のNutanix社製品についてはこちら。本ブログのNutanix関連記事のまとめページはこちら

ネットワールドのNutanix関連情報は、ぜひ当社のポータルから取得ください。

(初回はID、パスワードの取得が必要です)


パート1ではAcropolis Distributed Storage Fabric (ADSF)のおかげで効率よく素早くノード障害からリビルドを行えるというNutanixAOSの能力について話し、一方パート2ではストレージコンテナがRF2からRF3へ変換し回復性能、どれくらい完了までに早くその処理が終わるかを議論しました。

パート2では12ノードクラスタで各ノードのディスクの利用率はこのようになっています。

Nodecapacityusage12nodeclusterrf31

障害をシュミレートするノードは5TBのディスクの使用率でこれはパート1で実施したノード障害のテストと近い状態です。

クラスタは現在12ノードのみで構成されているので、パート1と比べてリード・ライトを行うコントローラーが少ないことが解ります。

次にIPMI経由で”Power Off -Immediate”でノード障害をシュミレートします。

次が示すのは30分後に5TBのデータの再保護が完了する際のノードのリビルドのストレージプールのスループットです。

Rebuildperformanceandcapacityusager

まず、すぐに解るのは5TBのデータの再保護までに約30分かかるとことです。

5年前のハードウェアとすれば、他のSANやHCI製品と比べても上出来でしょう。

しかしもっと早くてもよいのではと感じたので調べてみました。

ノード試験当時クラスタがアンバランスな状態になっていることが解り、結果的にノードはまったく、または殆どデータを持たないため正常時のように全てのノードがリビルド処理を行っていなかったのです。

クラスタがアンバランス状態になったのは私が頻繁にノード障害のシュミレートを試しており正常にするためにノード追加の後にバランス処理が完了するのを待てないでノード障害のシュミレートを行ったのです。

通常メーカーは最適でない結果を投稿しませんが、私は透明性が重要と強く感じています。クラスタがアンバランスになる可能性があり、もしその様な状況でノード障害が発生した際にどの様な回復性能に影響があるかを知ることが大事です。

そこで、クラスタがバランスの状態である事を確認してテストを再度実施した結果が次の通りです。

Rf3nodefailuretest45tbnode

ここで解るのは5GBpsだったアンバランスと比べて6GBps以上のスループットが出ており、

1GBpsものパフォーマンス向上が凡そ12分間にわたって続いていたのです。

またアンバランスの状態で確認できたスループットの劣化は発生していません。

これはすべてのノードが均等にデータを持つことでリビルドの期間、全てのノードがリビルドを実施する事が出来たおかげなのです。

Summary:

  • Nutanix RF3 is vastly more resilient than RAID6 (or N+2) style architectures
  • ADSF performs continual disk scrubbing to detect and resolve underlying issues before they can cause data integrity issues
  • Rebuilds from drive or node failures are an efficient distributed operation using all drives and nodes in a cluster
  • A recovery from a >4.5TB node failure (in this case, the equivalent of 6 concurrent SSD failures) around 12mins
  • Unbalanced clusters still perform rebuilds in a distributed manner and can recover from failures in a short period of time
  • Clusters running in a normal balanced configuration can recover from failures even faster thanks to the distributed storage fabric built in disk balancing, intelligent replica placement and even distribution of data.

記事担当者 : SI技術本部 カッシー @Nutanix_NTNX

アクセスランキング

お問い合わせ先
ネットワールド ブログ運営事務局
blog.doc-info@networld.co.jp
フォトアルバム