株式会社ネットワールドのエンジニアがお届けする技術情報ブログです。
各製品のエキスパートたちが旬なトピックをご紹介します。

Nutanix 回復性能 – パート8 – RF3とEC-X利用時、ノード障害のリビルドパフォーマンス

本記事の原文はもともとNutanix社のStaff Solution Architectで、Nutanix Platform Expert (NPX) #001、

そしてVMware Certified Design Expert (VCDX) #90として活動しているJosh Odger氏によるものです。

原文を参照したい方はNutanix Resiliency – Part 8 – Node failure rebuild performance with RF3 & Erasure Coding (EC-X)をご確認ください。

情報は原文の投稿時のままの情報ですので、現時点では投稿時の情報と製品とで差異が出ている場合があります。

当社のNutanix社製品についてはこちら。本ブログのNutanix関連記事のまとめページはこちら

ネットワールドのNutanix関連情報は、ぜひ当社のポータルから取得ください。

(初回はID、パスワードの取得が必要です)


パート1でRF2、パート3でRF3について話してきました。

ADSFの回復性能について話し合う際に重要な要素はドライブ、またはノード障害時に構成されているRFに沿った復旧が行われるスピードです。

パート1とパート3を簡単にまとめ、RF3とEC-Xが使われている時のノード障害のパフォーマンスの例を見ていきましょう。リビルド操作(RFやEC-Xを利用しているに関わらず)は全てのノードとドライブにまたがる完全な分散処理(例:多対多操作)となります。

それはとても早く、ノードのワークロードのボトルネックを最小限に抑え、稼働しているワークロードへの影響を減らします。

リビルドのパフォーマンスはクラスタのサイズ・数やモデル、ドライブ(例:NVMe, SATA-SSD , DAS-SATA)、同様にCPUの世代、ネットワークの接続性といった多くの要素に依存します。 次のハードウェアを利用してサンプルをお見せしたいと思います。

テストは15ノードクラスタで概ね5年前のハードウェアのNX-6050 , NX-3050でIvy Bridge 2560 Processorsを搭載し、6xSATA-SSDと2つの10GB接続を行っている混在環境のクラスタです。

Note:イレージャーコーディングはRF2 , 3よりも多くの計算処理のオーバーヘッドが生じます。より速いパリティ計算を行うのでリビルド時間に大きな違いがでますが、RFは単純にデータを複製するだけです(例:パリティ計算は必要ありません)

 

このテストではクラスタはRF3とイレージャーコーディングを構成しています。

前回のテストと同じでノード障害はIPMIの”Power off Server – Immediate”を実施しました。方法は次の通りで、これは物理サーバの電源を抜くのと同等です。

 

ipmipoweroff


次のスクリーンショットはPrismの分析から取得したもので、ノード障害時のストレージプールのパフォーマンスを示しています。

rebuildperformanceandcapacityusag_2


このチャートが示すリビルドの最大値は7.24GBpsでリビルドが完了するまで5GBpsを上回っていることが解ります。タスクは下の図のChronosが示す通り47分間かかりました。ChronosはCVMの2011ポートをhttpアクセスすると確認できます。

nodefailuretaskduration


この例ではEC-Xが有効なNutanixクラスタでさえもADSFは極めて早くリビルドが完了しRF3を保持しながら素晴らしいキャパシティを提供できるのです。

Summary:

  • Nutanix RF3 is vastly more resilient than RAID6 (or N+2) style architectures
  • ADSF performs continual disk scrubbing to detect and resolve underlying issues before they can cause data integrity issues
  • Rebuilds from drive or node failures are an efficient distributed operation using all drives and nodes in a cluster
  • A recovery from a >4.5TB node failure (in this case, the equivalent of 6 concurrent SSD failures) around 12mins
  • Unbalanced clusters still perform rebuilds in a distributed manner and can recover from failures in a short period of time
  • Clusters running in a normal balanced configuration can recover from failures even faster thanks to the distributed storage fabric built in disk balancing, intelligent replica placement and even distribution of data.

記事担当者 : SI技術本部 カッシー @Nutanix_NTNX