SPS for Linux: Storage Quorumを使用する際のハートビートに関する推奨事項

ソリューションの詳細

Storage Quorum を使用する場合、SIOS では LCMNUMHBEATS を増やして 、パスが障害と判定されるまでの時間を長くすることを推奨しています。これにより、タイムアウト期間がデフォルトの15秒から45秒に変更されます。

LCMNUMHBEATS を 9 に変更します

LCMNUMHBEATS=9

LifeKeeper のコアパラメータを変更することになるので、LifeKeeperを再起動する必要があります。

ダウンタイムを最小限に抑えるには, “lkstop -f“ を使用するとリソースを実行したままにすることができます。

  • lkstop -f
  • lkstart


SPS for Linux: ノード間の通信が失われたときに、Storage Quorumはフェイルオーバーを防止できない

ソリューションの詳細

問題:
Storage Quorumの構成が不完全なため、通信処理が失われたときに障害が発生する

ソリューション:

qwk_storage_init をクラスター内の各ノードで実行する前に、クラスターノード間のすべてのコミュニケーションパスを作成し、 “ALIVE” にする必要があります。

これがうまくいかない場合は、 以下の手順でストレージのQuorum構成を再初期化してください。

  1. /opt/LifeKeeper/bin/qwk_storage_exit
  2. /opt/LifeKeeper/bin/qwk_storage_init


SPS for Linux: Amazon S3 タイプで使用する場合の storage quorum パラメーターの推奨値

ドキュメントに従って storage quorum を設定したら、ハートビートのパラメーターを設定します。
詳細はこちら

いくつかの方法 で、あなたの環境においてデフォルトの設定が十分なものになっているか確認することができます。

2つの主要なパラメーターがあります。

  • QWK_STORAGE_HBEATTIME (デフォルト値: 6) – QWK オブジェクトを読み書きする間隔を 秒単位 で指定し ます。
  • QWK_STORAGE_NUMHBEATS (デフォルト値 :4) – Witness チェックで対象ノードに障害が発生していると判断するための値を指定します。QWK オブジェクトの読み込みにおいて、このパラメーターに指定した回数以上更新が停止していると、対象ノードに障害が発生していると判断します。

ご利用の環境において 以下のコマンドを実行して接続に 問題がないこと を確認することを 推奨します

  1. ping s3.amazonaws.com を実行し、応答時間が1秒以下であることを確認してください。この操作により、EC2 ノードからグローバル AWS ドメインへの正常な 接続性が確保 されます。

  2. S3 はグローバルサービスであっても、S3 バケットはリージョンにあります。 ping <bucketname>.s3.amazonaws.com を実行することで、ホストするS3 サービスの IP アドレスを解決します。こちらも1秒以下である必要があります。

  3. その他に検討する事は、このノードでのS3のアクティビティ全体に対して渡される データの量 です。ファイル転送で確認することもできます。ping を使用して応答時間の測定をすることも可能です。(上記の ping フォーマット) を参照してください。


トラフィックがある場合とない場合を比較し、上記のハートビートの回数と時間を調整することが可能です。
上記 パラメーターqwk_storage_init を実行する前に指定する必要があります。

ほとんどの場合 また ping 応答が1秒以下の場合はデフォルト値で十分ですが、S3 が遅延するもしくはデグレードしているように見える場合は、 QWK_STORAGE_HBEATTIME の値を増やすことをお勧めします。デフォルトの 6 から 7 へ変更してください。 これによりタイムアウト値が 24 秒 (6 × 4) から 28 秒 (7 × 4) に増加します。 タイムアウト値を 30 秒以上にすることは推奨しません。
デフォルト値を変更する場合は、 クラスター内の各ノード で変更を行うようにしてください。

フィードバック

お役に立ちましたか?

はい いいえ
お役に立ちましたか
理由をお聞かせください
フィードバックありがとうございました

このトピックへフィードバック

送信