機能の概要
LifeKeeper Core の既存の監視機能に Standby Node Health Check を組み合わせることにより、Standbyノードにおける CPU や Memory の使用率の監視や Out of service のリソースの健全性の監視を行い、 Standbyノードの異常を検知できます。これにより、事前に問題を解消することができ、Activeノードで異常が発生した際のフェイルオーバーに失敗するリスクを軽減できます。この監視処理は、通常の LifeKeeper の監視実行間隔( LKCHECKINTERVAL の設定値)と同じ間隔で実行されます。
Standby Node Health Check は、主に以下の二つの機能に分類されます。
Node監視
ノード上ですべてのリソースが Out of service の場合、Standbyノードと判断して Node監視のスクリプトを呼び出します。Node監視のスクリプトが CPU や Memory の使用率の監視を行い、ノードが正常に切り替えが出来ない可能性が高い状態にあると判断すると、異常ありと判断され、予め設定されたメール通知機能、またはSNMPのイベント転送機能を通じて、検知した内容を通知します。詳細は「 Node監視 」を参照してください。
OSUリソース監視
Out of service の各リソースについて、lkcheck が定期的にそのリソースタイプの OSUquickCheck スクリプトを呼び出します。OSUquickCheck スクリプトがリソースのクイック健全性チェックを実行し、リソースが正常に起動できない状態にあると判断すると、該当リソースのステータスを OSF に変更し、異常ありと判断され、予め設定されたメール通知機能、またはSNMPのイベント転送機能を通じて、検知した内容を通知します。詳細は「 OSUリソース監視 」を参照してください。
インストールと設定
特別なインストールは必要ありません。
Standby Node Health Check 機能をセットアップする一般的なプロセスには以下の手順が含まれます。
- イベントメール通知 や SNMPによるイベント転送 の設定を行います。
- Standby Node Health Check の設定を行います。(詳細は次項の「Standby Node Health Check の設定」を参照してください。)
- 既に LifeKeeper が起動している場合は、設定を反映させるため lkcheck プロセスを再起動します。
lkcheck プロセスの再起動には次のコマンドを実行してください。
killall lkcheck
上記の手順が完了すると、そのノードでは Standby Node Health Check 機能が動作するようになります。
設定に応じてNode監視や Out of service の各リソースの監視が行われます。詳細は「 Node監視 」と「 OSUリソース監視 」のページを参照してください。
Standby Node Health Check の設定
/etc/default/LifeKeeper 設定ファイルで SNHC の設定を有効に設定してください。詳細は「 Standby Node Health Check パラメータ一覧 」を参照してください。
このトピックへフィードバック