アプリケーション内の問題を検出して通知する機能は、最適な総合的耐障害性ソリューションを構築する上で非常に重要です。すべての個々のアプリケーションは、障害発生のメカニズムと形式によって異なるため、一般的なメカニズムを示すことはできません。ただし、一般的に、多くのアプリケーションの設定は、LifeKeeper Single Server Protection に用意されている Core システムのエラー検出機能を利用することができます。このトピックでは、LifeKeeper Single Server Protection Core の機能について説明します。
アプリケーションに障害が発生したときに LifeKeeper Single Server Protection が障害を検出しリカバリーを実行する仕組みを説明したリカバリーシナリオを以下に示します。
- LifeKeeper Single Server Protection は最初に、アプリケーションを再起動することでリカバリーを試みます。
- リカバリーが成功した場合、アプリケーションは正常動作を継続します。
- リカバリーに失敗した場合、以下の処理が実行されます。
a. LifeKeeper Single Server Protection が HA を有効 (/etc/default/LifeKeeper で HA_DISABLE=0) にした VMware ゲスト OS にインストールされている場合にリカバリーに失敗すると、LifeKeeper Single Server Protection がアプリケーション監視インターフェースに送信するハートビートを抑制することで VMware HA がトリガされます。VMware HA はサーバを再起動することで応答します。
b. LifeKeeper Single Server Protection が VMware ゲスト OS にインストールされていないか、HA を無効 (/etc/default/LifeKeeper で HA_DISABLE=1) にした VMware ゲスト OS にインストールされている場合にリカバリーに失敗すると、システムが強制的に再起動されます。
LKSSP Parameter
この値は、/etc/default/LifeKeeper ファイルを編集することによって調整されます。
パラメーター名 | 意味 | 設定値 | デフォルト値 | 適用タイミング | 備考 |
---|---|---|---|---|---|
HA_DEBUG | デバッグログの有効・無効を切り替えます。 | 0: 無効 1: 有効 |
0 | 必要に応じて (LifeKeeper再起動時に反映されます) | この調整可能パラメータを有効にすると、問題のデバッグに役立つ詳細情報が表示されます。 再起動中にリソースを実行し続けるには、 lkstart -f を使用してLifeKeeperを再起動します。 |
このトピックへフィードバック