このトピックでは、 lcdstatus コマンドの出力例を使用してステータスの詳細表示で提供される情報のカテゴリについて説明します。この情報を表示する方法の詳細については、LCD (1M) のマニュアルページを参照してください。コマンドラインに、 man lcdstatus または man LCD を入力できます。LifeKeeper の GUI で使用できるステータス情報については、サーバーのステータスの表示 またはリソースのステータスの表示 を参照してください。
ステータスの詳細表示の例:
Resource hierarchies for machine “wileecoyote”:
ROOT of RESOURCE HIERARCHY
apache-home.fred: id=apache-home.fred app=webserver type=apache state=ISP
initialize=(AUTORES_ISP) automatic restore to IN-SERVICE by LifeKeeper
info=/home/fred /usr/sbin/httpd
reason=restore action has succeeded
depends on resources: ipeth0-172.17.104.25,ipeth0-172.17.106.10,ipeth0-172.17.106.105
Local priority = 1
SHARED equivalency with “apache-home.fred” on “roadrunner”, priority = 10
FAILOVER ALLOWED
ipeth0-172.17.104.25: id=IP-172.17.104.25 app=comm type=ip state=ISP
initialize=(AUTORES_ISP) automatic restore to IN-SERVICE by LifeKeeper
info=wileecoyote eth0 172.17.104.25 fffffc00
reason=restore action has succeeded
these resources are dependent: apache-home.fred
Local priority = 1
SHARED equivalency with “ipeth0-172.17.104.25” on “roadrunner”, priority = 10
FAILOVER ALLOWED
ipeth0-172.17.106.10: id=IP-172.17.106.10 app=comm type=ip state=ISP
initialize=(AUTORES_ISP) automatic restore to IN-SERVICE by LifeKeeper
info=wileecoyote eth0 172.17.106.10 fffffc00
reason=restore action has succeeded
these resources are dependent: apache-home.fred
Local priority = 1
SHARED equivalency with “ipeth0-172.17.106.10” on “roadrunner”, priority = 10
FAILOVER ALLOWED
ipeth0-172.17.106.105: id=IP-172.17.106.105 app=comm type=ip state=ISP
initialize=(AUTORES_ISP) automatic restore to IN-SERVICE by LifeKeeper
info=wileecoyote eth0 172.17.106.105 fffffc00
reason=restore action has succeeded
These resources are dependent: apache-home.fred
Local priority = 1
SHARED equivalency with “ipeth0-172.17.106.105” on “roadrunner”, priority = 10
FAILOVER ALLOWED
The following LifeKeeper servers are known:
machine=wileecoyote state=ALIVE
machine=roadrunner state=DEAD (eventslcm detected failure at Wed Jun 7 15:45:14 EDT 2000)
The following LifeKeeper network connections exist:
to machine=roadrunner type=TCP addresses=192.168.1.1/192.168.105.19
state=“DEAD” priority=2 #comm_downs=0
The following LifeKeeper flags are on:
shutdown_switchover
The shutdown strategy is set to: switchover.
リソース階層の情報
LifeKeeper は、リソースのステータスを root リソースから表示します。表示には、リソースのすべての依存関係についての情報が含まれます。
複数のリソースに共通する要素は、最初の root リソースの下に 1 回のみ表示されます。各リソース記述の第 1 行には、リソースタグとその後に続くコロン (:) が表示されます (例: device13557:)。階層内でリソースの記述に使用できる情報要素を以下に示します。
- id - LifeKeeper が使用する一意のリソース識別文字列。
- app - アプリケーションのタイプを示します。例えば、サンプルリソースは Web サーバ アプリケーションです。
- type - リソースのクラスタイプを示します。例えば、サンプルリソースは Apache アプリケーションです。
- state - リソースの現在の状態。
- ISP — ローカルで In Service であり、保護されています。
- ISU — In Service であり、保護されていません。
- OSF — Out of Service であり、障害が発生しています。
- OSU — Out of Service であり、障害はありません。
- initialize - リソースの初期化方法を指定します。例えば、LifeKeeper はアプリケーションのリソースをリストアしますが、ホストアダプタは LifeKeeper なしで初期化します。
- info - オブジェクトの remove と restore のスクリプトが使用する、オブジェクトに固有の情報があります。
- reason - 存在する場合、リソースが現在の状態にある原因を示します。例えば、あるアプリケーションが OSU の状態になった原因は、別のサーバでそのアプリケーションがIn Service (ISP または ISU) になったからです。共有リソースは、グループ内の 1 台のサーバでのみ同時にアクティブにできます。
- depends on resources - 存在する場合、このリソースが依存するリソースのタグ名がリストされます。
- these resources are dependent - このオブジェクトに直接依存するすべての親リソースのタグ名が示されます。
- Local priority - このリソースについて、ターゲットサーバのフェイルオーバの優先順位の値を示します。
- SHARED equivalency - このリソースが同等として定義されたリモートリソースのリソースタグとサーバ名、およびこのリソースについてのフェイルオーバの優先順位の値を示します。
- FAILOVER ALLOWED - 存在する場合、上の行で同等と指定されたリモートサーバで LifeKeeper が動作可能であること、およびアプリケーションが障害に対して保護されていることを示します。FAILOVER INHIBITED は、LifeKeeper がシャットダウンされているかリモートサーバが停止していることにより、アプリケーションが保護されていないことを示します。
通信ステータスの情報
ステータス表示のこのセクションには、LifeKeeper が認識しているサーバとその現在の状態、および各コミュニケーションパスの情報がリストされます。
これらの通信情報の要素は、ステータス表示にあります。
- state -コミュニケーションパスのステータス。通信ステータスの値は以下の値をとります。
- ALIVE - 通常の動作中。
- DEAD - 通常の動作をしていません。
- priority -コミュニケーションパスに割り当てられた優先順位の値。この項目は TCP パスについてのみ表示されます。
- #comm_downs - ポートに障害が発生してフェイルオーバが発生した回数。パスの障害によりフェイルオーバが発生するのは、障害発生時に「ALIVE」のコミュニケーションパスが他にない場合のみです。
さらに、ステータス表示では、TTY コミュニケーションパスについてのみ維持されている以下の統計値を提供できます。
- wrpid - 個々の TTY コミュニケーションパスが、一意の読み取りプロセスと書き込みプロセスを持ちます。wrpid フィールドには、書き込みプロセスのプロセス ID があります。書き込みプロセスは、以下の 2 つの条件のうちいずれかが発生するまでスリープ状態です。
- ハートビートタイマの期限が切れ、書き込みプロセスにメッセージを送信させる。
- ローカルプロセスが、LifeKeeper のメンテナンスメッセージを他のサーバに送信するように書き込みプロセスに要求する。書き込みプロセスは、関連付けられた TTY ポートを使用して、メッセージを他のシステムの TTY ポート上にある読み取りプロセスに送信します。
- rdpid - 個々の TTY コミュニケーションパスが、一意の読み取りプロセスと書き込みプロセスを持ちます。rdpid フィールドには、読み取りプロセスのプロセス ID があります。読み取りプロセスは、以下の 2 つの条件のうちいずれかが発生するまでスリープ状態です。
- ハートビートタイマの期限が切れ、定義済みのハートビート間隔が期限切れになったかどうかを読み取りプロセスが判断する必要がある場合。期限切れの場合、読み取りプロセスはコミュニケーションパスに DEAD 状態のマークを付けます。これにより、ALIVE とマークされた他のコミュニケーションパスがない場合はフェイルオーバイベントが開始されます。
- リモートシステムの書き込みプロセスが LifeKeeper のメンテナンスメッセージを送信し、読み取りプロセスがメッセージの受信に必要なプロトコルを実行します。
- #NAKs - 書き込みプロセスが negative acknowledgment (NAK)を受信した回数。NAK メッセージは、他のシステム上にある読み取りプロセスが、書き込みプロセスが送信したメッセージを受け取らず、書き込みプロセスがメッセージパケットを再送信する必要があったことを意味します。#NAKs の統計値は、回線ノイズに起因して、長期間にわたって集計できます。ただし、急激に数値が増加した場合、通信サブシステムで診断手順を実行する必要があります。
- #chksumerr - サーバ間のチェックサムメッセージが一致しなかった回数。この統計値は、回線ノイズに起因して、長期間にわたって集計できます。ただし、急激に数値が増加した場合、通信サブシステムで診断手順を実行する必要があります。
- #incmpltmes - 受信メッセージパケットが予測サイズに一致しなかった回数。不一致の回数が多い場合、コミュニケーションパスに関連付けられたハードウェアポートで診断手順の実行が必要な可能性があります。
- #noreply - 書き込みプロセスが肯定応答の待機中にタイムアウトし、メッセージを再送信しなければならなかった回数。肯定応答がない場合、サーバの過負荷、またはサーバの障害を意味することがあります。
- #pacresent - 読み取りプロセスが同一パケットを受診した回数。これは、送信サーバの書き込みプロセスがタイムアウトし、同一メッセージを再送信する場合に発生することがあります。
- #pacoutseq - 読み取りプロセスが、順序が不正のパケットを受診した回数。このフィールドの値が大きい場合、メッセージパケットの脱落を示すことがあり、通信サブシステムで診断手順の実行が必要な可能性があります。
- #maxretrys - 特定のメッセージについて、再送信の最大回数を超えたときに増加する指標 (NAK と noreply のメッセージ)。#maxretrys フィールドの値が大きい場合、通信サブシステムで診断手順を実行する必要があります。
LifeKeeper のフラグ
ステータスの詳細表示の後部近くに、システムのフラグセットがあります。共通タイプは、プロセスのロックが動作を完了するまで他のプロセスを確実に待機させるために使用する LCD のロックフラグです。LCD のロックの標準フォーマットは以下のとおりです。
!action!processID!time!machine:id.
一般的な LCD のロックフラグの例を示します。
- !action!02833!701236710!server1: filesys 。ファイルシステム階層を作成すると、このフォーマットでステータス表示にフラグが生成されます。 filesys の指定は、他のアプリケーションリソース階層では別のリソースタイプである場合も、一般的なアプリケーションやユーザ定義アプリケーションでは app である場合もあります。
- 他の代表的なフラグとして、!nofailover!machine、!notarmode!machine、shutdown_switchover などがあります。!nofailover!machineと !notarmode!machine のフラグは、LifeKeeper が作成と削除を行う内部の一時フラグで、サーバのフェイルオーバを制御します。shutdown_switchover フラグは、このサーバのシャットダウンストラテジーが switchover に設定されたことを示し、サーバのシャットダウンによりスイッチオーバが発生します。使用可能なフラグの詳細については、依存関係の作成方法については、LCDI-flag (1M) を参照してください。
シャットダウンストラテジー
ステータスの詳細表示の最後の項目は、このシステム用に選択された LifeKeeper のシャットダウンストラテジーを示します。詳細については、サーバのシャットダウンストラテジーの設定 を参照してください。
このトピックへフィードバック