LifeKeeperの通常の動作として、ノード障害やリソース障害によるバックアップノードへの切り替えは自動的に行われるようになっています。しかし、利用する環境によっては、障害が検出されたシステムのフェイルオーバリカバリをLifeKeeper が実行する前にシステム管理者の手動による確認を必須とすることが望ましいこともあります。そのような場合には、この [Confirm Failover][Block Resource Failover] 設定の利用することができます。この機能を利用することによって、リソース障害やノード障害が発生した際に、自動的に行われるフェイルオーバをブロックしたり、フェイルオーバが行われるまでの待ち時間を設けたりすることができます。

以下の説明、例、および考慮事項をよく読んで理解してから、お使いの SPS 環境で [Confirm Failover] または [Block Resource Failover] を設定してください。これらの設定は、コマンドライン、または LifeKeeper の GUI[Properties] パネルから使用できます。

[Set Confirm Failover On]

[Confirm Failover] を設定すると、LifeKeeper クラスタのノード障害によるフェイルオーバが発生した時(注記: ノード障害は、システムへのすべてのLifeKeeperコミュニケーションパス障害によって識別されます。)、バックアップノードへの切り替えの実行に対して待ち時間を設けることができるようになります(後述のCONFIRMSODEF変数を参照して下さい)。また、その待ち時間の間にバックアップノードへの切り替えを実行するかしないかをユーザが決定できるようになります。

注記: Set Confirm Failover On設定は、ノード障害が発生した場合にのみ有効です。一つ以上のコミュニケーションパスがアクティブであるリソース障害に対しては有効ではありません。

[Confirm Failover] 設定をGUIで有効にする場合は、サーバプロパティのGeneralタブ画面を使用します。以下はサーバプロパティのGeneral画面の例です。赤で囲まれた部分が [Confirm Failover] を設定する画面です。

注意: この設定は、SPS の管理者権限を持つユーザのみが使用できます。

この画面の例では、lktestAという名前のホストから見た設定となります。上図の赤で囲まれた部分が [Confirm Failover] の設定部分で、HAクラスタを構成するノードの名前が縦に表示されています。この例では、lktestAの対向ノードがlktestBとなっています。

図の例ではlktestAを選択して設定状況を表示しており、lktestBの横にチェックが入った状態となっています。この場合、lktestB上にConfirm Failover フラグが作成され、lktestAからlktestBへのフェイルオーバが行われる際に、フェイルオーバ実施までのタイムアウトと実施可否の確認が有効になります。このフラグの有無によって、 [Confirm Failover] の動作の実施がコントロールされます。

この時のフラグの作成状況については、コマンドで確認することができます。例にあるlktestAというホスト上でlktestBの欄にチェックを入れた場合には、lktestBに [Confirm Failover] フラグが作成されます。(例の通りの操作の場合lktestAにはフラグは作成されません)。具体的には以下のような出力になります。

[root@lktestB~]# flg_list

            confirmso!lktestA

「confirmso!lktestA」はflg_listコマンドの結果が出力され、 [Confirm Failover] フラグがlktestBノード上に設定されます。confirmsoフラグがセットされている状態で、フェイルオーバが発生するとLifeKeeperのログファイルには以下のようなログが記録されます。

INFO:lcd.recover:::004113:chk_man_interv: Flag confirmso!hostname is set, issuing confirmso event and waiting for switchover instruction.

NOTIFY:event.confirmso:::010464:LifeKeeper: FAILOVER RECOVERY OF MACHINE lktestA requires manual confirmation! Execute ‘/opt/LifeKeeper/bin/lk_confirmso -y -s hostname ‘ to allow this failover, or execute ‘/opt/LifeKeeper/bin/lk_confirmso -n -s lktestA’ to prevent it. If no instruction is provided, LifeKeeper will timeout in 600 seconds and the failover will be allowed to proceed.

このメッセージが出力されている間に、次のいずれかのコマンドを実行するとフェイルオーバの可否をコントロールすることができます。

フェイルオーバを続行する場合

#/opt/LifeKeeper/bin/lk_confirmso -y -s ホスト名

フェイルオーバをブロックする場合

#/opt/LifeKeeper/bin/lk_confirmso -n -s ホスト名

コマンドを実行する際に指定するホスト名はConfirm Failoverフラグに書かれているホスト名、この例では、lktestAとなります。ログに具体的なコマンドの実行例が書かれていますので、内容を元にコマンドを実行してください。

設定された待ち時間を超えた場合、LifeKeeperのデフォルトの設定ではバックアップノードへのフェイルオーバ(あるいは、フェイルオーバのブロック)を自動的に行うようになっています。タイムアウトを迎えた場合以下のようなログが記録されます。

lcdrecover[xxxx]: INFO:lcd.recover:::004408:chk_man_interv: Timed out waiting for instruction, using default CONFIRMSODEF value 0.

待ち時間を経過した際の動作は、/etc/default/LifeKeeperファイルの「CONFIRMSODEF=1 or 0」の設定で制御されます。デフォルトでは”0”が設定されており、待ち時間を超えた場合にはフェイルオーバが継続されます。この値を”1”に変更した場合には、待ち時間を経過した場合にフェイルオーバしないようにすることができます。

フェイルオーバ時の待ち時間を変更したい場合には、/etc/default/LifeKeeperファイルの「CONFIRMSOTO=秒」の値を変更してください。上記CONFIRMSODEFの値によって決定されたフェイルオーバの実行、あるいはブロックをする前に、この変数はユーザからの手動確認を待つための秒数を指定します。この設定をこれらの変数の影響を反映するために、LifeKeeperやOSを再起動する必要はありません。CONFIRMSOTOに0秒を設定すると待ち時間無しで、CONFIRMSODEFの設定に基づいた動作をさせることができます。

[Confirm Failover]設定を選択するタイミング

この設定は、コミュニケーションパスが冗長化されていない環境で場合のディザスタリカバリやWAN 構成で使用されます。

  • 通常のサイト(非マルチサイトクラスタおよび非XenServer)では、あるサーバで [Properties] ページを開き、 [Confirm Failover] フラグをオンに設定するサーバを選択してください。
  • マルチサイト WAN の構成の場合:フェイルオーバの手動確認を [Confirm Failover flag] の設定で、 有効にしてください
  • マルチサイト LAN の構成の場合:フェイルオーバの手動確認を有効にするために、 [Confirm Failover flag] を設定しないでください。
  • マルチサイトクラスタ環境では、非ディザスタシステムから DR システムを選択し、 [Set Confirm Failover flag] チェックボックスをオンにします。クラスタ内の非ディザスタサーバのそれぞれについて、指定したシステムでのリソース障害に起因するフェイルオーバをブロックします。 [Properties] パネルを開いてこの設定を選択する必要があります。

[Block Resource Failover On]

[Block Resource Failover] 設定は、指定したシステムでのリソース障害に起因するフェイルオーバをブロックします。

注記 : Block Resource Failover設定は、ノード障害が発生した場合のフェイルオーバ動作には影響しません。この設定は、ローカルリソースの回復に失敗し、クラスタで他ノードへリソースを転送する場合のみフェイルオーバをブロックします。

デフォルトでは、リソース障害を検知した時、ローカルシステムでの障害リソースのリカバリ(ローカルリカバリ)を試行し、ローカルリカバリが失敗した場合、または有効になっていない場合は、リソースが定義されている、優先順位が次に最も高いスタンバイノードにフェイルオーバしようとします。Block Resource Failoverの設定は、この時のフェイルオーバをブロックします。

Block Resource Failoverの設定をGUIで有効にする場合は、サーバプロパティのGeneralタブ画面を使用します。以下はサーバプロパティのGeneral画面の例です。赤で囲まれた部分が [Block Resource Failover On] を設定する画面です。

注意 :この設定は、SPS の管理者権限を持つユーザのみが使用できます。

この画面の例は、lktestAという名前のホストから見た設定となります。上図の赤で囲まれた部分が [Confirm Failover] の設定部分で、HAクラスタを構成するノードの名前が縦に表示されています。この例では、lktestAの対向ノードがlktestBとなっています。

この場合、lktestB上にBlock Resource Failover フラグが作成されます。lktestBでflg_listコマンドを実行すると、「block_failover」というフラグが作成されていることを確認することができます。出力例は以下の通りです。

[root@lktestB~]# flg_list

            block_failover

この結果lkestB上で、リソース障害が発生した場合には、他ノード (IktestA) へのフェイルオーバがブロックされます。

block_failoverフラグは、それがセットされているノード上で発生したリソース障害によるフェイルオーバをブロックします。 この設定によってフェイルオーバがブロックされた場合には、以下のようなログが記録されます。

ERROR:lcd.recover:::004787:Failover is blocked by current settings. MANUAL INTERVENTION IS REQUIRED

設定の利用条件 / 考慮事項

マルチサイト設定では、設定に含まれるすべてのサーバについて、フェイルオーバのブロックを有効にしないでください。

マルチサイトクラスタ構成での重要な考慮事項:マルチサイトクラスタ構成のサーバについては、 [Set Block Resource Failover On] 列のチェックボックスをオンにしないでください。

設定例

いくつかの具体的な設定例を解説します。

全ての自動フェイルオーバをすべてブロックする

この例ではlktestAとlktestBどちらでノード障害、リソース障害が発生してもフェイルオーバしないようにします。この設定にはConfirm Failover設定とBlock Resource failover設定を利用します。設定例は次の通りです。

  1. lktestAサーバを選択し、 [Server Properties] を表示してください。

[General] タブで、lktestBの行にある [Set Confirm Failover On] ボックスと、LktestAとLktestB両方の行にある [Set Block Resource Failover on] ボックスをオンにしてください。
 
GUIのlktestAのサーバプロパティ設定例

Set Confirm Failover On Set Block Resource Failover On
lktestA
(チェックなし)
lktestB

※GUIでサーバプロパティをみる場合、ノード名は、プロパティパネルの上部近くに表示されます。

  1. lktestBサーバを選択し、 [Server Properties] を表示してください。

[General] タブで、lktestAの行にある [Set Confirm Failover On] ボックスをオンにしてください。
 
GUIのlktestBのサーバプロパティ設定例

Set Confirm Failover On Set Block Resource Failover On
lktestB
(チェックなし)
lktestA

※GUIでは表示している自ノードのホスト名が列の上部に表示されます

GUIで設定した後、lktestBでflg_listコマンドを使用してフラグ設定を確認すると、「confirmso!lktestA」フラグが作成されていることが確認できます。

ここまでの結果それぞれのノードにconfirmso!hostnameとblock_failoverフラグがセットされていることを確認してください。confirmsoフラグについては、lktestA上のlktestBからのフェイルオーバをブロックするために、フェィルオーバ確認が実行されることになっているhostnameが、フラグ名の内容の一部として記載されることを確認して下さい。lktestAは、lktestA上でlktestBをconfirmsoフラグ名の内容に記載する必要があります。本設定例ではそれぞれのノードで以下のようにフラグが作成されます。

Confirm Failover フラグ Block Resource Failoverフラグ
lktestA側
confirmso!lktestB
block_failover
lktestB側
confirmso!lktestA
block_failover
  1. 両ノードの/etc/default/LifeKeeper のCONFIRMSOTOとCONFIRMSODEFの設定値を以下のように設定してください。(LifeKeeperやOSの再起動は必要ありません。)

CONFIRMSODEF = 1

CONFIRMSOTO = 0

CONFIRMSOTOの設定については待ち時間を設ける場合には時間を秒で指定することも可能です。ポイントはCONFIRMSODEFの設定が0(フェイルオーバーする)から1(フェイルオーバしない)になっていることです。

上記の設定により、オペレータが介在することなく、ノード障害はすぐにブロックされます。

一方向のフェイルオーバをブロックする

この例ではlktestAで障害が検知された場合にはノード障害、リソース障害どちらの場合でもlktestBへのフェイルオーバをブロックします。逆に、lktestBで障害が発生した場合にはノード障害、リソース障害どちらの場合でもServerAへフェイルオーバします。

  1. lktestAを選択し、 [Server Properties] を表示してください。
  1. [General] タブで、lktestAの行にある [Set Confirm Failover On] ボックスと、lktestAの行にある [Set Block Resource Failover On] ボックスをオンにしてください。GUIでの設定状態は以下のようになります。
     
    GUIのlktestAのサーバプロパティ設定例
Set Confirm Failover On Set Block Resource Failover On
lktestA
(チェックなし)
lktestB
(チェックなし)
  1. lktestBサーバを選択し、 [Server Properties] を表示してください。

[General] タブで、lktestAの行にある [Set Confirm Failover On] ボックスをオフ(チェックなし)にしてください。GUIでの設定状態は以下のようになります。
 
GUIのlktestBのサーバプロパティ設定例

Set Confirm Failover On Set Block Resource Failover On
lktestA
(チェックなし)
(チェックなし)
lktestB
(チェックなし)

※GUIでは表示している自ノードのホスト名が列の上部に表示されます。

この設定で、lktestB上に「confirmso!lktestA」フラグ、lktestA上に「Block failover」フラグが設定されていることを確認してください (lktestAには、confirmsoフラグは設定されません)

Confirm Failover フラグ Block Resource Failoverフラグ
lktestA
なし
block_failover
lktestB
confirmso!lktestA
なし
  1. lktestBの/etc/default/LifeKeeper を以下のように設定してください。LifeKeeperやOSの再起動は必要ありません。

CONFIRMSODEF = 1

CONFIRMSOTO = 0

ここまでの設定によって、lktestAサーバからlktestBのサーバへのフェイルオーバは許可されますが、lktestBからlktestAへのフェイルオーバは許可されません。
 

フィードバック

お役に立ちましたか?

はい いいえ
お役に立ちましたか
理由をお聞かせください
フィードバックありがとうございました

このトピックへフィードバック

送信