2017年2月18日土曜日

iSCSIサーバが不調

今朝,目を覚まして,ふとメールを見ると,会社のサーバ管理システムのzabbixからアラートメールが。
一時的にzabbixとの通信が途切れることはよくあるので,アラートメール自体は珍しくないのだけど,障害発生のアラートだけで復旧のメールが届いていない。該当サーバはVMware ESXiの中の仮想ゲストサーバの一つ。これが止まると,社内のWiFiにPCがつなげなくなる。

休日(土曜日)の朝ということで,一瞬見なかったことにしようかと思ったけど,気を取り直してPCを起動。ESXiのsyslogを飛ばしているサーバにログインして,ログを確認してみると,案の定iSCSIのストレージサーバ上のボリュームの一つとのコネクションが切れていると。
Feb 17 21:56:11 **** vmkwarning: cpu0:33436)WARNING: iscsi_vmk: iscsivmk_StopConnection: Conn [CID: 0 L: ****:34030 R: ****:3260]
これは,先日ひどい目に合ったのと同じだ。(T_T)

とりあえず,会社へのVPN接続をし,ESXiホストにvSphere Clientでつないでみると,一応ゲストは動いているように見えるけど,ディスクが見えていない。今のところ,おかしいのはゲスト1台分だけなので,残りの正常そうなゲストたちはいったんサスペンド。(おかしいサーバはディスクが見えていないので,操作できない状態。)その上で,iSCSIサーバにログイン。とりあえず,ここでは特にエラーなどは出ていないが,再起動。
iSCSIサーバの再起動が無事すんだので,もう一度vSphere Clientで確認すると,見えなくなっていたディスクも復活。問題のゲストサーバも無事サスペンドできたので,iSCSIサーバのファームウェアを更新して,もう一度再起動。
iSCSIサーバのファームウェア更新も無事済んで,ESXiからもディスクがすべて見えることを確認し,サスペンドしていたゲストサーバたちを復旧。

使っているのはQNAPのiSCSIサーバなのだけど,識者に聞いたところによると,ときどき再起動してあげないと,反応が無くなることがあると。しかし,前回のトラブルから10日ほどしか経っていないのに,再度発生とは。(それまでは年単位でトラブルなかったのに)
今回,ファームウェアも更新したので,調子よくなってくれるといいんだけど。