Catalyst 2960-S、逝く 1:トラブル把握から復旧まで

ネットワークスイッチ(CISCO Catalyst2960-S)が1台逝きました。フロアスイッチ(そのフロアには1台しかないのでエッジスイッチでもありますが)だったので、そのフロアのネットワークが死亡… スイッチが逝ってしまうと、ホント、業務影響が大きい(+_+。

きっかけは"瞬快サブサーバの応答がない"

最初の連絡は朝4時30分頃にあた富士通医療ワンストップサポートセンター(以下OSSC)さんからの電話。クリニックに設置している瞬快サブサーバにpingが通らないと。私のいる法人、複数の病院とクリニックがあります。システムはメインの病院にサーバ機器を設置し、WANで接続して利用しており、EGMAIN-GXやHOPEでいうと"複数病院対応"ってやつです。瞬快サブサーバはWANの先の各拠点においています。

瞬快サブサーバが落ちているだけであれば業務影響という点からは大したことはありません。念の為、そのクリニックの拠点スイッチにpingをしてもらって応答があることを確認し(拠点スイッチが逝ってたらクリニック全体でシステムが使えません)、始業時に保守員が現地に到着するよう調整しました。

フロアスイッチからポーリング応答がない

ところが、です。7時前に出社してネットワーク監視のWebページをみると、そのクリニックに設置しているフロアスイッチからポーリング応答がない警告があがっています。pingをしてみると、たしかに応答がありません。そう、瞬快サブサーバが落ちているのではなく、瞬快サブサーバがつながっているフロアスイッチが落ちていたのです。

となると、業務影響はフロア全体で使えないという多大なものになります。OSSCに瞬快サブサーバではなく、スイッチが逝ってるっぽいことを連絡して私は現地へ。時刻は7時、スイッチの再起動で復旧できれば業務影響はほぼありません。

スイッチ交換へ

現地へ到着してみると、スイッチの電源が落ちています。もちろん、電源ケーブルが抜けているとかいうことはなく、電源が落ちている… “故障に間違いない"と思いつつも、僅かな期待をこめて電源ケーブルを一度抜いてさしてみましたが、起動せず。もう一度やっても起動せず(当たり前)。

OSSCにその旨を連絡。8時を過ぎた頃に、瞬快サブサーバ対応のために手配されていたエンジニアさんが来訪。現状を説明して、関係者への連絡など動いてもらいます。私はそれとは別に8時30分頃に担当営業さんへ連絡。業務復旧優先でウチで持っているスイッチが使えないか確認してもらうためです。

結論を記すと、11時30分頃にウチで持っていたスイッチで仮復旧しました。壊れたスイッチと同じ48ポートのCatalyst 2960-Sを予備機で持っていました(7年前に契約したせいか予備機を購入した記憶がない(汗))。ただ、壊れたスイッチはPoEスイッチだったのですが、予備機にPoE機能はありません。Aironetが1台だけつながっていたのですが、そいつは富士通エフサスさんが評価用で持っているインジェクタをお借りして仮復旧(ありがとうございましたm(_)m)。

業務への影響

業務開始時間前に午前中の復旧は難しいことを伝えると、クリニック院長指示のもと、現場の方々はそれを前提に業務を組み直してくれました。とてもありがたい。"午後の診察までには復旧していてね(^-^)" と看護師さんにプレッシャーをかけられましたが、復旧してよかった。

長くなってしまいました。別投稿に続きます。