Catalyst2960-S、逝く 2:復旧までの時間を考える

ネットワークスイッチ(CISCO Catalyst2960-S)が1台逝った話の続きです。前回はトラブル把握から復旧までの流れを記しました。このページでは復旧までの時間を考えます。

業務影響を小さくできないかな

最初にトラブルを把握したのが4時30分、もっともこのときはスイッチと認識しておらず、スイッチのトラブルと把握したのが7時。担当営業さんにウチのスイッチを使えないか連絡したのが8時30分頃。正規の(?)保守機でなく、ウチの予備スイッチで仮復旧したのが11時30分頃だったでしょうか。

ウチを担当しているネットワークエンジニアさんは家が近所ということもあって(笑)、かなり早い時間に到着しました。しかし一通りの確認をしたあとはスイッチが届くまで何もできません。時間があるのでこういったエッジスイッチのトラブルへの対策を会話したのです。

障害対策

コストは考慮せずすべてに対策する

コストを考えなければ、すべてのエッジスイッチをスタックで接続。かつ、2台でスタックさせているのであれば、1台の使用ポートは半分以下(48ポートであれば24ポート以下)にし、使っていない各ポートの設定は別のもう1台が使っているポートに合わせておく。仮に1台故障したときは、故障していないスイッチの空きポートにLANケーブルを接続し直すと。あるいはどちらかのみに接続しておいて、それが壊れたら使っていなかったスイッチにLANケーブルを接続し直すか。

この対策だとポートの使用効率は半分になります。加えて現在エッジスイッチについてはスタックすらさせていないので、必要なスイッチの数は2倍以上になります。

…無理です(苦笑)。

全滅はしないように対策する

エッジスイッチを複数設置するのは上と同じですが、無線APやパソコンなどの設置場所を考慮して接続するスイッチを決める。たとえば隣り合ったAironet、並んだデスクトップPCはそれぞれ別のスイッチに接続するという感じ。こうすることで、仮にスイッチが1台故障しても故障していない隣の方は使うことができます。全滅は防ぐことができます。

この対策だと、Catalyst1台あたりのポート数は今よりも減らすことができますが、台数は倍になります。

スイッチ数が倍… やはりかなり難しそう。

システム更改に向けて考えないといけない

今回のトラブルの場合、ウチが予備スイッチを持っていなければ復旧は14時ぐらいになっていたのではないかと想像しています。

というのは、保守機が届くのが12時30分頃と聞いていました。保守機が届いてからiOSのバージョンを合わせることが必要になると、保守機のiOSのバージョンにもよるようですが、1時間はかかるという印象です。となると、14時ぐらいになるかと。

外来であれば、ほぼ1日使えない感じですね(怖)。

予備スイッチのおかげで午後イチには復旧していましたが、メインの病院で外来のスイッチが故障していたとしたら午前中だけといっても大きな混乱となっていたたことは間違いありません(怖^2)。

私がいる法人では遠くないうちにシステム更改のプロジェクトがはじまります。今回はWANの先の病院・クリニックに設置する拠点スイッチに関しては冗長化することを考えているのですが、エッジスイッチについても場所によっては冗長化を考慮したほうよさそうです。各施設に提案して考えてもらおう。