サーバ故障

会社で50人程度が使用しているファイルサーバ(DELL PowerEdge 2600 OS:Win2000Server)が壊れた。実は1ヶ月くらい前にイベントビューアにこんなメッセージが出ていた。

\Device\Scsi\mraid2k1 はタイムアウト期間内に応答しませんでした。
ページング操作中にデバイス \Device\Harddisk0\DR0 上でエラーが検出されました。

さらにサーバ本体前面のアラームランプが点灯したため、メーカーに電話をしていた。すると、Array ManagerというRAID管理ツールが入っていないことが分かり、まずはインストールを薦められていた。そして、Array Managerをインストールしたら、ブルースクリーンでSTOPエラー"STOP: 0x0000007B INNACCESSIBLE_BOOT_DEVICE"が発生し、OSが起動しなくなってしまったのだ。

セーフモードでも前回正常起動時の構成でもダメ。起動時にCtrl+Mを押してBIOSからRAIDツールを起動すると、RAID5を構成しているハードディスク4個のうち2つが壊れていることが分かった。メーカーに電話し、幸いまだ保証期間内だったため、4時間以内にHDDとサポートの人が来て、ディスクを交換してくれた。

でも大変だったのはそれから。壊れたディスクが1つならディスクを交換するだけで済んだんだけど、2つ交換したためデータが全て消えてしまい、OSの再インストールからやり直さなければならないのだ。まぁ、最初にこのサーバを立ち上げたのが私だったので、インストールCDの場所やら設定内容やらはすべて把握していたので、時間がかかっただけで元に戻すことはできた。しかし、私がいなくても誰かが同じことをできるように、ちゃんと資料を残しておかなければいかんな、と痛感した。他人が設定したサーバの管理を引き継ぐのって、大抵情報不足で、何かあった時にすごく苦労するんだよね。

最後にバックアップテープからデータを復元して完了。当たり前だけど、NTbackupでDAT(DLT VS160)にとったデータを再インストールしたサーバでも復元できるのかが心配だったけどNTFSアクセス権も含めてちゃんと復元できていた。

結局復旧までに丸1日かかったのでした。