RAID運用の多重障害
〜テープ装置,ハードディスクのトラブル〜
0.改訂履歴
- 1997.12.08〜09 初版
- 2000.09.16 会社情報を削除
1.現象
- 内蔵DATドライブのテープがエジェクト出来なくなった.
- NTのフォールトトレランスで構成しているドライブが1つ赤になった.
- 再起動すると,RAID5ドライブ内のデータが,最近のものに集中して破壊されていた.
2.背景
まず,最初はテープが出てこないエラーであった. これは1カ月に1回くらい起こるXX特有の定期的な障害である. ベンダのXX通も認知しているが,原因は不明である. 1996年度には,XXX殿向けPCサーバで同様の障害が多発していたが,これはファームウェアを適用することによって大半は回避出来ているようである. 当然,XXのNTにも最新ファームウェアの更新は適用しているが変わりない...
今回トラブルが発生したX2NTサーバ(NT3.51 SP5)は,業務で使用するため定時時間内は停止することが出来ないため,当初,後日シャットダウンを行ないテープを取り出す作業を行なうことを計画していた.
しかし,その後NTがもつフォールトトレランスドライバが異常をおこし,1つのハードディスクがダウンした. よって,緊急にシャットダウンし,テープを取り出し,RAID5の再構成を行なう作業予定をたてた.
この作業自体は,以前,X1NTサーバでも同様のトラブル経験があったが,今回はNT自身の動作が異なっていた.(多分,NTの内部的なエラーの重大度が異なっていた様である.表面に出ないので推測するしか無い)
3.作業内容抜粋
以下に作業内容を時系列で記述する. 詳細な情報はドキュメント「RAID運用の多重障害 〜作業内容詳細〜」を参照する.
日時 | 事象 |
---|---|
1997.12.08 09:49 | NTのRAID5ドライバがエラーを起こし,ディスクの1つがダウン. |
1997.12.08 13:00頃 | テープが出てこないというトラブルがあったため,NTのシステムログを参照した事でRAID5のエラーを発見. |
1997.12.08 14:00頃 | XX通へCEコールを行ない,ハードディスクとテープの交換を申し入れた. |
1997.12.08 18:00〜19:00 | RAID5の障害はNTの機能で復旧可能のステータスなので復旧を試みて成功した. |
1997.12.08 19:00 | 一見成功したかに見ていたが,ファイルが消えるなどの障害がアプリから報告される. |
1997.12.08 19:30 | NTの指示により障害からの復旧を試みるが,復旧不可能. |
1997.12.08 20:00〜 | XX通CEとハードディスクが9日午前中に入荷できるとの確認. |
1997.12.08 21:00〜翌朝 | 現状データのネットワークバックアップとディスクのフォーマットおよびRAID5構成と最新ファイルのリストア. |
1997.12.09 13:00〜 | CE作業により破損したディスクを確認し交換. RAID5の再構成を行ないネットワーク接続などを確認. |
1997.12.09 15:30〜 | X2チームに解放. |
項目 | 内容 |
---|---|
障害発生からのトータル復旧時間 | 30時間 |
実停止時間(深夜含む) | 21時間 |
影響範囲 | X2開発 |
4.原因
今回の障害では,ハードレベルとNTのフォールトトレランス機能(ソフトRAID)との情報の不一致があるとおもう.
つまり,ハードウェアレベルではエラーになっているが,NT側ではそれを正しく感知出来ていない事がまれにある様である. 今回のトラブルの詳細なエラーがログに書かれていないことからも,その疑いがあると考えられる.
さらに,NTのカーネルの分離が出来ていない為か,1つのSCSI機器が不安定になるとシステム全体が不安定になる障害は,今まで多く発生している.
今回はテープ装置が不調で,さらにディスクが壊れた事によってシステムが不安定になり正常な動作が行なえなかったのではないか?と推測される.
ハード及びソフトの障害もあったが,人的ミスも起こっていた.
- バックアップステータスの監視が確実に行なわれているとは言えない
- テープの入れ換え忘れ
人的ミスが無ければバックアップの中身は3日前(土日を含んでいる)まで復元できたはずであるが,今回確実に戻せたファイルは4日前である.
5.今後の対策について
今回のトラブルで大きかった点を以下に挙げる.
- 保守に入っていないために部品が直ぐに調達できず,復旧時間のトータルで時間がかかった.
- NTのソフトウェアRAIDの信頼性が低く,ディスクのデータが破壊された.
- 当番制のテープ交換にミスがあった.
これらの要因を全て解決するには,予算が必要であると考えられる. 対策案については,ドキュメント「RAID運用の多重障害 〜再発を防ぐための対策〜」を参照する.