テープ,ソフトRAIDのトラブル
〜テープエジェクト不能から発生〜
0.改訂履歴
- 1998.07.09 初版(Notes)
- 1998.07.10 詳細情報を加え,HTMLにした.
- 1999.12.11 会社名を伏せた(のと,その後の情報追加)
1.現象
- 内蔵DATドライブのテープがエジェクト出来なくなった.
- NTのフォールトトレランスで構成しているドライブが1つ赤(OFF)になった.
- ディスクのローレベルチェックを行ったが異常なし.
- RAIDの再生成を行うが,全て不明なデバイスになる.
2.時系列
1998.07.09 16:40
担当業務から,バックアップテープが出ないと連絡を受ける.(現在,バックアップテープは毎日主導で交換している)
今までに,この現象が発生した場合には,2つの事例があった.
- マシンの電源OFF/ONを行い,ブート中にEJECTボタンを押すと取り出せ,その後問題なく稼動する.
- EJECTできても,DAT装置が壊れている.
- EJECTできても,DATメディアが壊れている.
1998.07.09 16:45
このマシンは保守に入っているが,09:00〜17:00なので,様子を見る前にサポート会社に,CEと部品調達の準備を依頼する.(サポート会社は時間を過ぎるとダダをこねる癖がある)
1998.07.09 16:50
- この時点でのイベントログの確認を行いたいが,テープデバイスのエラーによる,サーバがビジー状態で,シャットダウンするのがやっとという状態だった. これも良くあること.
- どうにかNTサーバを停止(電源OFF/ON)し,テープを取り出す.
- イベントログを参照すると,今朝のバックアップからSCSI系のエラーが発生していることが判明.(昨日午後にログを確認したときには,全く出てなかった.)
図1 システムログ
SCSIコントローラのエラーは,このソース“aic78xx”である.
デバイス \Device\ScsiPort0 はタイムアウト期間内に応答しませんでした。 |
気になったのが“Scsidisk”で,これを参照すると次のようになっていた.
ドライバは \Device\Harddisk0\Partition1 でコントローラ エラーを検出しました。 |
- DATドライブがおかしいならまだしも,\Device\HardDiskでエラーが発生している.
- “ディスクアドミニストレータ”を起動して確認すると,RAID5のハードディスクが1つOFFになっていることがわかった.
- RAIDの再生成は可能というステータスになっている.
- 以前にも同じ様な現象があり,ここで再生成を行うとデータがクラッシュする場合がある.
- CEにSCSIコントローラベースのROMユーティリティプログラム)ディスクチェックを行ってもらうことに決定.
1998.07.09 17:00
- CEに,ディスクチェックの依頼を行うが,全員出払っているので直ぐに向かうことが出来ないとの回答.
- 待っている間にと,イベントログをチェックするが,次のような問題点があった.
図2 アプリケーションログ
- 先週の水曜日分バックアップの実績から,バックアップ時間は1時間30分程必要だが,今回は55分で終っている.(前出のアプリケーションログ参照)
- ntbackupが出力するバックアップログを参照すると,“ハードウェア障害”というステータスで異常終了している.
- しかし,アプリケーションログには,エラーというステータスが上がっていない.
ここまでの問題点を整理する.
- バックアップは,実際には3:55分の時点でコントローラエラー(図1 システムログ参照)で停止し,バックアップのログ(テキストファイル)では“ハードウェア障害”で異常終了しているにも関わらず,イベントログに残されるNTBackupのステータスはノーマルエンドであった.
- また,RAID5構成(NTの場合,パリティ付きストライプセット)のディスクが1つOFFになっているにも関わらず,FTDisk(フォールトトレランスディスク)が,障害をログに伝えていない.
- 実際には,ディスクアドミニストレータを開いて参照するまで,エラー状況はわからない.
1998.07.09 17:30
エラーになったテープの中身を見るが,別に問題はなさそうであるから,いつものたまにDATドライブが機嫌が悪くなる現象だと考えられる.
ディスク本体の発光ダイオードのランプはOFFになってない.
よって,次のような状態だと考えられる.
- DATドライブ不調によるBUSY.
- それに伴いSCSIがTimeOutが原因のコントローラレスポンス無しとなる.
- よって同じコントローラ上にあったDiskが一時的に使えなくなった.
- これらの原因でRAIDが構成に支障が出ている.
図3 SCSIコントローラと,デバイスの配置
今回RAID構成が崩れたのは,図3のDisk2であるが,これはDATドライブが載っているSCSIコントローラ0系統と同じ部分に配置してある.
1998.07.09 17:40
失敗した水曜日分のバックアップを実施.
1998.07.09 18:00
サポート会社のCEさん(木村さん)到着. 現状を伝える. 先週の実績からして,バックアップ終了は1h40min程度であるから,バックアップ終了は19:30程度と推測される.
1998.07.09 19:30
バックアップ終了. ハードディスクのローレベルチェックをCEに実施してもらう.
1998.07.09 19:40
ディスクのローレベルチェックに問題ないことが判明. RAIDの再生成を開始する.
1998.07.09 20:15
RAIDの再生成終了
1998.07.09 20:25
RAIDドライブが,OFFになった.
図4 RAIDデバイスが,全部不明なデバイスに!(泣)
最悪,Disk上のデータを諦めて,バックアップから戻す作業を行う必要がある.
- 前回のフルバックアップは金曜日.
- 先ほどの差分バックアップ分を含めて,丸一週間分のデータの書き戻しが発生する.
- たぶん,まる半日以上かかる.
RAIDディスクとしては認識されているよう(緑色のラインがでてるから)なので,構成情報をFDから書き戻してみた.
図5 構成情報を書き戻したらDisk4がOff
すると,今度はDisk4がおかしくなった. わけのわからん状態.
この状態でも,
- 動作は遅いがデータアクセスなどは可能.
- よって先ほどの再生成は成功したと判断できる.
- 今度はDisk4を削除し,再度再生成を行えば良いと判断した.
1998.07.08 20:07
- ディスクの再生成開始.
- この状態で,Disk2,3,4の再生成を行う.
図6 Disk4を削除し,RAIDの再生成を行う
- このDisk4を「空き領域」とするためには,「Server サービス」を停止する必要がある.
- これを停止しないと,排他ロックが行えずに空き領域として構成できない.
図7 Disk4がRAIDデバイスと認識,再生成中
1998.07.08 21:15
再生成終了. 今度は正しく認識された.
1998.07.08 21:30
ネットワークを停止していたのを再開するのを忘れていたので,接続トラブルがあったが,この時間までに全て終了した.
3.所感
まず,テープデバイスの不調がSCSIコントローラにまで影響し,RAID5が壊れたのがいただけない. 結局,このテープデバイスエラーは,今までも何度も発生しているが,メーカからは原因の説明がなされていない.
テープメディアもドライブもメーカ純正品である.(実際にはOEM)
その後,メーカからの提言で「テープドライブのファームウェアのリビジョンアップ」を2回行った. しかし,再発する. 壊れたテープを分析してもらったが,原因はつかめず. |
RAIDの再生成が,1回目上手く行かなかった原因が不明なのですっきりしないが,とりあえずは再生成も完了し,ユーザにデータの中身を検証してもらった所,たぶん大丈夫そうな感じではあるが,安心できないような気もする.
4.今後の課題
現在のハード構成での弱点を明確にする事と,現在取ってあるバックアップテープをしばらくは保存する方が良いかと思われる.
また,経験則から,テープドライブが不調の時は,最新のバックアップテープをリストアに利用しない.テープドライブがテープを破壊してしまう可能性がある.(別の重要度の低いテープでテスト)
5.対策
テープがでてこないで,NTサーバの調子がおかしくなるのは,いままでにも多くのサーバで発生しているのだが,メーカからの返答は今だ無い. よって,原因不明なので対応の仕方は無い.
しかし,今後,DATのオートローダを取りつける予定なので,それを実行するといくらか改善すると思われる.
DATオートローダは,外付け装置となり,これを増設するにあたり,SCSIコントローラの増設も必要になる.
よって,テープ装置として稼動する部分は別のコントローラで稼動するため,もし,このオートローダに問題があってもディスクには影響しないとおもわれる.
また,この環境では,SCSI 0にある内蔵DAT装置は使用しない運用とする.
6.その後
予定通りDATのオートローダを取りつけたことにより,メディアの劣化以外のトラブルは一切ない.
- テープのような低速ドライブのみのSCSIコントローラを用意した.
- これによって負荷分散およびディスク系のSCSIコントローラに影響が無い.
- チェンジャにより,テープメディア自体がドライブのヘッドに密着している時間が減少した.
- このチェンジャもサーバメーカ純正だが,中身は別のメーカのOEMで,先の内蔵DATドライブとはメーカが異なるため信頼性が向上した可能性もある.