RAIDエラーからの復旧方法
〜NTのソフトウェアRAIDの場合〜
0.改定履歴
- 1997.12.18 初版
- 1998.08.10 パリティ付きストライプセット,ミラーセットのリンク追加
1.はじめに
このドキュメントは,Windows NT3.51にて,3台のハードディスクをフォールトトレランス機能のパリティ付きストライプセット,つまりRAID環境にソフト的に行なっていた場合に,ハードディスクが壊れ,CE作業にて交換した前後で行なう作業を記述する.
2.壊れている時の現状の把握
フォールトトレランスの稼働状態は,普段はイベントビューアを参照していればよい. ここでエラーが報告されている場合に,次に行なうことはディスクアドミニストレーラでの状態確認である.
障害が発生した場合には,ディスクアドミニストレーラで次の様に表示されている.
この例では,ディスク4番に何らかの不具合が発生している.
ここで,スナップショットを取り損ねたが,ソフト的な障害で復旧することが可能な場合には,ディスクアドミニストレータのステータスバーにて“再生可能”のようなメッセージが表示されている事を確認しなければならない. その場合には,「フォールトトレランスの再生成」を行なう.
3.ハードディスク取り替え後の状態
ハードディスクの取り替えを終了した後に,再度ディスクアドミニストレータを実行すると,次のように表示される.
ここでの署名とは,単に使える状態としてフラグを立てるような物だと思われる. このダイアログでは[はい]を選択する.
すると,ディスクアドミニストレータが起動し,取り替えたハードディスクが“空き領域”として認識されていることが判る.
この時点で,ハードディスクの署名が書き込まれてNTがハードディスクの存在を認識している状態である.
4.フォールトトレランスの再生成
ハードディスクが認識されれば,次に行なうのはフォールトトレランスの再生成である. つまり,この例では通常通りに3台のディスクから構成するRAID5に置き換えたハードディスクを仲間入りさせる事である.
シフトキーかコントロールキーを押しながら,フォールトトレランスの対象となるハードディスクを選択する. 選択すると,黒い縁で囲まれる.
その状態から,[フォールトトレランス]メニューの[再生成]を選択する.
あとは,再生成が終わるまでしばらく待つ必要がある.
この例の場合,2Gのハードディスクであったが,約30分程で再生成が終了した.
5.RAID障害が発生する理由?
この例の様に,NTの標準機能であるソフトウェアRAIDを行なっている場合,次のような事象によりRAIDエラーが発生する.
- システムがダーティシャットダウンされた
- ハードディスクが物理的に壊れた
システムのダーティシャットダウンとは,通常の手順を踏まずに,たとえばいきなり電源OFFを行なったような場合の状態である. このような場合には,NTの遅延書き込み機能によるメモリ上に残ったファイルの状態が正しくハードディスク上に反映されていないのでエラーとなる. RAID5を構成している場合,そのパリティ情報についても書き込まれないためか,フォールトトレランスシステム自体のエラーとなる事がある. 殆どの場合は,幾つかのファイルに誤差が出るかもしれない程度で,再生成で処理を継続することが出来る.
ハード障害が発生した場合,その状態を正しくNTが理解していれば問題ないが,ダーティシャットダウンでフォールトトレランス情報が壊れた時と同じように動作し,再生成後,普段通りに稼働する場合があった. しかし,ハードエラーはなおっておらず,実際にはエラーが発生している.
たとえば,正常に動作しているように見えていても,chkdskコマンドを実行する際に,次のようなメッセージが表示され,実行できないことがある.
Microsoft(R) Windows NT(TM) (C) Copyright 1985-1996 Microsoft Corp. C:\users\default>chkdsk :f ダイレクト アクセスのためにボリュームをオープンできません。 C:\users\default> |
この場合,ハードウェアの障害である率が高いと思われるので,早急にCEコールを行なう必要がある.
6.予備知識〜ハードディスクが壊れそう
メインフレームのハードディスクに関しての説明を受けたときに聞いた話であるが,そのRAIDディスクではハードディスクが壊れそうな状態である事を報告する機能があると聞いた.
ディスクが自分自身で壊れそうであるという警告をどうやって理解するのかというと,それはSCSIあるいはアレイコントローラにてエラーの発生する回数や頻度をチェックしているのだという.
ハードディスクでは,通常エラーが発生しているものらしい. この頻度・回数を把握しておけば,それが多くなればなるほど,寿命が来ている事が推測できるという事だ.
ハードウェアRAIDを行なっている場合,それは細かいレベルでステータスを取ることが出来る様だが,NTが持っているフォールトトレランスドライバではそこまで取得できていない事が実際あった.
7.フォールトトレランスエラーが発生した際の作業について
フォールトトレランスのエラーが発生した場合には,それが再生成可能状態であっても,ハードディスク自身のハードエラーチェックを行なうべきである.
これは,SCSIコントローラについているハードレベルのユーティリティを用いて行なう物であり,通常はCE以外は行なわない様である.
このソフトウェアは,OSが起動する前の,BIOSが初期化・ハードチェックを行なっている状態の時にControl+なんたらのキー操作で起動するものである.
参考文献
- RAID
- パリティ付きストライプセット確立手順
- RAID運用の多重障害 〜作業内容詳細〜
- RAID運用の多重障害 〜テープ装置,ハードディスクのトラブル〜
- RAID運用の多重障害 〜再発を防ぐための対策〜