RAID運用の多重障害
〜再発防止と復旧時間短縮する為の対策〜
0.改訂履歴
- 1997.12.09 初版
- 1997.12.16 5,6章の追加
- 2000.09.17 会社名を消した
1.はじめに
このドキュメントは,「RAID運用の多重障害 〜テープ装置,ハードディスクのトラブル〜」で報告した障害から,これらの反省点を元にどうすべきかの対策案である.
まず,最初に該当NTサーバの位置づけを明確化し,強化点を示す. これには予算化が伴う.
2.X2NTサーバの位置づけ
XXで使用しているNTサーバは,主にファイル&プリントサーバとして使用されてきた. しかし,今後は,システムの一部として運用する方向になる.
また,稼働するアプリケーションも複雑になるため,信用度を確保したサーバにすべきである.
本番後,おもに稼働するアプリケーションを挙げると,現時点では,次のようになっている.
- NETM/DMを使用する本番配布サーバ
- NETM/DMが使用するSQL Serverが稼働するデータベースサーバ
- グラスボックス化ツールであるLADA Wiseが稼働
- および開発などのドキュメントのファイルサーバ
3.バックアップ環境の強化
現在,バックアップ環境では,次のような問題がある.
- テープ交換を手動で行なっているので,忘れることがある.
- 標準のNTbackupを使用しているため,インクリメンタルバックアップを行なえない
- テープの容量以上のデータ領域がディスクに存在するので,将来的にデータが保存できなくなる可能性もある.
バックアップのテープ交換を忘れた場合の障害は致命的である. この場合,忘れた人を責めるのは筋違いで,システムの落とし穴であることに違いない.
また,NTBackupで採用されているインクリメンタルバックアップは実用的ではないので,フルバックアップを行なっている.
よって,バックアップに長時間必要となっている. さらに,長時間DATを使用するので,テープ装置の故障の原因になっているとも推測される.
この問題を解決するには,市販バックアップソフトの適用がある.
XXセンターの他のサーバのバックアップには,バックアップソフトのARCserveを使用している. これはデータベースを持っており,インクリメンタルバックアップも行なえる. これにより,次のような利点がある.
- バックアップ時間の短縮
- インクリメンタルバックアップを用いれば,最低限のバックアップで完了する.
- リストア時間の短縮
- データベースで管理するので,リストア対象のデータが入っているテープが特定でき,ムダな時間が無い.
- DAT装置の負荷削減
- バックアップする時間が短縮できるので,テープのヘッド使用時間の短縮になり,装置の故障率も改善できると見込める.
- SNMPによるトラップ
- バックアップ時に異常があった場合に,SNMPトラップを発行する事が可能で,それをDual Managerで検知することが出来る.
- XXセンターで実績あり
- 既にXXセンターのメインのファイルサーバで適用済みであり,安定稼働中である.
- SQL Serverのバックアップに対応
- オプションを購入し適用すれば,SQL Serverのオンラインバックアップも可能となる.
- テープの入れ換え忘れに対応可能
- インクリメンタルにすれば,1本のテープに保存できるデータ容量が増すので,2,3日程度テープの入れ換えを忘れていたとしても1本のテープに収録されると思われる.(チェンジャを購入すれば当番も無くなるが)
4.ハードディスク
今回のトラブルで,NTが持つソフトウェアRAIDでは完ぺきに障害を感知し報告する機能が欠如していることが判ったので,これを機にハードウェアRAID化を行なうべきである.
XXセンターで導入してる他のNTサーバは全てハードウェアRAID化されており,いままでにもNTのシステムがクラッシュすることはあってもユーザデータが喪失する障害は発生していない.(ディスクが2本壊れた事が1回あったと記憶しているがそれは除外)
このハードウェアRAID化を行なうためには,DAC(Disk Array Controler)とそれに対応したハードディスクを購入する必要がある.
さらに,当初予定していたより業務アプリケーションで使用するディスク容量が増加(たとえばNETM/DMで使用するSQL Serverは現在2Gのディスクを消費)しており,ハードディスクの容量不足も深刻である.
5.保守契約
今回のトラブルでは,ハードディスクとDAT装置の交換を伴った. これが完了するまでにまる1週間かかった.
これはなぜかというと,保守契約に入っていないため,部品を取り寄せるための時間がかかったためである.
さらに定時後の緊急対応だったのだが,これも保守契約を行なっていないと営業を通してプッシュしてもらうなどの面倒な手続きがあり,修復までの時間がかかってしまう.
今回は部品が手元に直ぐなかったという事もあったが,基本的に保守に入っていない場合は夜間作業は出来ないとなっているとXX通サポートから言われている.
つまり,修復までの期間を短くするためには,保守契約を行なっていなければならない.
6.埃対策
現在XXマシンが設置してあるテストルームでは,サーバ内部に入る埃がとても多い. これはサーバマシンなのでその筐体から机の下に配置している事によって,普通より埃が多くなってしまっている.
今回,ハードウェアトラブルの為にXX通CEと一緒に中を開けてみたが,DAT装置やハードディスクまわりまで埃がびっしりであった. この状態を続けると,再度DAT装置の故障などが発生しやすいと簡単に推測出来るので,対策として次の作業を行なう必要があると考えられる.
- サーバの配置換え
- 机の上に設置する
- サーバマシンの清掃
- 全面のパネルを開けて定期的に掃除機で埃を吸い取る