ブログ - 増えだしたら一気に
ディスク使用量のアラートは,しきい値をどこに設定するか,またその頻度をどうするかというのがある.特にあまり監視コストをかけられないような用途の場合.

早期発見のためには高頻度監視なんだけれど,そうなると通知が頻発すぎて難しい.余裕あるよう70%を閾値とした場合に,一旦71%になるとそれを解消するまではずっとアラームが上がり続ける.そしてオオカミ少年のようになり,アラーム無視され,重大事故の時に発見できなくなる.

このサーバの場合,目算で95GB程度で安定していたにもかかわらず,とある障害でエラーログを大量に吐き出し始めたら,50GBほどの大きなログファイルが生成され,最大容量の150GBとなってディスクフルになってしまった例.
わかってしまえば「ログファイルだった」のだけれど,昔のUNIXのようにファイルシステムのパーティションを複数分割しないから,どのディレクトリ,ファイルが増えたのかは手探りで探す必要がある.LinuxやMacOS Xだとfindコマンドだし,WindowsだとExplorerの検索オプションにファイルサイズを指定するところがある.

早期発見のためには高頻度監視なんだけれど,そうなると通知が頻発すぎて難しい.余裕あるよう70%を閾値とした場合に,一旦71%になるとそれを解消するまではずっとアラームが上がり続ける.そしてオオカミ少年のようになり,アラーム無視され,重大事故の時に発見できなくなる.

このサーバの場合,目算で95GB程度で安定していたにもかかわらず,とある障害でエラーログを大量に吐き出し始めたら,50GBほどの大きなログファイルが生成され,最大容量の150GBとなってディスクフルになってしまった例.
わかってしまえば「ログファイルだった」のだけれど,昔のUNIXのようにファイルシステムのパーティションを複数分割しないから,どのディレクトリ,ファイルが増えたのかは手探りで探す必要がある.LinuxやMacOS Xだとfindコマンドだし,WindowsだとExplorerの検索オプションにファイルサイズを指定するところがある.