UJP - 全銀ネット障害のこと

Life is fun and easy!

不正IP報告数

Okan Sensor
 
メイン
ログイン
ブログ カテゴリ一覧

ブログ - 全銀ネット障害のこと

全銀ネット障害のこと

カテゴリ : 
システム障害事故
ブロガー : 
ujpblog 2024/2/21 1:24
バグは“数千パターンのテスト”をすり抜けた
―NTTデータ「2023/10/10 全銀ネット障害」について説明
https://gihyo.jp/article/2023/11/zengin-nttdata

すべてのフェーズでミスが重なった
―全銀ネットとNTTデータ⁠⁠、全銀システム通信障害の詳細を説明
https://gihyo.jp/article/2023/12/zengin-nttdata

引用:
この2日間の障害発生において、当日中に処理が終わらなかった取引件数は全体で約566万件、うち全銀システムが補償対応を実施した件数は約8,000件、金額にして約800万円と公表されています。
 800万円か.比べてはいけないけど事故対策の人件費より安い.

引用:
「単体テストはほぼカバーできていたが、変更を加えていないテーブルが、ほかのプログラムが動いている状態でどのように動作するのか、その検証が不足していた」

引用:
結合試験や総合試験でほかのプログラムが多重で動いている環境(より本番に近い環境)でテストをしていれば、今回の破損は検出できていたはず。

 やっぱり規模が大きいから,「並行ラン」とか「去年のデータを一通り流す」とかを実現することは難しいか.

引用:
たとえば“⁠直近の最繁忙日の1日分のデータ⁠”といった商用データを使ってカバーしていくほうが良いと考えている」と語っており、今後は実取引相当のデータを活用した疎通試験を実施していく意向を示しています。
 そうなるよなぁ.

 でも表面化した事故がこの程度で終えているのなら,やっぱりかなり優秀と言うことかな.


引用:
NTTデータ側は復旧対応が遅れてしまった理由として以下を挙げています。

・復旧に向けた優先順位の考え方について、あらかじめ全銀ネットと合意していなかった
・見積もり精度よりスピード優先で対処し、限られた時間でのフィージビリティ(実現性)検証のまま前進した
・並走タスクの優先順位の考え方、代替案への切り替え時限の取り決めなく作業を実施した

 稼働して5分で不具合が出たのなら,すぐ前の状態に切り戻すロールバックがセオリーだと思うけど,複雑すぎて戻せないので対策前進しかなく,この全銀ネットの件で言えば,過去に失敗したことがないのでその部分の準備は足りなかったと言うことか.
 自分がやるとした時にどこまでやれるだろう...

トラックバック


広告スペース
Google