なぜおきた?
- 大量の義援金を夜間バッチ(Balk Insert)が振り分けきれず、昼間のオンライン(Stream)処理に影響が出てしまった
原因
- システム仕様の理解不足
- 一括処理の上限数を知らなかった
- システム運用のマニュアルがなく、作業ミスが多発した
- リスク管理不足(一括処理の負荷テストをしていない)
- リスク管理の本質 にあるように、現実的に起こりうる問題は事前に手を打っておくべきだった
- 緊急体制の決まりがない(役員が来るまで17時間かかった)
障害後の対策
- 障害後はデータフロー図(DFD) を作って、影響範囲の調査ができるようにした。
- どこのデータが取得できないと、どんなことが起こるのかがわかる