なぜおきた?

  • 大量の義援金を夜間バッチ(Balk Insert)が振り分けきれず、昼間のオンライン(Stream)処理に影響が出てしまった

原因

  • システム仕様の理解不足
    • 一括処理の上限数を知らなかった
  • システム運用のマニュアルがなく、作業ミスが多発した
  • リスク管理不足(一括処理の負荷テストをしていない)
    • リスク管理の本質 にあるように、現実的に起こりうる問題は事前に手を打っておくべきだった
  • 緊急体制の決まりがない(役員が来るまで17時間かかった)

障害後の対策

  • 障害後はデータフロー図(DFD) を作って、影響範囲の調査ができるようにした。
    • どこのデータが取得できないと、どんなことが起こるのかがわかる