Upgrade to Pro — share decks privately, control downloads, hide ads and more …

みずほ銀行の2021年大規模システム障害に関する考察

sarrrrry
June 04, 2021

 みずほ銀行の2021年大規模システム障害に関する考察

sarrrrry

June 04, 2021
Tweet

More Decks by sarrrrry

Other Decks in Business

Transcript

  1. 目次 • みずほ銀行システム障害 ◦ 概要 ◦ 発生事案 ◦ 原因 ◦

    4回の事案の原因とおさらい ◦ まとめ • 類似障害 - JPX終日取引停止事案 ◦ 発生事象 ◦ 失敗の原因 ◦ みずほ銀行との比較 • 分析 ◦ m-SHELL ◦ 独自分析① ◦ 独自分析②: 記者会見 • まとめ 特に黄色文字の箇所が本題 2
  2. 目次 • みずほ銀行システム障害 ◦ 概要 ◦ 発生事案 ◦ 原因 ◦

    4回の事案の原因とおさらい ◦ まとめ • 類似障害 - JPX終日取引停止事案 ◦ 発生事象 ◦ 失敗の原因 ◦ みずほ銀行との比較 • 分析 ◦ m-SHELL ◦ 独自分析① ◦ 独自分析②: 記者会見 • まとめ 3 連続するシステム障害のうち, 1度目の 2 / 28 (日) 事象を中心にして, 概要と事象に分けて紹介する 残り 2〜4 度目の事象は簡単な紹介に限定する
  3. 株式会社みずほ銀行における大規模システム障害 【概要】 2021年2〜3月 株式会社みずほ銀行の勘定系基幹システム MINORI を含むシステムで, 約2週間の短期間の内に4度連続して障害が発生した 5000件以上のカードや通帳の取り込みが発生した事や,短期間に障害が連発した事から, 顧客の信頼を大幅に損なう事案となった ①

    2 / 28 ② 3 / 3 ③ 3 / 7 ④ 3 / 12 顧客への影響 定期性取引不能: 469件 ATM: 4,318台停止 カード・通帳取込: 5,244件 ATM: 29台停止 カード・通帳取込 宝くじ: 7件不成立 みずほダイレクト取引不能 : 9 件 国内他行向け仕向外為送金 遅延: 263件 被仕向外為送金到着案内遅 延: 761件 直接の原因 定期性データの移行時に 一部メモリ容量オーバーが発生 ネットワーク機器故障による 瞬断 カードローン関連リリース時 のプログラム不良 統合ファイル授受基盤に係る 機器故障+バックアップへの 切り替え不良 影響を受けた 取引種類 ATM みずほダイレクト ATM みずほダイレクト ATM みずほダイレクト 外為等 追記 呼損率: 99% 約3分でバックアップ開始 https://www.mizuho-fg.co.jp/release/pdf/20210405_2release_jp.pdf 4
  4. 2 / 28 発生事案 2021 / 2月下旬〜3月上旬にかけて,1年以上通帳記帳がない口 座に対してデジタル口座に自動切り替える予定だった 2 /

    28 (日) に定期預金関連のデータ更新作業を2種類実施 1. 定期預金の積立に関する定例のデータ更新 2. 1年以上記帳が無い顧客口座の 「不稼働」フラグのステータス変更 これにより,定期性基盤のメモリ容量超過で処理が失敗 エラー累積が引き金となり,取引共通基盤内部の, ATM・ダイレクト両処理区画が閉塞した これにより,以下の問題が発生した • 定期性取引不能: 469 件 • ATM停止: 4,318 台 • カード/ 通帳 取込み: 5, 244 件 • 呼損率: 99 % (全体コール数の内,応答出来なかった割合 ) • エラー検知から 7 時間 19 分 原因特定まで https://www.mizuho-fg.co.jp/release/pdf/20210405_2release_jp.pdf 6
  5. 2 / 28 発生事案 2021 / 2月下旬〜3月上旬にかけて,1年以上通帳記帳がない口 座に対してデジタル口座に自動切り替える予定だった 2 /

    28 (日) に定期預金関連のデータ更新作業を2種類実施 1. 定期預金の積立に関する定例のデータ更新 2. 1年以上記帳が無い顧客口座の 「不稼働」フラグのステータス変更 これにより,定期性基盤のメモリ容量超過で処理が失敗 エラー累積が引き金となり,取引共通基盤内部の, ATM・ダイレクト両処理区画が閉塞した これにより,以下の問題が発生した • 定期性取引不能: 469 件 • ATM停止: 4,318 台 • カード/ 通帳 取込み: 5, 244 件 • 呼損率: 99 % (全体コール数の内,応答出来なかった割合 ) • エラー検知から 7 時間 19 分 原因特定まで https://www.mizuho-fg.co.jp/release/pdf/20210405_2release_jp.pdf 7
  6. 2 / 28 原因 ① システム開発のスケジュールが悪い • 取引量がピークとなる事が多い,月末にリリースを実施 ◦ 「ステータス変更は臨時作業でこれまでやったことはない」[1]

    ◦ なのに何故月末に強行したのか? → 印紙税が 2021 / 4月 から施行され,1部 200 円/年 [2] → 全 2400 万口座に印紙税が適用されれば 48 億円/年 → 約半数がデジタル口座に移行される目処だった [2, 要出典] → 通帳発行をケチった • 10万件少ない前日の処理は正常に行われた. → 月末リリース でなければ,問題は発生しなかった → 負荷テスト が十分なら問題は発生しなかった • 金融庁の統計(要出典) によれば,大手銀行のITエンジニアの割合が, 米国では30%なのに対し,日本はたったの4%に留まっている [3] 2 / 27 (前日) 2 / 28 ステータス更新 45 万件 45 万件 定例更新 15 万件 25 万件 合計 60 万件 70 万件 [1] 日経XTECH: https://xtech.nikkei.com/atcl/nxt/column/18/00138/030500746/ [2] 朝日新聞digital: https://www.asahi.com/articles/ASP3875X0P37ULFA001.html [3] zakzak: https://www.zakzak.co.jp/soc/news/210418/dom2104180002-n1.html 緊急時の想定・対応不足が浮き彫りとなり, 「システム軽視」と「組織運営」の経営判断が問題視された 8
  7. 2 / 28 原因 ① システム開発のスケジュールが悪い • 取引量がピークとなる事が多い,月末にリリースを実施 ◦ 「ステータス変更は臨時作業でこれまでやったことはない」[1]

    ◦ なのに何故月末に強行したのか? → 印紙税が 2021 / 4月 から施行され,1部 200 円/年 [2] → 全 2400 万口座に印紙税が適用されれば 48 億円/年 → 約半数がデジタル口座に移行される目処だった [2, 要出典] → 通帳発行をケチった • 10万件少ない前日の処理は正常に行われた. → 月末リリース でなければ,問題は発生しなかった → 負荷テスト が十分なら問題は発生しなかった • 金融庁の統計(要出典) によれば,大手銀行のITエンジニアの割合が, 米国では30%なのに対し,日本はたったの4%に留まっている [3] 2 / 27 (前日) 2 / 28 ステータス更新 45 万件 45 万件 定例更新 15 万件 25 万件 合計 60 万件 70 万件 [1] 日経XTECH: https://xtech.nikkei.com/atcl/nxt/column/18/00138/030500746/ [2] 朝日新聞digital: https://www.asahi.com/articles/ASP3875X0P37ULFA001.html [3] zakzak: https://www.zakzak.co.jp/soc/news/210418/dom2104180002-n1.html 緊急時の想定・対応不足が浮き彫りとなり, 「システム軽視」と「組織運営」の経営判断が問題視された 9
  8. 【顧客対応関連】 • エラー検知から組織内での展開が不十分 ◦ 警備員出動要請&顧客対応指示が遅い ◦ 原因の特定と復旧着手までが遅い • システムでエラーを検知した後も, ATMへの影響が大規模である事を認知していなかった

    • 組織運営に問題がある (後述: 分析) 【システム関連】 • 2019年7月13日に MINORI への完全移行をしたばかり • 安定稼働までの特別人員配置も解除していた. • 制御側の人員をアプリ側に割いていた 2 / 28 原因 ② https://www.mizuho-fg.co.jp/release/pdf/20210405_2release_jp.pdf 緊急時の想定・対応不足が浮き彫りとなり, 「システム軽視」と「組織運営」の経営判断が問題視された 10
  9. 2 / 28 事案を含む 4 回の事案の原因とおさらい ② 3 / 3

    • データセンタ内のネットワーク機器の 物理的故障が発生 • 約 3 分間不安定な状態になり,その後副系に 自動切り替え ③ 3 / 7 • カードローンのプログラム更新 におけるエラー • 詳細不明,カードローンのプログラム不良が総 合口座の取引エラーに波及 • 2/28事案の翌週リリースにも関わらず, テスト不十分かつ本番・開発環境の差異を見 落として事案発生 ④ 3 / 12 • 共有ディスクの物理的故障が発生 • ベンダーによる復旧で約 7 時間 • さらにみずほ側の復旧手順ミス https://www.mizuho-fg.co.jp/release/pdf/20210405_2release_jp.pdf 11
  10. 閑話: Euronet worldwide “Cash machine swallowed your card?” Euronet Worldwide,

    Inc. はATMやPOSを含む電子決済を提供する金融機関. 負けを認めろ 耐えろ 海外ではカード取込は珍しい事でも ないという意見もあり, 取込み事案自体を騒ぎ立てるのは 平和な日本特有かもしれない 13
  11. 目次 • みずほ銀行システム障害 ◦ 概要 ◦ 発生事案 ◦ 原因 ◦

    4回の事案の原因とおさらい ◦ まとめ • 類似障害 - JPX終日取引停止事案 ◦ 発生事象 ◦ 失敗の原因 ◦ みずほ銀行との比較 • 分析 ◦ m-SHELL ◦ 独自分析① ◦ 独自分析②: 記者会見 • まとめ みずほ銀行の対応の良し悪しを判断するため 類似事象にあたる,株式会社日本取引所グループの終日取 引停止事案を紹介する. 発生事象と原因を順に紹介し, 最後にみずほ銀行と比較する 15
  12. 類似障害 - JPX (東証) 終日取引停止事案 【発生事象と原因】 • 共有ディスク装置のメモリが故障 • 本来であれば,待機系に自動切り替え

    (Failover) のはずが,事象発生時には切り替えに失敗し, 相場情報配信業務や売買監視業務に異常が発生した (みずほ④と類似) • 受付済み注文の取り扱い等で混乱を防ぐため, 終日取引停止とした 両図引用: https://www.jpx.co.jp/corporate/research-study/system-failure/index.html 16 【時系列ごとの発生事象】
  13. 類似障害 - JPX (東証) 終日取引停止事案 【切り替えに関する前提知識】 • JPXにおける故障時の自動切り替え方式は2種類ある ◦ 標準テイクオーバー方式

    : 生存を知らせる伝聞が途絶した場合, 15秒後に処理の引き継ぎが行われる方式 ◦ 即時テイクオーバー方式 : 相手方装置から機能停止を知らせる電文を受信した場合,即時に処理の引き継ぎが行われる方式 • arrowhead ◦ JPXが運用する,富士通製 株式等売買システムの名称 ◦ 初代: 2010 / 1 ◦ 2代目: 2015 / 9 ◦ 3代目: 2019 / 11 〜 現在 ← 事象発生 【切り替え失敗の原因】 • 自動切り替えの設定が2代目と3代目で異なっていたが,設定を先代を踏襲したまま対応していなかった ◦ 2代目 True: 即時テイクオーバー有効 False: 即時テイクオーバー無効 標準テイクオーバーは, True/False 問わず常に有効 ◦ 3代目 True: 即時テイクオーバー有効 False: 即時テイクオーバー無効に加え,条件付きで 標準テイクオーバーも無効 17 この設定を対応しなかったために,事案が発生した
  14. みずほ銀行とJPXの比較 みずほ銀行 JPX 事象発生から 第三者委員会設置まで 2 / 28 3 /

    17 17日 10 / 1 10 / 5 4日 第三者委員会による 調査報告書 (6/4 現在) 無し 11 / 30 約 2 ヶ月 事象発生から エラー箇所特定まで 9:51 17:10 7時間19分 7:04 8:54 1時間50分 対応までの時間 (警備員出動) 11:49 1時間58分 (HPで公表) 8:39 1時間35分 SNS等の反応 * これで三回目だからな。四回目もあるぞ。 * もはや年間恒例行事 * 頭取はちゃんと自分の言葉で話せてて好印象。 * 理路整然と受け答えしていて、見事としか言いよう無い。 * 同じインフラエンジニアとして尊敬しかない * ITリテラシーの低すぎる記者がいますね。 18
  15. 目次 • みずほ銀行システム障害 ◦ 概要 ◦ 発生事案 ◦ 原因 ◦

    4回の事案の原因とおさらい ◦ まとめ • 類似障害 - JPX終日取引停止事案 ◦ 発生事象 ◦ 失敗の原因 ◦ みずほ銀行との比較 • 分析 ◦ m-SHELL ◦ 独自分析① ◦ 独自分析②: 記者会見 • まとめ みずほ銀行および, JPXの両システム障害事案に対し, 講義内でご紹介いただいた m-SHELLの分析に挑戦し, さらに2つの独自分析を加えた合計 3 種類の分析を示す 19
  16. みずほ銀行事案に対する分析 - mSHELL分析 m management 経営方針、安全管理など * 心理的安全性の欠如 (後述 -

    独自分析②) S Software 手順書やマニュアル、規則 など * 4度目の事案は手順書にミスがあったことが報告されて いる H Hardware 機器や機材、設備、施設の 構造など * システム監視がされていない,稼働していない E Environment 温度や湿度、照度など * 印紙税 24億円の負担を回避したい * COVID-19 によるコールセンター人員削減 (予想) L-L Liveware (当事者) インシデントに関与した本人 * 月末リリースを強行する経営判断に意見できるシステ ム人材がいない * 上申する事が出来ない (予想) 20
  17. みずほ銀行事案に対する分析 - 独自分析① システムのインシデント分析の際,Software が指している対象の不一致が分析の困難さを導いていたため, 独自の区分で分析した P Programming * テストが不十分

    * 開発工程の決定甘い H Hardware * システム監視が働いていない * ATMの監視が不十分 E Environment * 印紙税 24億円の負担を回避したい * 日曜に事案発生 * COVID-19 によるコールセンター人員削減 (予想) 手順書やマニュアル、 規則など * 手順書が不十分だった (下記発言と④事案) * 「規則通りの対応で,柔軟さが足りなかった」 (会見) T Team * 心理的安全性の欠如 (後述) * MINORI 人材の強化に課題を感じていた 21
  18. みずほ銀行事案に対する分析 - 独自分析② 会見時系列分析 みずほ銀行 参加者 2 名 時間 2

    : 25 : 28 JPX (東証) 参加者 4 名 時間 1 : 37 : 58 22 0:00:00 ~ 0:25:00 質疑開始 0:25:00 0:59:17 ~ 1:01:13 1:30:38 ~ 1:31:55 1:32:33 ~ 1:35:05 1:42:01 ~ 1:43:24 2:23:48 ~ 2:25:18 坂井 社長 宮原 社長 それぞれの色ごとに発言者を意 図しており,両会見の参加者に対 する発言割合を示した. JPXでは専門分野の質問に対し て,担当者がそれぞれ発言した のに対して,みずほでは坂井社 長が話す割合が圧倒的に多かっ た. この事から発言の容易性等の社 風の違いの可能性を示す.
  19. 目次 • みずほ銀行システム障害 ◦ 概要 ◦ 発生事案 ◦ 原因 ◦

    4回の事案の原因とおさらい ◦ まとめ • 類似障害 - JPX終日取引停止事案 ◦ 発生事象 ◦ 失敗の原因 ◦ みずほ銀行との比較 • 分析 ◦ m-SHELL ◦ 独自分析① ◦ 独自分析②: 記者会見 • まとめ 23
  20. まとめ • 最近のソフトウェア開発において,リリースしてからデバッグというのはよくある風潮であり,ましてや超大規模システムである から,2/28の取込事象が発生した事は,そこまでヒステリックに騒ぐ事ではない. • MINORI の開発自体は非常に有意義なもので,超大規模システムの開発初期という事を考えればエラーも考慮されるべきで ある • 大きな問題なのは,

    ◦ 月末にリリースしたというシステム軽視の甘い考えと,事象を連発させたこと ◦ 過去に大規模障害を起こした事で,みずほ =障害という悪印象を顧客に与えながらも,さらに 3度目の障害を発生させたこと • JPXと比較するとみずほ銀行の対応は後手に周り,国民感情に悪い影響を与えている可能性がある • みずほ銀行設立の過去の経緯も考えれば,社風に問題がある事が示唆される • 社風の改善がなければ同様の事案は再度発生すると予想されるが,内部調査から具体的な改正案はまだ出ていない 24