Upgrade to Pro — share decks privately, control downloads, hide ads and more …

みずほ銀行の2021年大規模システム障害に関する考察

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for sarrrrry sarrrrry
June 04, 2021

 みずほ銀行の2021年大規模システム障害に関する考察

Avatar for sarrrrry

sarrrrry

June 04, 2021
Tweet

More Decks by sarrrrry

Other Decks in Business

Transcript

  1. 目次 • みずほ銀行システム障害 ◦ 概要 ◦ 発生事案 ◦ 原因 ◦

    4回の事案の原因とおさらい ◦ まとめ • 類似障害 - JPX終日取引停止事案 ◦ 発生事象 ◦ 失敗の原因 ◦ みずほ銀行との比較 • 分析 ◦ m-SHELL ◦ 独自分析① ◦ 独自分析②: 記者会見 • まとめ 特に黄色文字の箇所が本題 2
  2. 目次 • みずほ銀行システム障害 ◦ 概要 ◦ 発生事案 ◦ 原因 ◦

    4回の事案の原因とおさらい ◦ まとめ • 類似障害 - JPX終日取引停止事案 ◦ 発生事象 ◦ 失敗の原因 ◦ みずほ銀行との比較 • 分析 ◦ m-SHELL ◦ 独自分析① ◦ 独自分析②: 記者会見 • まとめ 3 連続するシステム障害のうち, 1度目の 2 / 28 (日) 事象を中心にして, 概要と事象に分けて紹介する 残り 2〜4 度目の事象は簡単な紹介に限定する
  3. 株式会社みずほ銀行における大規模システム障害 【概要】 2021年2〜3月 株式会社みずほ銀行の勘定系基幹システム MINORI を含むシステムで, 約2週間の短期間の内に4度連続して障害が発生した 5000件以上のカードや通帳の取り込みが発生した事や,短期間に障害が連発した事から, 顧客の信頼を大幅に損なう事案となった ①

    2 / 28 ② 3 / 3 ③ 3 / 7 ④ 3 / 12 顧客への影響 定期性取引不能: 469件 ATM: 4,318台停止 カード・通帳取込: 5,244件 ATM: 29台停止 カード・通帳取込 宝くじ: 7件不成立 みずほダイレクト取引不能 : 9 件 国内他行向け仕向外為送金 遅延: 263件 被仕向外為送金到着案内遅 延: 761件 直接の原因 定期性データの移行時に 一部メモリ容量オーバーが発生 ネットワーク機器故障による 瞬断 カードローン関連リリース時 のプログラム不良 統合ファイル授受基盤に係る 機器故障+バックアップへの 切り替え不良 影響を受けた 取引種類 ATM みずほダイレクト ATM みずほダイレクト ATM みずほダイレクト 外為等 追記 呼損率: 99% 約3分でバックアップ開始 https://www.mizuho-fg.co.jp/release/pdf/20210405_2release_jp.pdf 4
  4. 2 / 28 発生事案 2021 / 2月下旬〜3月上旬にかけて,1年以上通帳記帳がない口 座に対してデジタル口座に自動切り替える予定だった 2 /

    28 (日) に定期預金関連のデータ更新作業を2種類実施 1. 定期預金の積立に関する定例のデータ更新 2. 1年以上記帳が無い顧客口座の 「不稼働」フラグのステータス変更 これにより,定期性基盤のメモリ容量超過で処理が失敗 エラー累積が引き金となり,取引共通基盤内部の, ATM・ダイレクト両処理区画が閉塞した これにより,以下の問題が発生した • 定期性取引不能: 469 件 • ATM停止: 4,318 台 • カード/ 通帳 取込み: 5, 244 件 • 呼損率: 99 % (全体コール数の内,応答出来なかった割合 ) • エラー検知から 7 時間 19 分 原因特定まで https://www.mizuho-fg.co.jp/release/pdf/20210405_2release_jp.pdf 6
  5. 2 / 28 発生事案 2021 / 2月下旬〜3月上旬にかけて,1年以上通帳記帳がない口 座に対してデジタル口座に自動切り替える予定だった 2 /

    28 (日) に定期預金関連のデータ更新作業を2種類実施 1. 定期預金の積立に関する定例のデータ更新 2. 1年以上記帳が無い顧客口座の 「不稼働」フラグのステータス変更 これにより,定期性基盤のメモリ容量超過で処理が失敗 エラー累積が引き金となり,取引共通基盤内部の, ATM・ダイレクト両処理区画が閉塞した これにより,以下の問題が発生した • 定期性取引不能: 469 件 • ATM停止: 4,318 台 • カード/ 通帳 取込み: 5, 244 件 • 呼損率: 99 % (全体コール数の内,応答出来なかった割合 ) • エラー検知から 7 時間 19 分 原因特定まで https://www.mizuho-fg.co.jp/release/pdf/20210405_2release_jp.pdf 7
  6. 2 / 28 原因 ① システム開発のスケジュールが悪い • 取引量がピークとなる事が多い,月末にリリースを実施 ◦ 「ステータス変更は臨時作業でこれまでやったことはない」[1]

    ◦ なのに何故月末に強行したのか? → 印紙税が 2021 / 4月 から施行され,1部 200 円/年 [2] → 全 2400 万口座に印紙税が適用されれば 48 億円/年 → 約半数がデジタル口座に移行される目処だった [2, 要出典] → 通帳発行をケチった • 10万件少ない前日の処理は正常に行われた. → 月末リリース でなければ,問題は発生しなかった → 負荷テスト が十分なら問題は発生しなかった • 金融庁の統計(要出典) によれば,大手銀行のITエンジニアの割合が, 米国では30%なのに対し,日本はたったの4%に留まっている [3] 2 / 27 (前日) 2 / 28 ステータス更新 45 万件 45 万件 定例更新 15 万件 25 万件 合計 60 万件 70 万件 [1] 日経XTECH: https://xtech.nikkei.com/atcl/nxt/column/18/00138/030500746/ [2] 朝日新聞digital: https://www.asahi.com/articles/ASP3875X0P37ULFA001.html [3] zakzak: https://www.zakzak.co.jp/soc/news/210418/dom2104180002-n1.html 緊急時の想定・対応不足が浮き彫りとなり, 「システム軽視」と「組織運営」の経営判断が問題視された 8
  7. 2 / 28 原因 ① システム開発のスケジュールが悪い • 取引量がピークとなる事が多い,月末にリリースを実施 ◦ 「ステータス変更は臨時作業でこれまでやったことはない」[1]

    ◦ なのに何故月末に強行したのか? → 印紙税が 2021 / 4月 から施行され,1部 200 円/年 [2] → 全 2400 万口座に印紙税が適用されれば 48 億円/年 → 約半数がデジタル口座に移行される目処だった [2, 要出典] → 通帳発行をケチった • 10万件少ない前日の処理は正常に行われた. → 月末リリース でなければ,問題は発生しなかった → 負荷テスト が十分なら問題は発生しなかった • 金融庁の統計(要出典) によれば,大手銀行のITエンジニアの割合が, 米国では30%なのに対し,日本はたったの4%に留まっている [3] 2 / 27 (前日) 2 / 28 ステータス更新 45 万件 45 万件 定例更新 15 万件 25 万件 合計 60 万件 70 万件 [1] 日経XTECH: https://xtech.nikkei.com/atcl/nxt/column/18/00138/030500746/ [2] 朝日新聞digital: https://www.asahi.com/articles/ASP3875X0P37ULFA001.html [3] zakzak: https://www.zakzak.co.jp/soc/news/210418/dom2104180002-n1.html 緊急時の想定・対応不足が浮き彫りとなり, 「システム軽視」と「組織運営」の経営判断が問題視された 9
  8. 【顧客対応関連】 • エラー検知から組織内での展開が不十分 ◦ 警備員出動要請&顧客対応指示が遅い ◦ 原因の特定と復旧着手までが遅い • システムでエラーを検知した後も, ATMへの影響が大規模である事を認知していなかった

    • 組織運営に問題がある (後述: 分析) 【システム関連】 • 2019年7月13日に MINORI への完全移行をしたばかり • 安定稼働までの特別人員配置も解除していた. • 制御側の人員をアプリ側に割いていた 2 / 28 原因 ② https://www.mizuho-fg.co.jp/release/pdf/20210405_2release_jp.pdf 緊急時の想定・対応不足が浮き彫りとなり, 「システム軽視」と「組織運営」の経営判断が問題視された 10
  9. 2 / 28 事案を含む 4 回の事案の原因とおさらい ② 3 / 3

    • データセンタ内のネットワーク機器の 物理的故障が発生 • 約 3 分間不安定な状態になり,その後副系に 自動切り替え ③ 3 / 7 • カードローンのプログラム更新 におけるエラー • 詳細不明,カードローンのプログラム不良が総 合口座の取引エラーに波及 • 2/28事案の翌週リリースにも関わらず, テスト不十分かつ本番・開発環境の差異を見 落として事案発生 ④ 3 / 12 • 共有ディスクの物理的故障が発生 • ベンダーによる復旧で約 7 時間 • さらにみずほ側の復旧手順ミス https://www.mizuho-fg.co.jp/release/pdf/20210405_2release_jp.pdf 11
  10. 閑話: Euronet worldwide “Cash machine swallowed your card?” Euronet Worldwide,

    Inc. はATMやPOSを含む電子決済を提供する金融機関. 負けを認めろ 耐えろ 海外ではカード取込は珍しい事でも ないという意見もあり, 取込み事案自体を騒ぎ立てるのは 平和な日本特有かもしれない 13
  11. 目次 • みずほ銀行システム障害 ◦ 概要 ◦ 発生事案 ◦ 原因 ◦

    4回の事案の原因とおさらい ◦ まとめ • 類似障害 - JPX終日取引停止事案 ◦ 発生事象 ◦ 失敗の原因 ◦ みずほ銀行との比較 • 分析 ◦ m-SHELL ◦ 独自分析① ◦ 独自分析②: 記者会見 • まとめ みずほ銀行の対応の良し悪しを判断するため 類似事象にあたる,株式会社日本取引所グループの終日取 引停止事案を紹介する. 発生事象と原因を順に紹介し, 最後にみずほ銀行と比較する 15
  12. 類似障害 - JPX (東証) 終日取引停止事案 【発生事象と原因】 • 共有ディスク装置のメモリが故障 • 本来であれば,待機系に自動切り替え

    (Failover) のはずが,事象発生時には切り替えに失敗し, 相場情報配信業務や売買監視業務に異常が発生した (みずほ④と類似) • 受付済み注文の取り扱い等で混乱を防ぐため, 終日取引停止とした 両図引用: https://www.jpx.co.jp/corporate/research-study/system-failure/index.html 16 【時系列ごとの発生事象】
  13. 類似障害 - JPX (東証) 終日取引停止事案 【切り替えに関する前提知識】 • JPXにおける故障時の自動切り替え方式は2種類ある ◦ 標準テイクオーバー方式

    : 生存を知らせる伝聞が途絶した場合, 15秒後に処理の引き継ぎが行われる方式 ◦ 即時テイクオーバー方式 : 相手方装置から機能停止を知らせる電文を受信した場合,即時に処理の引き継ぎが行われる方式 • arrowhead ◦ JPXが運用する,富士通製 株式等売買システムの名称 ◦ 初代: 2010 / 1 ◦ 2代目: 2015 / 9 ◦ 3代目: 2019 / 11 〜 現在 ← 事象発生 【切り替え失敗の原因】 • 自動切り替えの設定が2代目と3代目で異なっていたが,設定を先代を踏襲したまま対応していなかった ◦ 2代目 True: 即時テイクオーバー有効 False: 即時テイクオーバー無効 標準テイクオーバーは, True/False 問わず常に有効 ◦ 3代目 True: 即時テイクオーバー有効 False: 即時テイクオーバー無効に加え,条件付きで 標準テイクオーバーも無効 17 この設定を対応しなかったために,事案が発生した
  14. みずほ銀行とJPXの比較 みずほ銀行 JPX 事象発生から 第三者委員会設置まで 2 / 28 3 /

    17 17日 10 / 1 10 / 5 4日 第三者委員会による 調査報告書 (6/4 現在) 無し 11 / 30 約 2 ヶ月 事象発生から エラー箇所特定まで 9:51 17:10 7時間19分 7:04 8:54 1時間50分 対応までの時間 (警備員出動) 11:49 1時間58分 (HPで公表) 8:39 1時間35分 SNS等の反応 * これで三回目だからな。四回目もあるぞ。 * もはや年間恒例行事 * 頭取はちゃんと自分の言葉で話せてて好印象。 * 理路整然と受け答えしていて、見事としか言いよう無い。 * 同じインフラエンジニアとして尊敬しかない * ITリテラシーの低すぎる記者がいますね。 18
  15. 目次 • みずほ銀行システム障害 ◦ 概要 ◦ 発生事案 ◦ 原因 ◦

    4回の事案の原因とおさらい ◦ まとめ • 類似障害 - JPX終日取引停止事案 ◦ 発生事象 ◦ 失敗の原因 ◦ みずほ銀行との比較 • 分析 ◦ m-SHELL ◦ 独自分析① ◦ 独自分析②: 記者会見 • まとめ みずほ銀行および, JPXの両システム障害事案に対し, 講義内でご紹介いただいた m-SHELLの分析に挑戦し, さらに2つの独自分析を加えた合計 3 種類の分析を示す 19
  16. みずほ銀行事案に対する分析 - mSHELL分析 m management 経営方針、安全管理など * 心理的安全性の欠如 (後述 -

    独自分析②) S Software 手順書やマニュアル、規則 など * 4度目の事案は手順書にミスがあったことが報告されて いる H Hardware 機器や機材、設備、施設の 構造など * システム監視がされていない,稼働していない E Environment 温度や湿度、照度など * 印紙税 24億円の負担を回避したい * COVID-19 によるコールセンター人員削減 (予想) L-L Liveware (当事者) インシデントに関与した本人 * 月末リリースを強行する経営判断に意見できるシステ ム人材がいない * 上申する事が出来ない (予想) 20
  17. みずほ銀行事案に対する分析 - 独自分析① システムのインシデント分析の際,Software が指している対象の不一致が分析の困難さを導いていたため, 独自の区分で分析した P Programming * テストが不十分

    * 開発工程の決定甘い H Hardware * システム監視が働いていない * ATMの監視が不十分 E Environment * 印紙税 24億円の負担を回避したい * 日曜に事案発生 * COVID-19 によるコールセンター人員削減 (予想) 手順書やマニュアル、 規則など * 手順書が不十分だった (下記発言と④事案) * 「規則通りの対応で,柔軟さが足りなかった」 (会見) T Team * 心理的安全性の欠如 (後述) * MINORI 人材の強化に課題を感じていた 21
  18. みずほ銀行事案に対する分析 - 独自分析② 会見時系列分析 みずほ銀行 参加者 2 名 時間 2

    : 25 : 28 JPX (東証) 参加者 4 名 時間 1 : 37 : 58 22 0:00:00 ~ 0:25:00 質疑開始 0:25:00 0:59:17 ~ 1:01:13 1:30:38 ~ 1:31:55 1:32:33 ~ 1:35:05 1:42:01 ~ 1:43:24 2:23:48 ~ 2:25:18 坂井 社長 宮原 社長 それぞれの色ごとに発言者を意 図しており,両会見の参加者に対 する発言割合を示した. JPXでは専門分野の質問に対し て,担当者がそれぞれ発言した のに対して,みずほでは坂井社 長が話す割合が圧倒的に多かっ た. この事から発言の容易性等の社 風の違いの可能性を示す.
  19. 目次 • みずほ銀行システム障害 ◦ 概要 ◦ 発生事案 ◦ 原因 ◦

    4回の事案の原因とおさらい ◦ まとめ • 類似障害 - JPX終日取引停止事案 ◦ 発生事象 ◦ 失敗の原因 ◦ みずほ銀行との比較 • 分析 ◦ m-SHELL ◦ 独自分析① ◦ 独自分析②: 記者会見 • まとめ 23
  20. まとめ • 最近のソフトウェア開発において,リリースしてからデバッグというのはよくある風潮であり,ましてや超大規模システムである から,2/28の取込事象が発生した事は,そこまでヒステリックに騒ぐ事ではない. • MINORI の開発自体は非常に有意義なもので,超大規模システムの開発初期という事を考えればエラーも考慮されるべきで ある • 大きな問題なのは,

    ◦ 月末にリリースしたというシステム軽視の甘い考えと,事象を連発させたこと ◦ 過去に大規模障害を起こした事で,みずほ =障害という悪印象を顧客に与えながらも,さらに 3度目の障害を発生させたこと • JPXと比較するとみずほ銀行の対応は後手に周り,国民感情に悪い影響を与えている可能性がある • みずほ銀行設立の過去の経緯も考えれば,社風に問題がある事が示唆される • 社風の改善がなければ同様の事案は再度発生すると予想されるが,内部調査から具体的な改正案はまだ出ていない 24