15-D-7_nomurakuj_Developers_Summit2024

7年間1000件の障害事例からわかった障害対応の改善ポイント ~協同で変えるシステム障害対応とは?~ 15-D-7 02/15 15:20 ～ 15:50 NTTデータ野村浩司@nomurakuj
X(Twitter) +本日の資料→

目次 • アイスブレイク＋自己紹介 • 障害対応の改善ポイント • 事例1,2 • 一歩改善を前に進めるために！

約4兆9600億円システム障害の年間国内損失額は？

約5件/日金融庁への1日の障害報告件数は？

写真入れる NTTデータにて 13年間,金融サービス担当・1日6回、やまない電話！週2回、夜中に駆け付け！野村浩司 X (旧Twitter) @nomurakuj 自己紹介
・きっかけは大規模システム障害・社内、社外問わず100社以上と意見交換・講演・相談を実施！

2015年9月5日、大規模システム障害が発生テレビのニュースに流れる X(旧Twitter)では「カードが使えない」が多数

障害対応の現場も大混乱。 500名以上参集。多数の件問合せ。

7年にわたり合計約1000 件の障害事例を分析してわかった、障害対応の改善ポイント！

障害対応の改善ポイント!! ポイント①:システム視点ではなくサービス視点ポイント②:事象ではなくアクションポイント③:情報の量ではなく情報の質

ポイント①:システム視点ではなくサービス視点システム視点サービス視点システムを直すのも大事だけど、サービスの継続のほうが大事。データベースが落ちた ◦◦機能が使えない

ポイント②:事象ではなくアクション起点事象は無限に広がるけど、アクションの数は収束する。事象アクションサーバの再起動、 Webに障害情報を掲載

ポイント③:情報の量ではなく情報の質情報の量情報の質緊急時は情報が多いと動けない。アクション選択の情報が重要 Web掲載の場合復旧見込みは正確な分単位ではなく30分以内 or
以上

事例1 3つの改善ポイントの抑え方

課題：システム更改後の縮小体制への移行あるログ管理システムにおいて、システム更改を終えて体制縮小が必要。ベテランがチームを離れる中で若手で障害対応行う必要がある。体制変更５年以上のベテラン２年未満の若手

改善内容：システム障害の定義＆関連組織「大規模なシステム障害」の定義を決定。それぞれのパターンで関連組織を決定。 Aサービスのオンライン処理が5分間5件以下国外からのWebアクセス 10秒以内に1000件以上チームを離れたベテランのAさんへ連絡セキュリティ担当へ
連絡サービス視点アクション質

担当者の声：関連組織で安心、判断に自信自分だけでは不安だった。支援してくれる関連組織を知って、安心材料が増えました。自分自身も曖昧に判断していた大規模障害の定義が見えてきたのは収穫でした。

事例2 改善が進むための工夫

（事例）状況：大量のエラーメッセージに悩まされる大量のエラーメッセージで、運用担当も保守担当も双方疲弊 ▍STEP1 ▍STEP2 ▍STEP3 ▍STEP4 エラーの検知パトランプ
鳴動メッセージ確認エスカレ電話月間数万件のエラーメッセージ大量のエラー出力で鳴りっぱなし確認してもほぼ意味なし電話をかけても「対処不要」更に…

（事例）課題：運用担当・保守担当の壁不要アラートを止めてほしい運用担当、そこまで手が回らない保守担当で、担当間の壁有り。

（事例）解決策：役割分担の変更役割分担を変更し、全てを保守担当にまとめて、自分が楽になるために改善が続く形式へ

（事例）効果：役割分担を変えて改善続くように！運用担当・保守担当の対立構造を解決！ 1カ月でアラートが9割減って、その後も改善が継続

「協同」で変えるシステム障害対応とは？

「協同」で変える、とは? 開発チームとユーザー企業が助け合いながらシステム障害対応にあたること。関係上、難しいこともある… それでも、スタンダードにしたい。助け合えば、障害対応の改善は、もっと進むはず。そして、エンドユーザーへの影響を最小化したい。

その他の取り組みコミュニティ／ブログ書籍

コミュニティ・ブログ「システム障害対応改善のコミュニティ」を運営中！システム障害対応に関する情報発信をする「ブログ」システム障害対応改善コミュニティ

3カ月で改善! システム障害対応実践ガイド

Ask the Speaker ＆書籍販売＋サイン会システム障害対応改善コミュニティ野村浩司 X (旧Twitter)
@nomurakuj

15-D-7_nomurakuj_Developers_Summit2024

15-D-7_nomurakuj_Developers_Summit2024

Incidenttech

More Decks by Incidenttech

Featured

Transcript

7年間1000件の障害事例からわかった障害対応の改善ポイント ~協同で変えるシステム障害対応とは?~ 15-D-7 02/15 15:20 ～ 15:50 NTTデータ野村浩司@nomurakuj

目次 • アイスブレイク＋自己紹介 • 障害対応の改善ポイント • 事例1,2 • 一歩改善を前に進めるために！

約4兆9600億円システム障害の年間国内損失額は？

約5件/日金融庁への1日の障害報告件数は？

写真入れる NTTデータにて 13年間,金融サービス担当・1日6回、やまない電話！週2回、夜中に駆け付け！野村浩司 X (旧Twitter) @nomurakuj 自己紹介

2015年9月5日、大規模システム障害が発生テレビのニュースに流れる X(旧Twitter)では「カードが使えない」が多数

障害対応の現場も大混乱。 500名以上参集。多数の件問合せ。

7年にわたり合計約1000 件の障害事例を分析してわかった、障害対応の改善ポイント！

障害対応の改善ポイント!! ポイント①:システム視点ではなくサービス視点ポイント②:事象ではなくアクションポイント③:情報の量ではなく情報の質

ポイント①:システム視点ではなくサービス視点システム視点サービス視点システムを直すのも大事だけど、サービスの継続のほうが大事。データベースが落ちた ◦◦機能が使えない

ポイント②:事象ではなくアクション起点事象は無限に広がるけど、アクションの数は収束する。事象アクションサーバの再起動、 Webに障害情報を掲載

ポイント③:情報の量ではなく情報の質情報の量情報の質緊急時は情報が多いと動けない。アクション選択の情報が重要 Web掲載の場合復旧見込みは正確な分単位ではなく30分以内 or

事例1 3つの改善ポイントの抑え方

担当者の声：関連組織で安心、判断に自信自分だけでは不安だった。支援してくれる関連組織を知って、安心材料が増えました。自分自身も曖昧に判断していた大規模障害の定義が見えてきたのは収穫でした。

事例2 改善が進むための工夫

（事例）状況：大量のエラーメッセージに悩まされる大量のエラーメッセージで、運用担当も保守担当も双方疲弊 ▍STEP1 ▍STEP2 ▍STEP3 ▍STEP4 エラーの検知パトランプ

（事例）課題：運用担当・保守担当の壁不要アラートを止めてほしい運用担当、そこまで手が回らない保守担当で、担当間の壁有り。

（事例）解決策：役割分担の変更役割分担を変更し、全てを保守担当にまとめて、自分が楽になるために改善が続く形式へ

（事例）効果：役割分担を変えて改善続くように！運用担当・保守担当の対立構造を解決！ 1カ月でアラートが9割減って、その後も改善が継続

「協同」で変えるシステム障害対応とは？

その他の取り組みコミュニティ／ブログ書籍

コミュニティ・ブログ「システム障害対応改善のコミュニティ」を運営中！システム障害対応に関する情報発信をする「ブログ」システム障害対応改善コミュニティ

3カ月で改善! システム障害対応実践ガイド

Ask the Speaker ＆書籍販売＋サイン会システム障害対応改善コミュニティ野村浩司 X (旧Twitter)