15-D-7_nomurakuj_Developers_Summit2024
by
Incidenttech
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
7年間1000件の障害事例からわかった 障害対応の改善ポイント ~協同で変えるシステム障害対応とは?~ 15-D-7 02/15 15:20 ~ 15:50 NTTデータ 野村浩司@nomurakuj X(Twitter) +本日の資料→
Slide 2
Slide 2 text
目次 • アイスブレイク+自己紹介 • 障害対応の改善ポイント • 事例1,2 • 一歩改善を前に進めるために!
Slide 3
Slide 3 text
約4兆9600億円 システム障害の年間国内損失額は?
Slide 4
Slide 4 text
約5件/日 金融庁への1日の障害報告件数は?
Slide 5
Slide 5 text
写真入れる NTTデータにて 13年間,金融サービス担当 ・1日6回、やまない電話! 週2回、夜中に駆け付け! 野村浩司 X (旧Twitter) @nomurakuj 自己紹介 ・きっかけは大規模システム障害 ・社内、社外問わず100社以上と 意見交換・講演・相談を実施!
Slide 6
Slide 6 text
2015年9月5日、大規模システム障害が発生 テレビのニュースに流れる X(旧Twitter)では 「カードが使えない」が多数
Slide 7
Slide 7 text
障害対応の現場も大混乱。 500名以上参集。 多数の件問合せ。
Slide 8
Slide 8 text
7年にわたり 合計約1000 件の障害事例を 分析してわかった、 障害対応の改善ポイント!
Slide 9
Slide 9 text
障害対応の改善ポイント!! ポイント①:システム視点ではなくサービス視点 ポイント②:事象ではなくアクション ポイント③:情報の量ではなく情報の質
Slide 10
Slide 10 text
ポイント①:システム視点ではなくサービス視点 システム視点 サービス視点 システムを直すのも大事だけど、 サービスの継続のほうが大事。 データベー スが落ちた ○○機能が 使えない
Slide 11
Slide 11 text
ポイント②:事象ではなくアクション起点 事象は無限に広がるけど、 アクションの数は収束する。 事象 アクション サーバの再起動、 Webに障害情報を掲載
Slide 12
Slide 12 text
ポイント③:情報の量ではなく情報の質 情報の量 情報の質 緊急時は情報が多いと動けない。 アクション選択の情報が重要 Web掲載の場合 復旧見込みは 正確な分単位ではな く30分以内 or 以上
Slide 13
Slide 13 text
事例1 3つの改善ポイントの抑え方
Slide 14
Slide 14 text
課題:システム更改後の縮小体制への移行 あるログ管理システムにおいて、システム更改を終 えて体制縮小が必要。ベテランがチームを離れる中で 若手で障害対応行う必要がある。 体制変更 5年以上のベテラン 2年未満の若手
Slide 15
Slide 15 text
改善内容:システム障害の定義&関連組織 「大規模なシステム障害」の定義を決定。 それぞれのパターンで関連組織を決定。 Aサービスのオンライン 処理が5分間5件以下 国外からのWebアクセス 10秒以内に1000件以上 チームを離れた ベテランのAさんへ連絡 セキュリティ担当へ 連絡 サービス視点 アクション 質
Slide 16
Slide 16 text
担当者の声:関連組織で安心、判断に自信 自分だけでは不安だった。 支援してくれる関連組織を知って、安心材 料が増えました。 自分自身も曖昧に判断していた大規模障害 の定義が見えてきたのは収穫でした。
Slide 17
Slide 17 text
事例2 改善が進むための工夫
Slide 18
Slide 18 text
(事例)状況:大量のエラーメッセージに悩まされる 大量のエラーメッセージで、運用担当も保守担当も 双方疲弊 ▍STEP1 ▍STEP2 ▍STEP3 ▍STEP4 エラーの 検知 パトランプ 鳴動 メッセージ 確認 エスカレ 電話 月間数万件の エラーメッセージ 大量のエラー 出力で 鳴りっぱなし 確認しても ほぼ意味なし 電話をかけても 「対処不要」 更に…
Slide 19
Slide 19 text
(事例)課題:運用担当・保守担当の壁 不要アラートを止めてほしい運用担当、そこまで手が 回らない保守担当で、担当間の壁有り。
Slide 20
Slide 20 text
(事例)解決策:役割分担の変更 役割分担を変更し、全てを保守担当にまとめて、 自分が楽になるために改善が続く形式へ
Slide 21
Slide 21 text
(事例)効果:役割分担を変えて改善続くように! 運用担当・保守担当の対立構造を解決! 1カ月でアラートが9割減って、その後も改善が継続
Slide 22
Slide 22 text
「協同」で変える システム障害対応とは?
Slide 23
Slide 23 text
「協同」で変える、とは? 開発チーム と ユーザー企業 が 助け合いながらシステム障害対応にあたること。 関係上、難しいこともある… それでも、スタンダードにしたい。 助け合えば、障害対応の改善は、もっと進むはず。 そして、エンドユーザーへの影響を最小化したい。
Slide 24
Slide 24 text
その他の取り組み コミュニティ/ブログ 書籍
Slide 25
Slide 25 text
コミュニティ・ブログ 「システム障害対応改善のコミュニティ」を運営中! システム障害対応に関する情報発信をする「ブログ」 システム障害対応改善 コミュニティ
Slide 26
Slide 26 text
3カ月で改善! システム障害対応 実践ガイド
Slide 27
Slide 27 text
Ask the Speaker & 書籍販売+サイン会 システム障害対応改善 コミュニティ 野村浩司 X (旧Twitter) @nomurakuj