15-D-7_nomurakuj_Developers_Summit2024
by
Incidenttech
×
Copy
Open
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Slide 1
Slide 1 text
7年間1000件の障害事例からわかった 障害対応の改善ポイント ~協同で変えるシステム障害対応とは?~ 15-D-7 02/15 15:20 ~ 15:50 NTTデータ 野村浩司@nomurakuj X(Twitter) +本日の資料→
Slide 2
Slide 2 text
目次 • アイスブレイク+自己紹介 • 障害対応の改善ポイント • 事例1,2 • 一歩改善を前に進めるために!
Slide 3
Slide 3 text
約4兆9600億円 システム障害の年間国内損失額は?
Slide 4
Slide 4 text
約5件/日 金融庁への1日の障害報告件数は?
Slide 5
Slide 5 text
写真入れる NTTデータにて 13年間,金融サービス担当 ・1日6回、やまない電話! 週2回、夜中に駆け付け! 野村浩司 X (旧Twitter) @nomurakuj 自己紹介 ・きっかけは大規模システム障害 ・社内、社外問わず100社以上と 意見交換・講演・相談を実施!
Slide 6
Slide 6 text
2015年9月5日、大規模システム障害が発生 テレビのニュースに流れる X(旧Twitter)では 「カードが使えない」が多数
Slide 7
Slide 7 text
障害対応の現場も大混乱。 500名以上参集。 多数の件問合せ。
Slide 8
Slide 8 text
7年にわたり 合計約1000 件の障害事例を 分析してわかった、 障害対応の改善ポイント!
Slide 9
Slide 9 text
障害対応の改善ポイント!! ポイント①:システム視点ではなくサービス視点 ポイント②:事象ではなくアクション ポイント③:情報の量ではなく情報の質
Slide 10
Slide 10 text
ポイント①:システム視点ではなくサービス視点 システム視点 サービス視点 システムを直すのも大事だけど、 サービスの継続のほうが大事。 データベー スが落ちた ○○機能が 使えない
Slide 11
Slide 11 text
ポイント②:事象ではなくアクション起点 事象は無限に広がるけど、 アクションの数は収束する。 事象 アクション サーバの再起動、 Webに障害情報を掲載
Slide 12
Slide 12 text
ポイント③:情報の量ではなく情報の質 情報の量 情報の質 緊急時は情報が多いと動けない。 アクション選択の情報が重要 Web掲載の場合 復旧見込みは 正確な分単位ではな く30分以内 or 以上
Slide 13
Slide 13 text
事例1 3つの改善ポイントの抑え方
Slide 14
Slide 14 text
課題:システム更改後の縮小体制への移行 あるログ管理システムにおいて、システム更改を終 えて体制縮小が必要。ベテランがチームを離れる中で 若手で障害対応行う必要がある。 体制変更 5年以上のベテラン 2年未満の若手
Slide 15
Slide 15 text
改善内容:システム障害の定義&関連組織 「大規模なシステム障害」の定義を決定。 それぞれのパターンで関連組織を決定。 Aサービスのオンライン 処理が5分間5件以下 国外からのWebアクセス 10秒以内に1000件以上 チームを離れた ベテランのAさんへ連絡 セキュリティ担当へ 連絡 サービス視点 アクション 質
Slide 16
Slide 16 text
担当者の声:関連組織で安心、判断に自信 自分だけでは不安だった。 支援してくれる関連組織を知って、安心材 料が増えました。 自分自身も曖昧に判断していた大規模障害 の定義が見えてきたのは収穫でした。
Slide 17
Slide 17 text
事例2 改善が進むための工夫
Slide 18
Slide 18 text
(事例)状況:大量のエラーメッセージに悩まされる 大量のエラーメッセージで、運用担当も保守担当も 双方疲弊 ▍STEP1 ▍STEP2 ▍STEP3 ▍STEP4 エラーの 検知 パトランプ 鳴動 メッセージ 確認 エスカレ 電話 月間数万件の エラーメッセージ 大量のエラー 出力で 鳴りっぱなし 確認しても ほぼ意味なし 電話をかけても 「対処不要」 更に…
Slide 19
Slide 19 text
(事例)課題:運用担当・保守担当の壁 不要アラートを止めてほしい運用担当、そこまで手が 回らない保守担当で、担当間の壁有り。
Slide 20
Slide 20 text
(事例)解決策:役割分担の変更 役割分担を変更し、全てを保守担当にまとめて、 自分が楽になるために改善が続く形式へ
Slide 21
Slide 21 text
(事例)効果:役割分担を変えて改善続くように! 運用担当・保守担当の対立構造を解決! 1カ月でアラートが9割減って、その後も改善が継続
Slide 22
Slide 22 text
「協同」で変える システム障害対応とは?
Slide 23
Slide 23 text
「協同」で変える、とは? 開発チーム と ユーザー企業 が 助け合いながらシステム障害対応にあたること。 関係上、難しいこともある… それでも、スタンダードにしたい。 助け合えば、障害対応の改善は、もっと進むはず。 そして、エンドユーザーへの影響を最小化したい。
Slide 24
Slide 24 text
その他の取り組み コミュニティ/ブログ 書籍
Slide 25
Slide 25 text
コミュニティ・ブログ 「システム障害対応改善のコミュニティ」を運営中! システム障害対応に関する情報発信をする「ブログ」 システム障害対応改善 コミュニティ
Slide 26
Slide 26 text
3カ月で改善! システム障害対応 実践ガイド
Slide 27
Slide 27 text
Ask the Speaker & 書籍販売+サイン会 システム障害対応改善 コミュニティ 野村浩司 X (旧Twitter) @nomurakuj