Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
15-D-7_nomurakuj_Developers_Summit2024
Search
Incidenttech
February 14, 2024
2
2.7k
15-D-7_nomurakuj_Developers_Summit2024
Incidenttech
February 14, 2024
Tweet
Share
More Decks by Incidenttech
See All by Incidenttech
BPStudy#193〜システム障害は突然に_障害対応のポイントや改善方法を学ぼう
incidenttech
0
300
Featured
See All Featured
[RailsConf 2023] Rails as a piece of cake
palkan
53
5k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
127
18k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
365
25k
Practical Orchestrator
shlominoach
186
10k
How GitHub (no longer) Works
holman
311
140k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
33
1.9k
jQuery: Nuts, Bolts and Bling
dougneiner
61
7.5k
Put a Button on it: Removing Barriers to Going Fast.
kastner
59
3.6k
Reflections from 52 weeks, 52 projects
jeffersonlam
347
20k
Measuring & Analyzing Core Web Vitals
bluesmoon
4
170
Java REST API Framework Comparison - PWX 2021
mraible
PRO
28
8.3k
Gamification - CAS2011
davidbonilla
80
5.1k
Transcript
7年間1000件の障害事例からわかった 障害対応の改善ポイント ~協同で変えるシステム障害対応とは?~ 15-D-7 02/15 15:20 ~ 15:50 NTTデータ 野村浩司@nomurakuj
X(Twitter) +本日の資料→
目次 • アイスブレイク+自己紹介 • 障害対応の改善ポイント • 事例1,2 • 一歩改善を前に進めるために!
約4兆9600億円 システム障害の年間国内損失額は?
約5件/日 金融庁への1日の障害報告件数は?
写真入れる NTTデータにて 13年間,金融サービス担当 ・1日6回、やまない電話! 週2回、夜中に駆け付け! 野村浩司 X (旧Twitter) @nomurakuj 自己紹介
・きっかけは大規模システム障害 ・社内、社外問わず100社以上と 意見交換・講演・相談を実施!
2015年9月5日、大規模システム障害が発生 テレビのニュースに流れる X(旧Twitter)では 「カードが使えない」が多数
障害対応の現場も大混乱。 500名以上参集。 多数の件問合せ。
7年にわたり 合計約1000 件の障害事例を 分析してわかった、 障害対応の改善ポイント!
障害対応の改善ポイント!! ポイント①:システム視点ではなくサービス視点 ポイント②:事象ではなくアクション ポイント③:情報の量ではなく情報の質
ポイント①:システム視点ではなくサービス視点 システム視点 サービス視点 システムを直すのも大事だけど、 サービスの継続のほうが大事。 データベー スが落ちた ◦◦機能が 使えない
ポイント②:事象ではなくアクション起点 事象は無限に広がるけど、 アクションの数は収束する。 事象 アクション サーバの再起動、 Webに障害情報を掲載
ポイント③:情報の量ではなく情報の質 情報の量 情報の質 緊急時は情報が多いと動けない。 アクション選択の情報が重要 Web掲載の場合 復旧見込みは 正確な分単位ではな く30分以内 or
以上
事例1 3つの改善ポイントの抑え方
課題:システム更改後の縮小体制への移行 あるログ管理システムにおいて、システム更改を終 えて体制縮小が必要。ベテランがチームを離れる中で 若手で障害対応行う必要がある。 体制変更 5年以上のベテラン 2年未満の若手
改善内容:システム障害の定義&関連組織 「大規模なシステム障害」の定義を決定。 それぞれのパターンで関連組織を決定。 Aサービスのオンライン 処理が5分間5件以下 国外からのWebアクセス 10秒以内に1000件以上 チームを離れた ベテランのAさんへ連絡 セキュリティ担当へ
連絡 サービス視点 アクション 質
担当者の声:関連組織で安心、判断に自信 自分だけでは不安だった。 支援してくれる関連組織を知って、安心材 料が増えました。 自分自身も曖昧に判断していた大規模障害 の定義が見えてきたのは収穫でした。
事例2 改善が進むための工夫
(事例)状況:大量のエラーメッセージに悩まされる 大量のエラーメッセージで、運用担当も保守担当も 双方疲弊 ▍STEP1 ▍STEP2 ▍STEP3 ▍STEP4 エラーの 検知 パトランプ
鳴動 メッセージ 確認 エスカレ 電話 月間数万件の エラーメッセージ 大量のエラー 出力で 鳴りっぱなし 確認しても ほぼ意味なし 電話をかけても 「対処不要」 更に…
(事例)課題:運用担当・保守担当の壁 不要アラートを止めてほしい運用担当、そこまで手が 回らない保守担当で、担当間の壁有り。
(事例)解決策:役割分担の変更 役割分担を変更し、全てを保守担当にまとめて、 自分が楽になるために改善が続く形式へ
(事例)効果:役割分担を変えて改善続くように! 運用担当・保守担当の対立構造を解決! 1カ月でアラートが9割減って、その後も改善が継続
「協同」で変える システム障害対応とは?
「協同」で変える、とは? 開発チーム と ユーザー企業 が 助け合いながらシステム障害対応にあたること。 関係上、難しいこともある… それでも、スタンダードにしたい。 助け合えば、障害対応の改善は、もっと進むはず。 そして、エンドユーザーへの影響を最小化したい。
その他の取り組み コミュニティ/ブログ 書籍
コミュニティ・ブログ 「システム障害対応改善のコミュニティ」を運営中! システム障害対応に関する情報発信をする「ブログ」 システム障害対応改善 コミュニティ
3カ月で改善! システム障害対応 実践ガイド
Ask the Speaker & 書籍販売+サイン会 システム障害対応改善 コミュニティ 野村浩司 X (旧Twitter)
@nomurakuj