Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
15-D-7_nomurakuj_Developers_Summit2024
Search
Incidenttech
February 14, 2024
2
2.6k
15-D-7_nomurakuj_Developers_Summit2024
Incidenttech
February 14, 2024
Tweet
Share
More Decks by Incidenttech
See All by Incidenttech
BPStudy#193〜システム障害は突然に_障害対応のポイントや改善方法を学ぼう
incidenttech
0
300
Featured
See All Featured
Thoughts on Productivity
jonyablonski
67
4.3k
GraphQLとの向き合い方2022年版
quramy
43
13k
Build your cross-platform service in a week with App Engine
jlugia
229
18k
A Philosophy of Restraint
colly
203
16k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Producing Creativity
orderedlist
PRO
341
39k
The Language of Interfaces
destraynor
154
24k
BBQ
matthewcrist
85
9.3k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
131
33k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
329
21k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
8
800
Speed Design
sergeychernyshev
24
610
Transcript
7年間1000件の障害事例からわかった 障害対応の改善ポイント ~協同で変えるシステム障害対応とは?~ 15-D-7 02/15 15:20 ~ 15:50 NTTデータ 野村浩司@nomurakuj
X(Twitter) +本日の資料→
目次 • アイスブレイク+自己紹介 • 障害対応の改善ポイント • 事例1,2 • 一歩改善を前に進めるために!
約4兆9600億円 システム障害の年間国内損失額は?
約5件/日 金融庁への1日の障害報告件数は?
写真入れる NTTデータにて 13年間,金融サービス担当 ・1日6回、やまない電話! 週2回、夜中に駆け付け! 野村浩司 X (旧Twitter) @nomurakuj 自己紹介
・きっかけは大規模システム障害 ・社内、社外問わず100社以上と 意見交換・講演・相談を実施!
2015年9月5日、大規模システム障害が発生 テレビのニュースに流れる X(旧Twitter)では 「カードが使えない」が多数
障害対応の現場も大混乱。 500名以上参集。 多数の件問合せ。
7年にわたり 合計約1000 件の障害事例を 分析してわかった、 障害対応の改善ポイント!
障害対応の改善ポイント!! ポイント①:システム視点ではなくサービス視点 ポイント②:事象ではなくアクション ポイント③:情報の量ではなく情報の質
ポイント①:システム視点ではなくサービス視点 システム視点 サービス視点 システムを直すのも大事だけど、 サービスの継続のほうが大事。 データベー スが落ちた ◦◦機能が 使えない
ポイント②:事象ではなくアクション起点 事象は無限に広がるけど、 アクションの数は収束する。 事象 アクション サーバの再起動、 Webに障害情報を掲載
ポイント③:情報の量ではなく情報の質 情報の量 情報の質 緊急時は情報が多いと動けない。 アクション選択の情報が重要 Web掲載の場合 復旧見込みは 正確な分単位ではな く30分以内 or
以上
事例1 3つの改善ポイントの抑え方
課題:システム更改後の縮小体制への移行 あるログ管理システムにおいて、システム更改を終 えて体制縮小が必要。ベテランがチームを離れる中で 若手で障害対応行う必要がある。 体制変更 5年以上のベテラン 2年未満の若手
改善内容:システム障害の定義&関連組織 「大規模なシステム障害」の定義を決定。 それぞれのパターンで関連組織を決定。 Aサービスのオンライン 処理が5分間5件以下 国外からのWebアクセス 10秒以内に1000件以上 チームを離れた ベテランのAさんへ連絡 セキュリティ担当へ
連絡 サービス視点 アクション 質
担当者の声:関連組織で安心、判断に自信 自分だけでは不安だった。 支援してくれる関連組織を知って、安心材 料が増えました。 自分自身も曖昧に判断していた大規模障害 の定義が見えてきたのは収穫でした。
事例2 改善が進むための工夫
(事例)状況:大量のエラーメッセージに悩まされる 大量のエラーメッセージで、運用担当も保守担当も 双方疲弊 ▍STEP1 ▍STEP2 ▍STEP3 ▍STEP4 エラーの 検知 パトランプ
鳴動 メッセージ 確認 エスカレ 電話 月間数万件の エラーメッセージ 大量のエラー 出力で 鳴りっぱなし 確認しても ほぼ意味なし 電話をかけても 「対処不要」 更に…
(事例)課題:運用担当・保守担当の壁 不要アラートを止めてほしい運用担当、そこまで手が 回らない保守担当で、担当間の壁有り。
(事例)解決策:役割分担の変更 役割分担を変更し、全てを保守担当にまとめて、 自分が楽になるために改善が続く形式へ
(事例)効果:役割分担を変えて改善続くように! 運用担当・保守担当の対立構造を解決! 1カ月でアラートが9割減って、その後も改善が継続
「協同」で変える システム障害対応とは?
「協同」で変える、とは? 開発チーム と ユーザー企業 が 助け合いながらシステム障害対応にあたること。 関係上、難しいこともある… それでも、スタンダードにしたい。 助け合えば、障害対応の改善は、もっと進むはず。 そして、エンドユーザーへの影響を最小化したい。
その他の取り組み コミュニティ/ブログ 書籍
コミュニティ・ブログ 「システム障害対応改善のコミュニティ」を運営中! システム障害対応に関する情報発信をする「ブログ」 システム障害対応改善 コミュニティ
3カ月で改善! システム障害対応 実践ガイド
Ask the Speaker & 書籍販売+サイン会 システム障害対応改善 コミュニティ 野村浩司 X (旧Twitter)
@nomurakuj