Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
障害対応訓練、その前に
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
coconala_engineer
December 18, 2025
Technology
360
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
障害対応訓練、その前に
coconala_engineer
December 18, 2025
More Decks by coconala_engineer
See All by coconala_engineer
マルチロールEMが実践する「組織のレジリエンス」を高めるための組織構造と人材配置戦略
coconala_engineer
3
1.4k
『誰の責任?』で揉めるのをやめて、エラーバジェットで判断するようにした ~感情論をデータで終わらせる、PMとエンジニアの意思決定プロセス~
coconala_engineer
2
2.3k
SREのプラクティスを用いた3領域同時 マネジメントへの挑戦 〜SRE・情シス・セキュリティを統合した チーム運営術〜
coconala_engineer
2
1.8k
「守りのIT」から「攻めの基盤」へ!上場前後でやりきった情シス・モダナイゼーション
coconala_engineer
0
140
生成AI時代を勝ち抜くエンジニア組織マネジメント
coconala_engineer
0
50k
AI時代を生き抜く 新卒エンジニアの生きる道
coconala_engineer
1
910
SwiftTestingによる_モダンなiOSテスト手法とBDD.pdf
coconala_engineer
0
390
SRE × マネジメントレイヤーが挑戦した組織・会社のオブザーバビリティ改革 ― ビジネス価値と信頼性を両立するリアルな挑戦
coconala_engineer
0
1.2k
SIEMを利活用した信頼性向上プロセスと実践
coconala_engineer
0
89
Other Decks in Technology
See All in Technology
LLMにもCAP定理があるという話
harukasakihara
0
250
Mastering Ruby Box
tagomoris
3
150
AWSシリコン最前線 〜AI時代のチップ選択を読み解く〜
htokoyo
2
270
新規事業を牽引する技術選定 〜フルスタックTypeScript開発の実践事例〜
nullnull
3
370
社内 AI エージェント Synapse と セマンティックレイヤーの育て方
hiroakis
0
930
Rancherの紹介&Update情報(RancherJP Online Meetup #09)
yoshiyuki_kono
0
130
"何を作るか"を任される エンジニアは、どう育つのか
yutaokafuji
1
270
Building applications in the Gemini API family.
line_developers_tw
PRO
0
2.3k
Socrates × Looker 〜セマンティックレイヤーで進化するデータ分析エージェント〜
hanon52_
2
1.5k
TypeScript Compiler APIとPHP-Parserを活用し、TypeScriptとPHPで型を共有する
shuta13
0
370
AI Testing Talks: Challenges of Applying AI in Software Testing: From Hype to Practical Use
exactpro
PRO
1
140
【Gen-AX】20260530開催_JJUG CCC 2026 Spring
genax
1
440
Featured
See All Featured
Jamie Indigo - Trashchat’s Guide to Black Boxes: Technical SEO Tactics for LLMs
techseoconnect
PRO
0
160
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
3.4k
Product Roadmaps are Hard
iamctodd
PRO
55
12k
Embracing the Ebb and Flow
colly
88
5.1k
Utilizing Notion as your number one productivity tool
mfonobong
4
320
Being A Developer After 40
akosma
91
590k
Marketing Yourself as an Engineer | Alaka | Gurzu
gurzu
0
210
A Tale of Four Properties
chriscoyier
163
24k
Evolving SEO for Evolving Search Engines
ryanjones
0
210
Designing Experiences People Love
moore
143
24k
Reflections from 52 weeks, 52 projects
jeffersonlam
356
21k
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
570
Transcript
Copyright coconala Inc. All Rights Reserved. 障害対応訓練、 その前に DATA :
2025.12.18 Kota Kamikura (aka. Kou)
Copyright coconala Inc. All Rights Reserved. 自己紹介 名前: Kota Kamikura
(aka. Kou) 所属: 株式会社ココナラ プロダクトプラットフォーム部 最近のこと: - ストレンジャーシングス観てます Season4 Ep8まで来ました (83%) 2 1 2 3
Copyright coconala Inc. All Rights Reserved. これまでの課題 対応不要なオンコールによる 「アラート疲れ」 -
アラート見直し - 頻発事象の根本対応 で、全体の40%を占めていた 対応不要なオンコールを撲滅 今の課題 オンコール対応者に偏りがある - 「アラート疲れ」がオンコールの コミットが小さい原因ではない?? - 「対応回数の多さ」と「社歴・エ ンジニア歴」に相関がある 一人当たりの対応件数 障害対応 - これまでの課題、今の課題 3
Copyright coconala Inc. All Rights Reserved. 分析 「ベテラン」と 「ジュニアエンジニア、 社歴の浅いエンジニア」
で、対応の早さにギャップ がある 背景 ユーザー影響を最小化する ため、障害対応には早さが 求められる 課題 重大な障害ほど、ベテラン の早さが求められるため、 慣れていないメンバーが 「対応を完遂する」経験を 積める機会が少ない 今の課題を深掘りする 4
Copyright coconala Inc. All Rights Reserved. 今のチームに適した訓練方法ってなんだろう? ジュニアエンジニアや社歴の浅いエンジニアも積極的 に障害対応をしてくれている! 一方で、解決するのはベテランが多い
「障害対応」ではなく、「障害調査」に課題がある - 複雑なシステム構成 - 平常時はあまり触れないログ・トレースの分析ツール - etc,... そうだ、障害対応訓練をしよう 5
Copyright coconala Inc. All Rights Reserved. 今のチームに適した訓練方法ってなんだろう? ジュニアエンジニアや社歴の浅いエンジニアも積極的 に障害対応してくれている! 一方で、解決するのはベテランが多い
「障害対応」ではなく、「障害調査」に課題がある - 複雑なシステム構成 - 平常時はあまり触れないログ・トレースの分析ツール - etc,... そうだ、障害調査対応訓練をしよう 6
Copyright coconala Inc. All Rights Reserved. 対象は「ジュニアエンジニア」と 「オンコール参画直後のエンジニア」 以下の要素をEnablingすることを目的にする -
ジュニアエンジニア - 分析ツールのHowTo - システムアーキテクチャ - オンコール参画直後のエンジニア - システムアーキテクチャ ステップバイステップで原因に辿り着く ケースと環境を用意 易しいケースと難しいケースの2種類を用意する - 易: 5XX エラーから、アプリケーションサーバーが 停止していることを特定する - 難: リクエスト遅延から、DBサーバーに対する Thundering Herd 問題を特定する 対象を定め、ケースを用意する 7
Copyright coconala Inc. All Rights Reserved. 要点を分類する 「社内特有の項目」と「エンジニア リング一般の項目」に要点を分ける この分類で、どの情報をどの対象者
に伝えるべきか。が明確になる 目的とゴールを伝える ドキュメントの体裁を 難易度に合わせて変える 易では「障害調査の手順書 + 調査の 要点」を教科書的に記載する 難では「調査の流れ」のみで、確認 するログなどを明示しない 「授業」と「練習問題」の関係で、 知識を自分で活かせる構成にする 実施時に気をつけた3つ 8 - なぜ障害調査訓練を行うか - ケースを実施する目的は何か - ケースでどんな事象を扱い、 何を達成することがゴールか 上記の内容を事前に伝え、参加者の 士気や目的意識を高める
Copyright coconala Inc. All Rights Reserved. 反響: 概ね好評。次に繋がる良い機会だった - アーキテクチャの理解、障害調査時の思考の順序など、狙ってい
た効果への反響があった◎ - 次回開催のお願いや、次回も参加したいという声が得られ、運営 としても手応え◎ - さらに「開発におけるログ設計に活かしたい」といった開発への フィードバックを得た方もいた◎ 振りかえり 大きく3点の課題が見つかった - ケースの難易度設定 難のケースが難しすぎて、学習効率が低下していたのではないか - タイムスケジュールが緩く、練習問題を解ききれなかった 業務時間を割いての実施のため、延長はNGだったのを見越して、 より詳細なスケジュールを立てるべきだった - コミュニケーションを取りながらの障害調査 練習問題はチームを分けて団体競技として実施したが、終始個人 の調査にしてしまっていた 反響と振りかえり 9
Copyright coconala Inc. All Rights Reserved. 次回、1月中旬に参加者にロールを割り振る形式での障害「対応」訓練を実施予定 またEnablingだけでなく、Platformからも障害対応にアプローチしています - PagerDuty
Advanceを活用した障害対応へのAI Agentの導入 - AWS DevOps Agentを活用したオンコール対応者へのインサイトの提供 そして、障害対応訓練へ 10
Copyright coconala Inc. All Rights Reserved. 11
Copyright coconala Inc. All Rights Reserved. SREメンバーを募集しています 12