$30 off During Our Annual Pro Sale. View Details »

障害対応訓練、その前に

 障害対応訓練、その前に

Avatar for coconala_engineer

coconala_engineer

December 18, 2025
Tweet

More Decks by coconala_engineer

Other Decks in Technology

Transcript

  1. Copyright coconala Inc. All Rights Reserved. 自己紹介 名前: Kota Kamikura

    (aka. Kou) 所属: 株式会社ココナラ プロダクトプラットフォーム部 最近のこと: - ストレンジャーシングス観てます Season4 Ep8まで来ました (83%) 2 1 2 3
  2. Copyright coconala Inc. All Rights Reserved. これまでの課題 対応不要なオンコールによる 「アラート疲れ」 -

    アラート見直し - 頻発事象の根本対応 で、全体の40%を占めていた 対応不要なオンコールを撲滅 今の課題 オンコール対応者に偏りがある - 「アラート疲れ」がオンコールの コミットが小さい原因ではない?? - 「対応回数の多さ」と「社歴・エ ンジニア歴」に相関がある 一人当たりの対応件数 障害対応 - これまでの課題、今の課題 3
  3. Copyright coconala Inc. All Rights Reserved. 分析 「ベテラン」と 「ジュニアエンジニア、 社歴の浅いエンジニア」

    で、対応の早さにギャップ がある 背景 ユーザー影響を最小化する ため、障害対応には早さが 求められる 課題 重大な障害ほど、ベテラン の早さが求められるため、 慣れていないメンバーが 「対応を完遂する」経験を 積める機会が少ない 今の課題を深掘りする 4
  4. Copyright coconala Inc. All Rights Reserved. 今のチームに適した訓練方法ってなんだろう? ジュニアエンジニアや社歴の浅いエンジニアも積極的 に障害対応をしてくれている! 一方で、解決するのはベテランが多い

    「障害対応」ではなく、「障害調査」に課題がある - 複雑なシステム構成 - 平常時はあまり触れないログ・トレースの分析ツール - etc,... そうだ、障害対応訓練をしよう 5
  5. Copyright coconala Inc. All Rights Reserved. 今のチームに適した訓練方法ってなんだろう? ジュニアエンジニアや社歴の浅いエンジニアも積極的 に障害対応してくれている! 一方で、解決するのはベテランが多い

    「障害対応」ではなく、「障害調査」に課題がある - 複雑なシステム構成 - 平常時はあまり触れないログ・トレースの分析ツール - etc,... そうだ、障害調査対応訓練をしよう 6
  6. Copyright coconala Inc. All Rights Reserved. 対象は「ジュニアエンジニア」と 「オンコール参画直後のエンジニア」 以下の要素をEnablingすることを目的にする -

    ジュニアエンジニア - 分析ツールのHowTo - システムアーキテクチャ - オンコール参画直後のエンジニア - システムアーキテクチャ ステップバイステップで原因に辿り着く ケースと環境を用意 易しいケースと難しいケースの2種類を用意する - 易: 5XX エラーから、アプリケーションサーバーが 停止していることを特定する - 難: リクエスト遅延から、DBサーバーに対する Thundering Herd 問題を特定する 対象を定め、ケースを用意する 7
  7. Copyright coconala Inc. All Rights Reserved. 要点を分類する 「社内特有の項目」と「エンジニア リング一般の項目」に要点を分ける この分類で、どの情報をどの対象者

    に伝えるべきか。が明確になる 目的とゴールを伝える ドキュメントの体裁を 難易度に合わせて変える 易では「障害調査の手順書 + 調査の 要点」を教科書的に記載する 難では「調査の流れ」のみで、確認 するログなどを明示しない 「授業」と「練習問題」の関係で、 知識を自分で活かせる構成にする 実施時に気をつけた3つ 8 - なぜ障害調査訓練を行うか - ケースを実施する目的は何か - ケースでどんな事象を扱い、 何を達成することがゴールか 上記の内容を事前に伝え、参加者の 士気や目的意識を高める
  8. Copyright coconala Inc. All Rights Reserved. 反響: 概ね好評。次に繋がる良い機会だった - アーキテクチャの理解、障害調査時の思考の順序など、狙ってい

    た効果への反響があった◎ - 次回開催のお願いや、次回も参加したいという声が得られ、運営 としても手応え◎ - さらに「開発におけるログ設計に活かしたい」といった開発への フィードバックを得た方もいた◎ 振りかえり 大きく3点の課題が見つかった - ケースの難易度設定 難のケースが難しすぎて、学習効率が低下していたのではないか - タイムスケジュールが緩く、練習問題を解ききれなかった 業務時間を割いての実施のため、延長はNGだったのを見越して、 より詳細なスケジュールを立てるべきだった - コミュニケーションを取りながらの障害調査 練習問題はチームを分けて団体競技として実施したが、終始個人 の調査にしてしまっていた 反響と振りかえり 9
  9. Copyright coconala Inc. All Rights Reserved. 次回、1月中旬に参加者にロールを割り振る形式での障害「対応」訓練を実施予定 またEnablingだけでなく、Platformからも障害対応にアプローチしています - PagerDuty

    Advanceを活用した障害対応へのAI Agentの導入 - AWS DevOps Agentを活用したオンコール対応者へのインサイトの提供 そして、障害対応訓練へ 10