Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Rethinking Incident Response: Context-Aware AI ...

Rethinking Incident Response: Context-Aware AI in Practice - Incident Buddy Edition -

生成 AIは “Incident Buddy” になり得るのか? ( https://topotal.connpass.com/event/364147/ ) というイベントで「Rethinking Incident Response: Context-Aware AI in Practice - Incident Buddy Edition - 」というタイトルで発表した際の資料です。

Avatar for rrreeeyyy

rrreeeyyy

August 19, 2025
Tweet

More Decks by rrreeeyyy

Other Decks in Technology

Transcript

  1. Rethinking Incident Response: Context-Aware AI in Practice ~ Edition: 生成

    AIは “Incident Buddy” になり得るのか?~ 株式会社 Topotal / Ryota Yoshikawa ( @rrreeeyyy ) SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) 1
  2. SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) 8

    SRE のプロフェッショナルを、 今すぐチームに。 事業成長を続ける SRE の仕組みづくりを プロフェッショナルが並走サポート
  3. SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) Why

    We Built Waroom Õ 自分のキャリアのスタートが 24h/365d のチームだっ™ Õ インシデントレスポンスやオンコール対応にたくさん触れてき™ Õ インシデントレスポンス領域の課題認~ Õ ⁩ インシデントレスポンスやオンコールはつらいという認識が強‚ Õ 現状つらいところはつらいのだけど個人的には楽しいところも多‚ Õ サービスの信頼性という側面を考えると非常に重Â Õ 特に SRE のコアの考え方がもっと適用可能⁩ な領域だと考えていÍ c ソフトウェアエンジニアリングを行っているこ c データドリブンな意思決定を行っているこ D ⁩ →こういった課題を解決するために IR SaaS が必要だと考えている 14
  4. SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) Incident

    Response: Survey View œ DORA / SRE Report 等のレポートも毎年インシデント対応関連の記載がある Ç œ DORA (2018~2024” œ MTTR | Failed-Deployment Recovery Time が常に指標にある (2018~” œ Elite ランクでは MTTR が 1h 未満などの基準がある (~2024” œ 復旧時間短縮は従業員バーンアウト率低下と統計的に有意(2021,2022” œ SRE Report (2025” œ インシデント件数とストレス係数の相関が掲š œ 小規模チームでも 23 % は月 10 件程度の障害が発生してい‘ œ ポストモーテム・改善フェーズでの孤立がストレス増幅要` Y →インシデントレスポンスが開発チームやSREの成熟度を測る指標として重要 15
  5. SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) Incident

    Response: Frontline View Û ⁩ 数年前と比べると認知も広がり少し良くなってきたという感覚はあ× ¨ Incident Command System (ICS) のようなプラクティスが普及してきº Û 一方で以下のような課題は未だに残っていると感じ× ¨ 精神的負担の大き– ’ インシデントレスポンスは「つらい」「難しい」という認識が強µ ¨ 組織展開の難し– ’ 一部のプロはインシデント対応が出来るが会社全体に広げるのが困š ¨ ICS を適用することの難し– ’ ICS は素晴らしいフレームワークだが組織に適用するのがやや難しµ ’ 基本的に大きい 組織・インシデント を想定した作りになってい× ’ 小さいインシデントやそこから発展・判断するケースでは? 16
  6. SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) Incident

    Response & AI î 前述のような課題を解決するために AI / LLM を活用するケースが増えてきÛ î 「難しい」「つらい」「大変」「職人芸」の部分を AI で支援すÙ î 例えば 2025/07 段階の Waroom では次のようなことが出来Ù î インシデント情報のサマライズ・ポストモーテムの自動生µ î 一方で AI / LLM の領域はどんどん進化を遂げていÙ î Model Context Protocol (MCPá î AI が様々なリソースにアクセスして情報を取得・更新可能になっÛ î Coding Agent (Claude Code, Devin, GitHub Copilot Agent, ...á î AI がタスク分解→コード生成→テスト実行→PR まで自律的に可能 î → Incident Response 領域でもこれらを活用してより「楽に」なれそI î → AI と Incident Response 領域の現在地と今後はどうなっていくのか? 17
  7. SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) Incident

    Response / SAE Levels Map 自動運転レベル 人の役割(運転) AI の役割(IR) IR レベル L0: No Driving Automation 完全手動運転 なし IR0 L1: Driver Assistance 運転支援 通知・記録補助 IR1 L2: Partial Driving Automation 部分的支援 判断支援・提案 IR2 L3: Conditional Driving Automation 条件付自動運転 実行・監視責任も AI IR3 L4: High Driving Automation 高度自動運転 完全実行 (特定領域) IR4 L5: Full Driving Automation 完全自動運転 あらゆる状況で AI IR5 出典: SAE J3016™ “Levels of Driving Automation” (SAE International, 2021) 18
  8. SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) Incident

    Response / SAE Levels Map 自動運転レベル 人の役割(運転) AI の役割(IR) IR レベル L0: No Driving Automation 完全手動運転 なし IR0 L1: Driver Assistance 運転支援 通知・記録補助 IR1 L2: Partial Driving Automation 部分的支援 判断支援・提案 IR2 L3: Conditional Driving Automation 条件付自動運転 実行・監視責任も AI IR3 X 今現在は IR0 ~ IR1, IR2 ぐらいまでは実 現されてきてい5 X MCP, Coding Agent の 力で IR2~IR3 相当の実 現可能性が出てき 6 IR3 相当に行くためには AI に任せられる安全な操作の定義が必要 19
  9. SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) Incident

    Response: Level IR 2+ 20 ² MCP や Coding Agent を用いて AI が対応の支援・提案・一部作業まで担y ² e.g€ ² 監視起因やユーザサポート起因からインシデントを起Ž ² Sentry MCP や Datadog MCP などで障害の原因を推• ² GitHub MCP で直近のコード変更履歴を取¦ ² Claude が推測された原因や特定された変更履歴から修正コードを生l ² GitHub MCP を用いて PR 化を行y ² 人間が PR のレビュー・本番デプロイを行y ² インシデント対応状況の逐次報告も MCP を用いて AI が行y ² 調査状況に応じて重篤度の更新やコマンダーの推薦・アサインも行y ² オンコールを受けた時に重要な重篤度の判断をアシストしてくれる
  10. SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) 26

    E Waroom 上の対応ステータス・対応状況の更S E Slack に自動で連携される
  11. SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) 31

    対応後は自動的に インシデント詳細が まとめられる
  12. SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) 生成

    AIは “Incident Buddy” になり得るのか? 34
  13. SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) 生成

    AIは “Incident Buddy” になり得るのか? →簡単なコードの上やレポート・要約では大分 Yes 34
  14. SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) Incident

    Response: AIOps View 33 ö 一方で AI のインシデントレスポンスの「安全性」「精度」は大きな課Ç É コード生成に関しては莫大なデータセットがあって上手くいきがl É 実際のオペレーションや障害緩和策はデータセットが少ないがl É いい精度を出すのが今のところはコード生成に比べると難しp ö OpenRCA ( github.com/microsoft/OpenRCA ) ― Xu et al., ICLR 202e É 過去の実際の障害対応を題材にした Root Cause Analysis ベンチマーy É 335 件の障害ケースと 68GB 超のログ・メトリクス・トレースを収÷ É AI に「原因コンポーネント」「発生時刻」「理由」の3つを答えさせw ö Claude 3.5 Sonnet + Multi-Agent でも正答率は 11% 程P ö 単純なシステムでは精度が高いが複雑になると精度が大きく低下
  15. SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) Incident

    Response: AIOps Benchmark 33 Ð AIOpsLab ( github.com/microsoft/AIOpsLab ) ― Chen et al., MLSys 202Û í 実システム環境における クラウド運用タスクの評価基ô í 様々なマイクロサービスや障害パターンが含まれてい í 典型的な fault-injection (Memory Leak, node 障害, ...)を自動で行ñ í Agent がログ/メトリクス/トレース/シェル操作可能なインタフェー® í インシデントレスポンスを複数の領域に分けて評• í 検知 (Detection): ReAct(GPT-4) → 863 í 局所化 (Localization): GPT-4 + Shell → 713 í 根本原因分析 (RCA): 全手法 → 14% 程! í 緩和 (Mitigation): GPT-4 + Shell / ReAct(GPT-4) → 433 í →検知や障害の局所化は既存手法を上回るが 原因分析・緩和 は課題
  16. SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) IR×LLM:

    More Data, More Accuracy 33 ´ こういった状況で精度を向上させるために考えられる施º ´ 社内のインシデント情報をまとめて LLM に学習させœ ´ Postmortem、Slack ログ、Jira/Ticket を構造化しておく必要 ´ 「社内特有の障害パターン」への対応精度と速度が向¶ ´ 世界中の公開データを取り込« ´ OpenRCA, The VOID (thevoid.community) などの情報を取り込« ´ 「既知の障害」への汎用的な強さを獲d ´ 社内のサービスコンテキストを与えœ ´ サービスマップ、依存関係、運用Runbook を LLM に接R ´ LLMは特に複雑な環境で精度が低下するのでフォローが必須
  17. SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) Conclusion

    ç インシデントレスポンスの重要性と個人の課題感を整Ú Â 開発チームやSREの成熟度を測る指標として重‚ ç インシデントレスポンスと AI の現在地と将来図を整Ú Â MCP, Coding Agent の力で IR2~IR3 相当の実現可能性が出てきŠ ç 現状の AI で可能なインシデントレスポンスの形態(IR2+)を提案・デl  サマライズやレポート生成のタスクは十分にこなせるようになってきŠ  コードの領域でも簡単なインシデントレスポンスは可能になりつつあÑ ç 一方でオペレーション領域でのインシデントレスポンスは研究段階にあv ç データセットの収集やベンチマークはまさに研究が進んでいる段‹ ç 生成AI は “Incident Buddy” になりつつあるが更なる発展が求められÑ ç LLM 単体では不安がある箇所もあるがコンテキストを与えてフォロー 39