Slide 1

Slide 1 text

Rethinking Incident Response: Context-Aware AI in Practice 株式会社 Topotal / Ryota Yoshikawa ( @rrreeeyyy ) SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) 1

Slide 2

Slide 2 text

Ryota Yoshikawa @rrreeeyyy CTO @ Topotal, Inc. SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) 2

Slide 3

Slide 3 text

SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) 3 × Diamond Sponsor

Slide 4

Slide 4 text

SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) 4 引用: https://x.com/mirakui/status/1943481221498933390

Slide 5

Slide 5 text

SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) 4 引用: https://x.com/mirakui/status/1943481221498933390

Slide 6

Slide 6 text

SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) 5

Slide 7

Slide 7 text

SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) 6 \ 半数以上が SRE, SRE 経験者!! / +3 名採用予定!

Slide 8

Slide 8 text

SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) 7

Slide 9

Slide 9 text

SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) 8 SRE のプロフェッショナルを、 今すぐチームに。 事業成長を続ける SRE の仕組みづくりを プロフェッショナルが並走サポート

Slide 10

Slide 10 text

SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) 9

Slide 11

Slide 11 text

SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) 10

Slide 12

Slide 12 text

SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) 11

Slide 13

Slide 13 text

SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) 12

Slide 14

Slide 14 text

SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) 13

Slide 15

Slide 15 text

SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) Why We Built Waroom © 自分のキャリアのスタートが 24h/365d のチームだっ¢ © インシデントレスポンスやオンコール対応にたくさん触れてき¢ © インシデントレスポンス領域の課題認| © ⁩ インシデントレスポンスやオンコールはつらいという認識が強l © 現状つらいところはつらいのだけど個人的には楽しいところも多l © サービスの信頼性という側面を考えると非常に重 © 特に SRE のコアの考え方がもっと適用可能⁩ な領域だと考えていˆ ¥ ソフトウェアエンジニアリングを行っているこx ¥ データドリブンな意思決定を行っているこx Ê ⁩ →こういった課題を解決するために IR SaaS が必要だと考えている 14

Slide 16

Slide 16 text

SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) Incident Response: Survey View ¿ DORA / SRE Report 等のレポートも毎年インシデント対応関連の記載がある © ¿ DORA (2018~2024y ¿ MTTR | Failed-Deployment Recovery Time が常に指標にある (2018~y ¿ Elite ランクでは MTTR が 1h 未満などの基準がある (~2024y ¿ 復旧時間短縮は従業員バーンアウト率低下と統計的に有意(2021,2022y ¿ SRE Report (2025y ¿ インシデント件数とストレス係数の相関が掲Á ¿ 小規模チームでも 23 % は月 10 件程度の障害が発生してい– ¿ ポストモーテム・改善フェーズでの孤立がストレス増幅要Y Ÿ →インシデントレスポンスが開発チームやSREの成熟度を測る指標として重要 15

Slide 17

Slide 17 text

SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) Incident Response: Frontline View á ⁩ 数年前と比べると認知も広がり少し良くなってきたという感覚はあÃ È Incident Command System (ICS) のようなプラクティスが普及してき´ á 一方で以下のような課題は未だに残っていると感じÃ È 精神的負担の大き‰ † インシデントレスポンスは「つらい」「難しい」という認識が強­ È 組織展開の難し‰ † 一部のプロはインシデント対応が出来るが会社全体に広げるのが困¸ È ICS を適用することの難し‰ † ICS は素晴らしいフレームワークだが組織に適用するのがやや難し­ † 基本的に大きい 組織・インシデント を想定した作りになっていà † 小さいインシデントやそこから発展・判断するケースでは? 16

Slide 18

Slide 18 text

SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) Incident Response & AI Ö 前述のような課題を解決するために AI / LLM を活用するケースが増えてき£ Ö 「難しい」「つらい」「大変」「職人芸」の部分を AI で支援すÚ Ö 例えば 2025/07 段階の Waroom では次のようなことが出来Ú Ö インシデント情報のサマライズ・ポストモーテムの自動生Í Ö 一方で AI / LLM の領域はどんどん進化を遂げていÚ Ö Model Context Protocol (MCPÞ Ö AI が様々なリソースにアクセスして情報を取得・更新可能になっ£ Ö Coding Agent (Claude Code, Devin, GitHub Copilot Agent, ...Þ Ö AI がタスク分解→コード生成→テスト実行→PR まで自律的に可能ã Ö → Incident Response 領域でもこれらを活用してより「楽に」なれそR Ö → AI と Incident Response 領域の現在地と今後はどうなっていくのか? 17

Slide 19

Slide 19 text

SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) Incident Response / SAE Levels Map 自動運転レベル 人の役割(運転) AI の役割(IR) IR レベル L0: No Driving Automation 完全手動運転 なし IR0 L1: Driver Assistance 運転支援 通知・記録補助 IR1 L2: Partial Driving Automation 部分的支援 判断支援・提案 IR2 L3: Conditional Driving Automation 条件付自動運転 実行・監視責任も AI IR3 L4: High Driving Automation 高度自動運転 完全実行 (特定領域) IR4 L5: Full Driving Automation 完全自動運転 あらゆる状況で AI IR5 出典: SA E J301 6™ “Levels o f Driving Automation ” ( SA E International , 2021) 18

Slide 20

Slide 20 text

SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) Incident Response / SAE Levels Map 自動運転レベル 人の役割(運転) AI の役割(IR) IR レベル L0: No Driving Automation 完全手動運転 なし IR0 L1: Driver Assistance 運転支援 通知・記録補助 IR1 L2: Partial Driving Automation 部分的支援 判断支援・提案 IR2 L3: Conditional Driving Automation 条件付自動運転 実行・監視責任も AI IR3 u 今現在は IR0 ~ IR1, IR2 ぐらいまでは実 現されてきていB u MCP, Coding Agent の 力で IR2~IR3 相当の実 現可能性が出てき6 G IR3 相当に行くためには AI に任せられる安全な操作の定義が必要 19

Slide 21

Slide 21 text

SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) Incident Response: Level IR 2+ 20 ® MCP や Coding Agent を用いて AI が対応の支援・提案・一部作業まで担z ® e.g‚ ® 監視起因やユーザサポート起因からインシデントを起e ® Sentry MCP や Datadog MCP などで障害の原因を推f ® GitHub MCP で直近のコード変更履歴を取s ® Claude が推測された原因や特定された変更履歴から修正コードを生w ® GitHub MCP を用いて PR 化を行z ® 人間が PR のレビュー・本番デプロイを行z ® インシデント対応状況の逐次報告も MCP を用いて AI が行z ® 調査状況に応じて重篤度の更新やコマンダーの推薦・アサインも行z ® オンコールを受けた時に重要な重篤度の判断をアシストしてくれる

Slide 22

Slide 22 text

SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) Incident Response: Level IR 2+ Demo 21

Slide 23

Slide 23 text

SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) 22

Slide 24

Slide 24 text

SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) 23

Slide 25

Slide 25 text

SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) 24

Slide 26

Slide 26 text

SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) 25

Slide 27

Slide 27 text

SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) 26 ` Waroom 上の対応ステータス・対応状況の更Y ` Slack に自動で連携される

Slide 28

Slide 28 text

SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) 27

Slide 29

Slide 29 text

SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) 28

Slide 30

Slide 30 text

SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) 29

Slide 31

Slide 31 text

SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) 30

Slide 32

Slide 32 text

SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) 31 対応後は自動的に インシデント詳細が まとめられます

Slide 33

Slide 33 text

SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) Incident Response: Toward IR3 33 ú 紹介したデモ以外の要素にも様々な MCP Server が公開され続けてい• ú Amazon ECS, EKS, Serverless, CloudWatch & Application Signals, RDS, .. ú Google Cloud Run, GKE, Firebase, .. ú →AI がほぼすべてのリソースのコンテキストを入手して操作可能にな– ú 一方で AI のインシデントレスポンスの「安全性」「精度」は大きな課q ë Claude くんにローカル環境壊されそうになったこと、ありますよねˆ ë 今だと本番サーバのオペレーションは任せられない雰囲v ë コード生成に関しては莫大なデータセットがあって上手くいきがX ë 実際のオペレーションや障害緩和策はデータセットが少ないがX ë いい精度を出すのが今のところはコード生成に比べると難しい

Slide 34

Slide 34 text

SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) Waroom: Experimental Tracks 34

Slide 35

Slide 35 text

SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) Waroom: Experimental Tracks - 1 Agent とのインシデントレスポンスの
 可能性についてモックレベルで検討中 35

Slide 36

Slide 36 text

SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) Waroom: Experimental Tracks - 2 ローカル MCP サーバを実装してインシデントレスポンスの体験がどう変わるかを検証 36

Slide 37

Slide 37 text

SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) Waroom: Experimental Tracks - 3 実際にアプリケーションで使えるように Remote MCP Server の実装を開始 37

Slide 38

Slide 38 text

SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) Waroom: Experimental Tracks - 4 í 複数人でのインシデント対応で AI を上手く活用可能なようにすº ¶ 現行の構成だと 1 人 1 人が AI と対話して個別に障害対応をしてい í 過去インシデントやポストモーテムを AI が検索できるよう MCP を拡張é ¶ AI が過去の対応やポストモーテムを参考に対応を進められる状態“ ¶ AI が自身でインシデント対応をし学びを溜めていく状態を目指したŽ ¶ インシデント情報を特定の場所に溜めて参照できることの価値を高めたŽ í 障害緩和手順・復旧手順のナレッジp ¶ コード生成は莫大なデータセットがあるため上手く行きやすŽ ¶ 障害緩和・復旧手順についてはデータセットが少なく上手く行きづらŽ ¶ 社内の既知の障害であれば AI で対応が容易だが未知の障害では難しŽ ¶ 障害緩和・復旧のナレッジを上手く集められないかS í オペレーションを AI に任せたときの安全性をどう担保していくか 38

Slide 39

Slide 39 text

SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) Conclusion ¯ インシデントレスポンスの重要性と個人の課題感を整› ¡ 開発チームやSREの成熟度を測る指標として重 ¯ インシデントレスポンスと AI の現在地と将来図を整› ¡ MCP, Coding Agent の力で IR2~IR3 相当の実現可能性が出てき˜ ¯ 現状の AI で可能なインシデントレスポンスの形態(IR2+)を提案・デk ¡ 生成 AI と共にインシデント対応が行える世界になってきたことを示し˜ ¯ Waroom で検討しているインシデントレスポンスの方向性を共G ¯ つらいインシデント対応を楽に、学びに、そしてゼロに を引き続き目指Š ¯ インシデント情報を特定の場所に溜めて参照できることの価値を高めたい 39

Slide 40

Slide 40 text

SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) !!We are hiring!! https://jobs.topotal.com/ ¯ 今日の話を聞いてインシデントレスポンスを SaaS で良くしたくなったŸ i ソフトウェア・生成 AI の力でインシデントレスポンスを「楽にy i こういうアイデアがある、こうしてみるのはどうか?という話も歓— ¯ 様々な業界・領域の SRE のリアルな課題に挑戦したい‚ i 業界・領域・会社それぞれに特色や挑戦があって面白いで¢ ¯ 様々な業界・領域の SRE の課題を実際に見て汎化して解決してみたいŸ i OSS 化, SaaS 化, 内製ツール化など様々な選択肢で解決しましょう まずはカジュアル面談からで良いのでぜひ話しましょう!! 40

Slide 41

Slide 41 text

SRE NEXT 2025 | Ryota Yoshikawa ( @rrreeeyyy ) !!ブースを出しています!! スポンサーブース 入ってすぐ左のD-1 発表に対する 意見・感想も ぜひ聞かせて ください!! 本発表に関係する Waroom の デモもやっています 41