Slide 1

Slide 1 text

An Efficient Incident Response Training with AI 株式会社 Topotal / Ryota Yoshikawa ( @rrreeeyyy ) 1 SRE NEXT 2024 | Ryota Yoshikawa ( @rrreeeyyy )

Slide 2

Slide 2 text

Ryota Yoshikawa @rrreeeyyy CTO @ Topotal, Inc. SRE NEXT 2024 | Ryota Yoshikawa ( @rrreeeyyy ) 2

Slide 3

Slide 3 text

SRE NEXT 2024 | Ryota Yoshikawa ( @rrreeeyyy ) 3

Slide 4

Slide 4 text

Incident Management : Why It Matters Risk Reduction and Prevention 予期しないトラブルに備え、迅速な対応プロセスを構築し、 インシデントから学んだ知見を活用して将来の問題を防止する。 Reduce MTTR & SLO Success 迅速なインシデント対応により、復旧時間(MTTR)を短縮し、 サービスのダウンタイムを最小化する。 
 効果的なインシデントマネジメントは、
 サービスレベル目標(SLO)の達成に寄与する。 Organizational Learning & Growth サポートとの連携をしやすくして迅速なユーザ対応が可能になる。 チームの連携をしやすくすることにより 効率的なインシデント対応を可能にする。 : SRE NEXT 2024 | Ryota Yoshikawa ( @rrreeeyyy ) 4

Slide 5

Slide 5 text

Incident Management Difficulties Difficult to Measure MTTRやMTTAなどの 指標を用いることで インシデント対応の評価は可能。 しかし重大度が毎回異なっていたり、 インシデントの数が少ない場合では データが不十分であるため、 評価が複雑になる。 Specialized Skills Teamwork Challenges インシデント対応では、 Incident Commander や Subject Matter Expert に それぞれ異なる役割が求められる。 各ロールが役割を果たす中で、 スムーズな情報共有や、 意見のすり合わせが求められ、 効果的に協力するのが難しい。 また、チームが協調して動く必要が あるような重大なインシデントは なかなか発生しない。 インシデント対応には 特別なス キルが求められる。 迅速に 問題を 特定し 緩和策を 実施する 事が重要であるが 、 これらのス キルは インシデント対応を 繰り 返さない と 養うのが難しい。 SRE NE XT 2024 | R yota Yo shi ka wa ( @rrreee yyy ) 5

Slide 6

Slide 6 text

Incident Response Training インシデント対応訓練を行うことで、 インシデント対応特有のスキルを 身につけることができる。 重大なインシデントを想定して、 チームでの動きや役割別の動きを 確認して改善することもできる。 同一規模のインシデントを想定し、 MTTR や MTTA を計測することで、 インシデント対応が改善しているかどうか といった評価を行うこともできる。 SRE NEXT 2024 | Ryota Yoshikawa ( @rrreeeyyy ) 6

Slide 7

Slide 7 text

Incident Response Training is Also Challenging Simulating Real Incidents 実際の障害を意図的に起こす訓練は、 最も学びを得ることができる。 しかし、実際の構成を用意して 障害を注入する必要があるなど、 準備が多くコストが掛かってしまい、 頻繁に行うのは難しい。 Multiple Scenario-Based Training 複数のシナリオを用意して行う訓練は、 多様な状況に対応する力を養ったり、 チームで動的にコミュニケーションを取る 訓練として効果的である。 しかし、ゲームマスターの負担は大きく、 リアルなシナリオを複数用意するための 多大な準備が必要という課題がある。 Fixed Scenario Training 固定のシナリオを使った訓練では、 同じ動き方を繰り返しおさらいする。 
 インシデント発生時の動き方が 明らかになるため初動は早くなるが、
 実際のインシデントに 柔軟に対応する力が 十分に養えないことがある。 SRE NEXT 2024 | Ryota Yoshikawa ( @rrreeeyyy ) 7

Slide 8

Slide 8 text

Leveraging AI for Cost-Effective Incident Response Training Reduced Training Costs AIを活用してゲームマスターの役割を自動化することで、全員 がインシデント対応訓練に参加できる。シナリオの生成を AI が行うため、従来の訓練にかかるコストを削減し、効率を大幅 に向上させることができ、一人でも、チームでも、何度も繰り 返し訓練が可能になる。 Context-Aware Scenario Creation 自社のインフラや業務内容に関するコンテキストをAIに事前に 渡すことで、より現実的で組織に即したシナリオを作成でき る。これにより、特定の環境に最適化された訓練が実現する。 Scenario Generation from Postmortems AIはポストモーテムを分析して、過去のインシデントから学ん だ教訓を基にシナリオを生成する。実際に発生した問題を反映 した実践的な訓練ができ、過去のインシデントからの学びが深 くなり、同様のインシデントに対する対応が改善する。 SRE NEXT 2024 | Ryota Yoshikawa ( @rrreeeyyy ) 8

Slide 9

Slide 9 text

Actual Incident Training in Progress SRE NEXT 2024 | Ryota Yoshikawa ( @rrreeeyyy ) 9

Slide 10

Slide 10 text

Ideas for More Efficient Training Improving Game Accuracy 現在のAIでは、たまに意図しない回答や誤った回答を返すこと があり、訓練が上手く進行しないこともある。このため、 prompting技術を改善し、AIの実施精度を向上させる必要があ る。 Simulating Real Environments シナリオに応じて仮想的にLinuxなどの環境を用意し、対応者 はAIに対してコマンドの指示を出すことで、バックグラウンド で実行する。これにより、よりリアルなデータに基づいた訓練 が可能となる。 Incident Response Assessment by AI 訓練後にAIがインシデント対応の評価を行い、改善点を挙げる ことで、次回以降の訓練でさらに学びを得ることができる。こ れにより、訓練の質を継続的に向上させる。 SRE NEXT 2024 | Ry ota Y osh ikawa ( @ rrreeeyyy ) 10

Slide 11

Slide 11 text

Waroom ブースで デモやってます! 11F のスポンサーブースエリア奥の 3 番にて! 本日話した障害対応訓練の機能を含む、 インシデントマネジメントに関わる 様々な機能のデモをやっています! ノベルティやガチャなどもあるので、 ぜひお越しください!お待ちしています! SRE NEXT 2024 | Ryota Yoshikawa ( @rrreeeyyy ) 11