Upgrade to Pro — share decks privately, control downloads, hide ads and more …

アラートと運用知見から始める、自律的なインシデント調査への第一歩

Avatar for heleeen heleeen
September 25, 2025
8

 アラートと運用知見から始める、自律的なインシデント調査への第一歩

突撃!となりのSRE - 現場で試したAI活用事例
https://findy.connpass.com/event/368449/

Avatar for heleeen

heleeen

September 25, 2025
Tweet

Transcript

  1. 井口 景子 (id:heleeen / @he1eeen) • 2019年9月に はてな に SRE

    として入社 • 現在は Mackerel の SRE テックリード • SRE, Serverless が好き • とてもめんどくさがり 自己紹介 2
  2. 6 アラート調査の初動は、実はだいたい同じ • まずはとりあえず状況を把握する ◦ メトリックをより詳細に確認 ◦ ログやトレースを確認 ◦ Runbook

    に類似の現象についての情報がないか確認 ◦ 他に様子の変わったメトリックがないか確認 ◦ ... • その後に障害に対処する
  3. 8 障害調査 with AI • AI を利用できる環境の用意 ◦ プロンプトを投げられる状態になっている •

    ログ, Runbook を利用した調査結果がほしい ◦ アラートが上がったときだいたいログを見ることが多い ◦ Runbook も知見として利用したい • 結果の精度は最初は低くてもよい ◦ まずは動いている状態を作りたい • アラートを指定して指示するのはめんどうなので, アラートは 勝手に調べておいてほしい
  4. Mastra を利用 • TypeScript で作られた AI agent framework ◦ TypeScript

    で AI agent を利用する workflow が書ける 9
  5. プロンプトの実行 14 Slack bot でプロンプトを投げる / 実行結果は Slack へ投稿される Mastra

    で AI agent 実行 タイムアウト対策として SQS でキュー管理
  6. 22 工夫 • 必要なツールのみ実行させる ◦ もともとは常にログも Runbook も調査していた ◦ Agent

    はツールの調査結果を正しいと重要と判断しがちなので, 必要と思われる調査のツールのみ実行するように ◦ 関係ない結果を返しにくくなった
  7. 23 工夫 • わからないことはわからないと言わせる ◦ 妥当性が低すぎると見られなくなってしまう.... • プロンプトの実例抜粋 ↓ >

    調査結果をまとめています。ユーザー入力にある、解決すべき問題に ついて分析してください > **分析における厳格なルール:** > ...... > 解決対象の問題を特定できなかった場合は、「提供された情報だけで は、解決すべき問題の特定ができません。」という旨と特定できなかっ た理由を回答し、終了する。
  8. 24 AI に障害調査を任せると... AI のやること 人間のやること • アラート発生時に即座にログと Runbook で初動調査を実行

    • 調査結果の要点のサマリーと詳細を 返却 • わからないときは不明と返す 初動を高速化 定型調査を肩代わり • 何かを中断してアラート調査 • AI が返した結果を確認 • 必要に応じて追加調査と実際の対応 を実施 • Runbook の補強などで, 今後の精度 を高める 最終判断と責任は人間が担う 判断と改善に集中
  9. 25 日々のアラート調査の負荷が減った • アラート発生時に自分で調べなくても, 調査結果が得られている ◦ AI がなければ, アラートが来るたびに何かを中断して調査していたが, 調査結果をとりあえず待つ暮らしに変わった

    ◦ 調査結果とアラートを見て人間の初動を決められるようになった • めんどうなところを AI が肩代わりしてくれている ◦ ログを調査した結果が自動で出ていて便利 ◦ 関連する Runbook があるか自分で見なくてよい • 自分が詳しくないコンポーネントでも調査のヒントが得られる • 依存したコンポーネントも調査できるようにしたい
  10. 26 副次的効果 • 日々の意識にも影響する ◦ ログをきれいにしたい気持ちにかられる ◦ Runbook ももっと残して(生成して)いこうという気持ちになる •

    Mastra の実行環境を用意する = システムと連携した AI の利用基盤が整う ◦ どんどん AI に任せていくことができる