Upgrade to Pro — share decks privately, control downloads, hide ads and more …

システムのアラート調査をサポートするAI Agentの紹介/Introduction to a...

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

システムのアラート調査をサポートするAI Agentの紹介/Introduction to an AI Agent for System Alert Investigation

【Sansan × LayerX × ENECHANGE】運用と開発を進化させるAIの実践事例 で発表した資料です。
https://enechange-meetup.connpass.com/event/379833/

Avatar for SadayoshiTada

SadayoshiTada

January 29, 2026
Tweet

More Decks by SadayoshiTada

Other Decks in Technology

Transcript

  1. 多田 貞剛 @taddy_919 自己紹介 2022/03 入社 バクラク事業部 Platform Engineering部 SREグループ

    今週末は成田ゆめ牧場で穴掘り大会に 出場してきます © LayerX Inc. 2
  2. AWS DevOps Agentとの比較 AWS DevOps Agent : re:Invent 2025で発表されたプレビュー版自律的なAIエージェント ©

    LayerX Inc. 他ソリューションとの比較 利用者はAWSにログインしないとDevOps Agentを使用できない AWSにログインしなくても利用できることを目指したかった Slackから調査依頼を行うことができない 業務のインターフェースとしてSlackが主のため 14
  3. AWS DevOps Agentとの比較サマリー 項目 AWS DevOps Agent システム調査エージェント データソースの統合 ◯

    ◯ Slackからの利用 ✕ (調査ステータスの通知のみ) ◯ カスタマイズ性 ✕ ◯ 初期導入の手軽さ ◯(ボタン数クリックで利用可能) △ (エージェント実行環境の構築が必要) 料金 ◯ (プレビュー期間は無料) △ (AWSの従量課金) © LayerX Inc. 他ソリューションとの比較 15
  4. Datadog Bits AI SREとの比較 Datadog Bits AI SRE : Datadog内で動作する自動アラート調査AIエージェント

    © LayerX Inc. 他ソリューションとの比較 バクラクの大半のメトリクス、ログ、トレース情報はDatadogに集まってくるが、一部 Datadog外の情報(CloudWatch)を必要とする場合もある 全ての調査がBits AI SREで完結できるわけではなく、AWSにエージェントを配置し、Datadogの調査はMCP経由 で行うことにした 16
  5. Datadog Bits AI SREとの比較サマリー 項目 Datadog Bits AI システム調査エージェント データソースの統

    合 △ (Datadogのみ) ◯ (Datadog + CloudWatch等) Slackからの利用 ◯ ◯ カスタマイズ性 △ (Datadog提供機能のみ) ◯ (独自拡張可能) 初期導入の手軽さ ◯ (設定のみ) △ (エージェント実行環境の構築が必 要) 料金 △ (オンデマンドだと1件の調査つき $36) △ (AWSの従量課金) © LayerX Inc. 他ソリューションとの比較 17
  6. AI エージェント祭 © LayerX Inc. 課題に対する改善の検討 社内でAI Agent開発を行うハッカソン(AI エージェント祭)が開催された AI

    エージェント祭を開催しました CloudWatchのメトリクス推移から異常を調べるエージェントを作成 ALB/ECS/RDSの特定タグのメトリクスを収集 異常な挙動をレポーティング この場で作ったエージェントを継続的に開発し、アラート調査を支援できるようにすることを目指した 18
  7. 使用している技術(1) © LayerX Inc. アーキテクチャ・技術スタック Python uv: Pythonのパッケージ・プロジェクト管理ツール Strands Agent:

    AIエージェントSDK Claude Sonnet 4.5: Anthropic社の最新世代の大規模言語モデル Slack Bolt: Slackアプリ開発用のフレームワーク 20
  8. 使用している技術(2) © LayerX Inc. アーキテクチャ・技術スタック Datadog MCP Server(プレビュー機能): Datadogの監視データにアクセスするための MCPサーバー

    CloudWatch MCP Server: AWS CloudWatchのメトリクスやログ分析等を行うための MCPサーバー AWS Documentation MCP Server: AWS公式ドキュメントにアクセスするためのMCPサ ーバー 21
  9. 実行環境 © LayerX Inc. アーキテクチャ・技術スタック AWS上に構築 ALB + ECS Fargate

    + Bedrock(日本リージョン) バクラクでは大半のコンピューティングリソースがECS Fargateで構成されており、CI/CDやインフラの自動 生成等既存のプラットフォームに載ることで高速に検証を回せるため採用した 22
  10. 調査レポートにおけるタイムウィンドウの統一 © LayerX Inc. 実装上の考慮点 エージェントのレポートでのタイムウィンドウに実際の時間帯よりも過去になっている ことがあった ex) 調査期間が2026年1月29日の16:00-16:30とレポートしてほしいところ、2024年1月29日の16:00-16:30とレポ ートされてしまう事象

    開発初期エージェントに対して時間に関するコンテキストを与えておらずタイムウィン ドウがばらつきがあったため、コンテキストで明確に指示するようにした 明確に時間の指定がなければ現在時刻で調査を行うようにプロンプトで指示するのと、Strands Agentのtoolsで 現在時刻を取得するようにした 29
  11. まとめ © LayerX Inc. まとめ システム調査エージェントでアラートの調査を自動化 メトリクス・ログ・トレースを統合調査 Strands Agent +

    専門のMCPで横断的なアラート調査をサポート AIを自分たちのオペレーションに染み込ませるフローを今後も構築していきたい 37