Slide 1

Slide 1 text

システムのアラート調査をサポートするAI Agentの紹介 2026/01/29 【Sansan × LayerX × ENECHANGE】運用と開発を進化させるAIの実践事例 多田 貞剛/@taddy_919

Slide 2

Slide 2 text

多田 貞剛 @taddy_919 自己紹介 2022/03 入社 バクラク事業部 Platform Engineering部 SREグループ 今週末は成田ゆめ牧場で穴掘り大会に 出場してきます © LayerX Inc. 2

Slide 3

Slide 3 text

会社紹介

Slide 4

Slide 4 text

© LayerX Inc. 4

Slide 5

Slide 5 text

© LayerX Inc. 5

Slide 6

Slide 6 text

本日のアジェンダ © LayerX Inc. バクラクのアラート対応における課題 課題に対する改善検討と開発したAIエージェントの概要 AIの動作イメージと今後の展望 まとめ 6

Slide 7

Slide 7 text

バクラクのアラート対応における課題

Slide 8

Slide 8 text

バクラクのアーキテクチャの紹介 © LayerX Inc. 背景・課題 出典: Bakuraku Engineering Team Deck P23 8

Slide 9

Slide 9 text

バクラクの監視にまつわる前提 © LayerX Inc. 大半のシステムにおいてはDatadogにメトリクス、ログ、トレースを集約している 歴史的な経緯で一部のシステムではログ情報がCloudWatch Logsに出力されている Datadogのメトリクスは遅延することがあるため、CloudWatchメトリクスも合わせて確認している 9

Slide 10

Slide 10 text

バクラクのアラート対応の課題 © LayerX Inc. 背景・課題 バクラクではプロダクト間連携している機能があり、プロダクトをまたぐアラート対応 が複雑な調査となる アラート調査では関連システムをバックエンド/フロントエンドそれぞれの挙動を確認する 調査に当たってはそれぞれのサービス依存関係を把握しつつ調べる アラートに関連するシステムの処理フローを横断的に追う アラートの調査と合わせて適宜コードの修正対応を行う 10

Slide 11

Slide 11 text

プロダクトチームメンバー拡大に伴う課題 © LayerX Inc. 背景・課題 前頁で触れた、プロダクト単体だけでなくプロダクトをまたぐ機能を把握していないと アラート調査が難しい プロダクトチームの新入社員がアラート調査ができるようになるまでの学習コストが高い SREを介さなくてもプロダクトチームで調査や修正対応が継続するよう支援したい 11

Slide 12

Slide 12 text

課題に対する改善の検討

Slide 13

Slide 13 text

アラート対応の改善検討 © LayerX Inc. 課題に対する改善の検討 アラート調査は一定定型化を行っている 特定時間帯における関連システムのメトリクス、トレース、ログを確認 場合によってECSタスクを再起動する これらをアラートごとにNotionに対応をまとめて運用している 一定定型化されているためアラート調査は自動化余地があると感じており、そのための 改善を行うことにした 他ソリューションとも比較し、現時点においては内製することにした 13

Slide 14

Slide 14 text

AWS DevOps Agentとの比較 AWS DevOps Agent : re:Invent 2025で発表されたプレビュー版自律的なAIエージェント © LayerX Inc. 他ソリューションとの比較 利用者はAWSにログインしないとDevOps Agentを使用できない AWSにログインしなくても利用できることを目指したかった Slackから調査依頼を行うことができない 業務のインターフェースとしてSlackが主のため 14

Slide 15

Slide 15 text

AWS DevOps Agentとの比較サマリー 項目 AWS DevOps Agent システム調査エージェント データソースの統合 ◯ ◯ Slackからの利用 ✕ (調査ステータスの通知のみ) ◯ カスタマイズ性 ✕ ◯ 初期導入の手軽さ ◯(ボタン数クリックで利用可能) △ (エージェント実行環境の構築が必要) 料金 ◯ (プレビュー期間は無料) △ (AWSの従量課金) © LayerX Inc. 他ソリューションとの比較 15

Slide 16

Slide 16 text

Datadog Bits AI SREとの比較 Datadog Bits AI SRE : Datadog内で動作する自動アラート調査AIエージェント © LayerX Inc. 他ソリューションとの比較 バクラクの大半のメトリクス、ログ、トレース情報はDatadogに集まってくるが、一部 Datadog外の情報(CloudWatch)を必要とする場合もある 全ての調査がBits AI SREで完結できるわけではなく、AWSにエージェントを配置し、Datadogの調査はMCP経由 で行うことにした 16

Slide 17

Slide 17 text

Datadog Bits AI SREとの比較サマリー 項目 Datadog Bits AI システム調査エージェント データソースの統 合 △ (Datadogのみ) ◯ (Datadog + CloudWatch等) Slackからの利用 ◯ ◯ カスタマイズ性 △ (Datadog提供機能のみ) ◯ (独自拡張可能) 初期導入の手軽さ ◯ (設定のみ) △ (エージェント実行環境の構築が必 要) 料金 △ (オンデマンドだと1件の調査つき $36) △ (AWSの従量課金) © LayerX Inc. 他ソリューションとの比較 17

Slide 18

Slide 18 text

AI エージェント祭 © LayerX Inc. 課題に対する改善の検討 社内でAI Agent開発を行うハッカソン(AI エージェント祭)が開催された AI エージェント祭を開催しました CloudWatchのメトリクス推移から異常を調べるエージェントを作成 ALB/ECS/RDSの特定タグのメトリクスを収集 異常な挙動をレポーティング この場で作ったエージェントを継続的に開発し、アラート調査を支援できるようにすることを目指した 18

Slide 19

Slide 19 text

システム調査エージェントとは アラートに関連するメトリクス・ログ・トレース情報を自動で調査・分析するAI エージェント 現在PoC中でプロダクトチームに展開を目指して開発・検証中 © LayerX Inc. システム調査エージェント概要 Slackからアラート情報を渡すことで自動調査 専門のMCPを使って複数データソース(CloudWatch、Datadog)に渡って調査した結果を レポートする 調査結果から優先度付けて改善の提案を行う 19

Slide 20

Slide 20 text

使用している技術(1) © LayerX Inc. アーキテクチャ・技術スタック Python uv: Pythonのパッケージ・プロジェクト管理ツール Strands Agent: AIエージェントSDK Claude Sonnet 4.5: Anthropic社の最新世代の大規模言語モデル Slack Bolt: Slackアプリ開発用のフレームワーク 20

Slide 21

Slide 21 text

使用している技術(2) © LayerX Inc. アーキテクチャ・技術スタック Datadog MCP Server(プレビュー機能): Datadogの監視データにアクセスするための MCPサーバー CloudWatch MCP Server: AWS CloudWatchのメトリクスやログ分析等を行うための MCPサーバー AWS Documentation MCP Server: AWS公式ドキュメントにアクセスするためのMCPサ ーバー 21

Slide 22

Slide 22 text

実行環境 © LayerX Inc. アーキテクチャ・技術スタック AWS上に構築 ALB + ECS Fargate + Bedrock(日本リージョン) バクラクでは大半のコンピューティングリソースがECS Fargateで構成されており、CI/CDやインフラの自動 生成等既存のプラットフォームに載ることで高速に検証を回せるため採用した 22

Slide 23

Slide 23 text

システム調査エージェントの構成図 アーキテクチャ・技術スタック © LayerX Inc. 23

Slide 24

Slide 24 text

複数データソースの統合調査に当たって実装で考慮したこと 主に以下の3つを実装時に考慮して進めました © LayerX Inc. 実装上の考慮点 統括エージェントとMCP問合せエージェントを分割 入力トークンの管理 調査レポートにおけるタイムウィンドウの統一 24

Slide 25

Slide 25 text

統括エージェントとMCP問合せエージェントを分割 © LayerX Inc. 実装上の考慮点 各エージェントの責務を明確化し、追加のエージェントも増やすときにも対応できるよ うにエージェントを分割した システム調査エージェントでは、以下のように分割 調査の計画策定とレポーティングを統括するエージェント(Supervisor)、専門MCPをツールとし呼び出してその 結果を取りまとめるエージェントで構成(Agents-as-Tools) 25

Slide 26

Slide 26 text

ツールの登録と呼び出すイメージ © LayerX Inc. 実装上の考慮点 26

Slide 27

Slide 27 text

ツールの登録と呼び出すイメージ © LayerX Inc. 実装上の考慮点 27

Slide 28

Slide 28 text

入力トークンの管理 © LayerX Inc. 実装上の考慮点 調査計画策定時、各MCPの問合せした結果を統合してBedrockに渡す事を行うため、複 雑な調査になる時にBedrockの入力トークンの上限に引っかかる可能性があると考えた そのため、以下の対応を行った 入力トークンで使用する最大トークン数を制限 エージェントのプロンプトの指示トークン数を過剰に使用しないようにレポートを簡潔にするよう指示 28

Slide 29

Slide 29 text

調査レポートにおけるタイムウィンドウの統一 © LayerX Inc. 実装上の考慮点 エージェントのレポートでのタイムウィンドウに実際の時間帯よりも過去になっている ことがあった ex) 調査期間が2026年1月29日の16:00-16:30とレポートしてほしいところ、2024年1月29日の16:00-16:30とレポ ートされてしまう事象 開発初期エージェントに対して時間に関するコンテキストを与えておらずタイムウィン ドウがばらつきがあったため、コンテキストで明確に指示するようにした 明確に時間の指定がなければ現在時刻で調査を行うようにプロンプトで指示するのと、Strands Agentのtoolsで 現在時刻を取得するようにした 29

Slide 30

Slide 30 text

タイムウィンドウのコンテキスト指示イメージ © LayerX Inc. 実装上の考慮点 30

Slide 31

Slide 31 text

システム調査エージェントの動作イメージ

Slide 32

Slide 32 text

システム調査エージェントの振る舞い 大まかに以下のような振る舞いをします © LayerX Inc. システム調査エージェントの動作イメージ 32

Slide 33

Slide 33 text

実際の調査依頼及びレポートイメージ システム調査エージェントの動作イメージ © LayerX Inc. 33

Slide 34

Slide 34 text

システム調査エージェントの動作イメージ © LayerX Inc. 34

Slide 35

Slide 35 text

今後の展望 © LayerX Inc. プロダクトチームに利用可能な状態にする 自動修復アクションの提案・実行 調査するシステムに応じてコンテキストを渡して調査を効率化 35

Slide 36

Slide 36 text

まとめ

Slide 37

Slide 37 text

まとめ © LayerX Inc. まとめ システム調査エージェントでアラートの調査を自動化 メトリクス・ログ・トレースを統合調査 Strands Agent + 専門のMCPで横断的なアラート調査をサポート AIを自分たちのオペレーションに染み込ませるフローを今後も構築していきたい 37

Slide 38

Slide 38 text

We're hiring 採用全力強化中です!ご興味ありましたらご連絡をお願いします! バクラク事業部・エンジニア組織紹介資料 バクラクSRE JD © LayerX Inc. まとめ 38

Slide 39

Slide 39 text

ご清聴ありがとうございました!