Slide 1

Slide 1 text

バクラクのSREにおけるAgentic AIへの挑戦 2026/02/28 SRE Kaigi 2026 延長戦 基調講演 多田 貞剛/@taddy_919

Slide 2

Slide 2 text

多田 貞剛 @taddy_919 自己紹介 2022/03 入社 バクラク事業部 Platform Engineering部 SREグループ 全国穴掘り大会に出場して331チーム 中178位でした 身体を動かすのが好きです © LayerX Inc. 2

Slide 3

Slide 3 text

会社紹介

Slide 4

Slide 4 text

© LayerX Inc. 4

Slide 5

Slide 5 text

© LayerX Inc. 5

Slide 6

Slide 6 text

本日のアジェンダ © LayerX Inc. 生成AI時代における我々を取り巻く環境の変化 バクラクのアラート対応における課題 課題に対する改善検討と開発したAIエージェントの概要 AIエージェントの動作イメージと今後の展望 まとめ 6

Slide 7

Slide 7 text

生成AI時代における我々を取り巻く環境の変化

Slide 8

Slide 8 text

開発や運用に生成AIを使っていますか? © LayerX Inc. 生成AI時代における我々を取り巻く環境の変化 みなさんは業務で生成AIを使っていますか? 私たちも生成AIを活用して日々の業務にあたっています 8

Slide 9

Slide 9 text

SREを取り巻く環境の変化 © LayerX Inc. 生成AI時代における我々を取り巻く環境の変化 生成AI時代ではコードの変更量が従前と比べると数倍増加している コードの変更量が増えたことでシステムは複雑化し、運用・監視を行う対象も増加した これまでのやり方ではサービス増加に対して運用がスケールしない 私たちもマインドセットを変えないといけないと感じる 9

Slide 10

Slide 10 text

Agentic AIの広がり © LayerX Inc. 生成AI時代における我々を取り巻く環境の変化 Agentic AI:チャットで答えるだけのAIから、AIがコンテキストを踏まえ自律的にツール を呼び出し、複雑なタスクを実行する 昨年からSREの職域においても「人が調べてから対処する」から 「AIが調査し人が判断 する」 への転換が進みつつある Agentic AIに関するサービスが各社から発表されている ※以下は一例 AWS DevOps Agent: AWSリソースの調査・トラブルシュートを自律的に実行 Datadog Bits AI SRE: Datadogの監視データを活用した自動アラート調査・根本原因分析 Azure SRE Agent: Azureの障害検知から修復提案までを自動化 10

Slide 11

Slide 11 text

これからの我々に求められること © LayerX Inc. 生成AI時代における我々を取り巻く環境の変化 自分達の業務の中で人間の介入が必要な箇所を見極め、Agenticなものに置き換えてい かないと環境変化に間に合わない 例えば、アラート対応 Before: アラート対応は手動かつ属人的 After: AIが調査を担い、人間は判断・意思決定に集中 上記を踏まえた取り組みの一例を本発表で紹介します 11

Slide 12

Slide 12 text

バクラクのアラート対応における課題

Slide 13

Slide 13 text

バクラクのアーキテクチャの紹介 © LayerX Inc. 背景・課題 出典: Bakuraku Engineering Team Deck P23 13

Slide 14

Slide 14 text

バクラクの監視にまつわる前提 © LayerX Inc. 大半のシステムにおいてはDatadogにメトリクス、ログ、トレースを集約している 歴史的な経緯で一部のシステムではログ情報がCloudWatch Logsに出力されている Datadogのメトリクスは遅延することがあるため、CloudWatchメトリクスも合わせて確認している 14

Slide 15

Slide 15 text

バクラクのアラート対応の課題 © LayerX Inc. 背景・課題 バクラクではプロダクト間連携している機能があり、プロダクトをまたぐアラート対応 が複雑な調査となる アラート調査では関連システムのバックエンド/フロントエンドそれぞれの挙動を確認する 調査に当たってはそれぞれのサービス依存関係を把握しつつ調べる アラートに関連するシステムの処理フローを横断的に追う アラートの調査と合わせて適宜コードの修正対応を行う 15

Slide 16

Slide 16 text

プロダクトチームメンバー拡大に伴う課題 © LayerX Inc. 背景・課題 前頁で触れた、プロダクト単体だけでなくプロダクトをまたぐ機能を把握していないと アラート調査が難しい プロダクトチームの新入社員がアラート調査ができるようになるまでの学習コストが高い SREを介さなくてもプロダクトチームで調査や修正対応が継続するよう支援したい 16

Slide 17

Slide 17 text

課題に対する改善の検討

Slide 18

Slide 18 text

内製化 © LayerX Inc. 課題に対する改善の検討 アラート調査は一定定型化を行っている 特定時間帯における関連システムのメトリクス、トレース、ログを確認 場合によってECSタスクを再起動する これらをアラートごとにNotionに対応をまとめて運用している 一定定型化されているためアラート調査は自動化余地があると感じており、そのための 改善を行うことにした 他ソリューションとも比較し、現時点においては 内製する ことにした 18

Slide 19

Slide 19 text

AWS DevOps Agentとの比較 AWS DevOps Agent : re:Invent 2025で発表された自律的なAIエージェント(プレビュー中) © LayerX Inc. 他ソリューションとの比較 利用者はAWSにログインしないとDevOps Agentを使用できない AWSにログインしなくても利用できることを目指したかった Slackから調査依頼を行うことができない 業務のインターフェースとしてSlackが主のため 19

Slide 20

Slide 20 text

AWS DevOps Agentとの比較サマリー 項目 AWS DevOps Agent 内製 データソースの統合 ◯ ◯ Slackからの利用 ✕ (調査ステータスの通知のみ) ◯ カスタマイズ性 ✕ ◯ 初期導入の手軽さ ◯(ボタン数クリックで利用可能) △ (エージェント実行環境の構築が必要) 料金 ◯ (プレビュー期間は無料) △ (AWSの従量課金) © LayerX Inc. 他ソリューションとの比較 20

Slide 21

Slide 21 text

Datadog Bits AI SREとの比較 Datadog Bits AI SRE : Datadog内で動作する自動アラート調査AIエージェント © LayerX Inc. 他ソリューションとの比較 バクラクの大半のメトリクス、ログ、トレース情報はDatadogに集まってくるが、一部 Datadog外の情報(CloudWatch)を必要とする場合もある 全ての調査がBits AI SREで完結できるわけではなく、AWSにエージェントを配置し、Datadogの調査はMCP経由 で行うことにした 21

Slide 22

Slide 22 text

Datadog Bits AI SREとの比較サマリー 項目 Datadog Bits AI 内製 データソースの統 合 △ (Datadogのみ) ◯ (Datadog + CloudWatch等) Slackからの利用 ◯ ◯ カスタマイズ性 △ (Datadog提供機能のみ) ◯ (独自拡張可能) 初期導入の手軽さ ◯ (設定のみ) △ (エージェント実行環境の構築が必 要) 料金 △ (オンデマンドだと1件の調査につき $36) △ (AWSの従量課金) © LayerX Inc. 他ソリューションとの比較 22

Slide 23

Slide 23 text

内製のAIエージェント開発のきっかけ

Slide 24

Slide 24 text

AI エージェント祭 AI エージェント祭 社内でAI Agent開発を行うハッカソン (AI エージェント祭)が開催された AI エージェント祭を開催しました © LayerX Inc. 24

Slide 25

Slide 25 text

AI エージェント祭りで作ったもの © LayerX Inc. AI エージェント祭 CloudWatchのメトリクス推移から異常を調べるエージェントを作成 ALB/ECS/RDSの特定タグのメトリクスを収集 異常な挙動があったらその結果をレポートする 25

Slide 26

Slide 26 text

システム調査エージェントとは アラートに関連するメトリクス・ログ・トレース情報を自動で調査・分析するAI エージェント 現在PoC中でプロダクトチームに展開を目指して開発・検証中 © LayerX Inc. システム調査エージェント概要 Slackからアラート情報を渡すことで自動調査 専門のMCPを使って複数データソース(CloudWatch、Datadog)に渡って調査した結果を レポートする 調査結果から優先度付けて改善の提案を行う 26

Slide 27

Slide 27 text

使用している技術(1) © LayerX Inc. アーキテクチャ・技術スタック Python uv: Pythonのパッケージ・プロジェクト管理ツール Strands Agent: AIエージェントSDK Claude Sonnet 4.6: Anthropic社の最新世代の大規模言語モデル Slack Bolt: Slackアプリ開発用のフレームワーク 27

Slide 28

Slide 28 text

使用している技術(2) © LayerX Inc. アーキテクチャ・技術スタック Datadog MCP Server(プレビュー機能): Datadogの監視データにアクセスするための MCPサーバー CloudWatch MCP Server: AWS CloudWatchのメトリクスやログ分析等を行うための MCPサーバー AWS Documentation MCP Server: AWS公式ドキュメントにアクセスするためのMCPサ ーバー 28

Slide 29

Slide 29 text

実行環境 © LayerX Inc. アーキテクチャ・技術スタック AWS上に構築 ALB + ECS Fargate + Bedrock(日本リージョン) バクラクでは大半のコンピューティングリソースがECS Fargateで構成されており、CI/CDやインフラの自動 生成等既存のプラットフォームに載ることで高速に検証を回せるため採用した Amazon Bedrockのモデルでは学習のオプトアウトが適用済みのため採用した AWS公式ドキュメント 29

Slide 30

Slide 30 text

システム調査エージェントの構成図 アーキテクチャ・技術スタック © LayerX Inc. 30

Slide 31

Slide 31 text

複数データソースの統合調査に当たって考慮したこと 主に以下の点を考慮して進めました © LayerX Inc. 実装上の考慮点 統括エージェントとMCP問合せエージェントを分割 コンテキストウィンドウの超過対策 調査レポートにおけるタイムウィンドウの統一 31

Slide 32

Slide 32 text

統括エージェントとMCP問合せエージェントを分割 © LayerX Inc. 実装上の考慮点 各エージェントの責務を明確化し、追加のエージェントも増やすときにも対応できるよ うにエージェントを分割した システム調査エージェントでは、以下のように分割 調査の計画策定とレポーティングを統括するエージェント(Supervisor)、専門MCPをツールとし呼び出してその 結果を取りまとめるエージェントで構成(Agents-as-Tools) 32

Slide 33

Slide 33 text

ツールの登録と呼び出すイメージ © LayerX Inc. 実装上の考慮点 33

Slide 34

Slide 34 text

ツールの登録と呼び出すイメージ © LayerX Inc. 実装上の考慮点 34

Slide 35

Slide 35 text

コンテキストウィンドウの超過対策 © LayerX Inc. 実装上の考慮点 調査計画策定時、各MCPへ問い合わせた結果を統合してBedrockに渡す事を行ってお り、稼働させてみたところコンテキストウィンドウを超過するエラーが発生した bedrock threw context window overflow error プロンプトの指示としてトークン数を過剰に使用しないようにレポートを簡潔にするよ う指示を追加し、一旦エラーは解消 上記のエラーはClaude Sonnet 4.5で発生したが、Claude Sonnet 4.6ではコンテキストの圧縮が利用できるため 試したい コンテキストウィンドウオーバーフローとその対策,Compaction 35

Slide 36

Slide 36 text

調査レポートにおけるタイムウィンドウの統一 © LayerX Inc. 実装上の考慮点 エージェントのレポートでのタイムウィンドウに実際の時間帯よりも過去になっている ことがあった ex) 調査期間が2026年2月28日の16:00-16:30とレポートしてほしいところ、2024年2月28日の16:00-16:30とレポ ートされてしまう事象 開発初期エージェントに対して時間に関するコンテキストを与えておらずタイムウィン ドウがばらつきがあったため、コンテキストで明確に指示するようにした 明確に時間の指定がなければ現在時刻で調査を行うようにプロンプトで指示するのと、Strands Agentのtoolsで 現在時刻を取得するようにした 36

Slide 37

Slide 37 text

タイムウィンドウのコンテキスト指示イメージ © LayerX Inc. 実装上の考慮点 37

Slide 38

Slide 38 text

システム調査エージェントの動作イメージ

Slide 39

Slide 39 text

システム調査エージェントの振る舞い 大まかに以下のような振る舞いをします © LayerX Inc. システム調査エージェントの動作イメージ 39

Slide 40

Slide 40 text

システム調査エージェントの動作イメージ © LayerX Inc. 40

Slide 41

Slide 41 text

今後の展望 © LayerX Inc. システム調査エージェントの今後の展望 プロダクトチームに利用可能な状態にする 自動修復アクションの提案・実行 調査するシステムに応じてコンテキストを渡して調査を効率化 41

Slide 42

Slide 42 text

今後の展望:SRE Kaigi 2026での学び © LayerX Inc. システム調査エージェントの今後の展望 SRE Kaigiで以下のセッションを聴講して、本発表の延長線上にある取り組みで私自身 大変勉強になりました AIと新時代を切り拓く。これからのSREとメルカリIBISの挑戦 botへのメンションによる調査依頼は利用が進まなかったことは勉強になり、ユーザーの状況を先読みして 自律的にアクションを起こす、Ambient Agentのようにしないといけないと感じた 42

Slide 43

Slide 43 text

まとめ

Slide 44

Slide 44 text

まとめ © LayerX Inc. まとめ システムアラート調査に生成AIを適用し、アラート対応を支援するAIエージェントを作 った まずはAIを自分たちの業務に小さく適用して広げてみる 本発表以外にも生成AIを業務に適用する範囲を見極めて、AIを自分たちのオペレーショ ンに染み込ませるフローを今後も構築していきたい 44

Slide 45

Slide 45 text

We're hiring 採用全力強化中です!ご興味ありましたらご連絡をお願いします! バクラク事業部・エンジニア組織紹介資料 バクラクSRE JD © LayerX Inc. まとめ 45

Slide 46

Slide 46 text

SREに関するイベントやります! まとめ 3/16(月)に弊社オフィスにてSREのイ ベントを企画しています https://layerx.connpass.com/event/385842/ ぜひお越しください! © LayerX Inc. 46

Slide 47

Slide 47 text

ご清聴ありがとうございました!