バクラクのSREにおけるAgentic AIへの挑戦/Our Journey with Agentic AI

by SadayoshiTada

Embed

Start on current slide

Slide 1

Slide 1 text

バクラクのSREにおけるAgentic AIへの挑戦 2026/02/28 SRE Kaigi 2026 延長戦基調講演多田貞剛/@taddy_919

Slide 2

Slide 2 text

多田貞剛 @taddy_919 自己紹介 2022/03 入社バクラク事業部 Platform Engineering部 SREグループ全国穴掘り大会に出場して331チーム中178位でした身体を動かすのが好きです © LayerX Inc. 2

Slide 3

Slide 3 text

会社紹介

Slide 4

Slide 4 text

Slide 5

Slide 5 text

Slide 6

Slide 6 text

本日のアジェンダ © LayerX Inc. 生成AI時代における我々を取り巻く環境の変化バクラクのアラート対応における課題課題に対する改善検討と開発したAIエージェントの概要 AIエージェントの動作イメージと今後の展望まとめ 6

Slide 7

Slide 7 text

生成AI時代における我々を取り巻く環境の変化

Slide 8

Slide 8 text

開発や運用に生成AIを使っていますか？ © LayerX Inc. 生成AI時代における我々を取り巻く環境の変化みなさんは業務で生成AIを使っていますか？私たちも生成AIを活用して日々の業務にあたっています 8

Slide 9

Slide 9 text

SREを取り巻く環境の変化 © LayerX Inc. 生成AI時代における我々を取り巻く環境の変化生成AI時代ではコードの変更量が従前と比べると数倍増加しているコードの変更量が増えたことでシステムは複雑化し、運用・監視を行う対象も増加したこれまでのやり方ではサービス増加に対して運用がスケールしない私たちもマインドセットを変えないといけないと感じる 9

Slide 10

Slide 10 text

Agentic AIの広がり © LayerX Inc. 生成AI時代における我々を取り巻く環境の変化 Agentic AI:チャットで答えるだけのAIから、AIがコンテキストを踏まえ自律的にツールを呼び出し、複雑なタスクを実行する昨年からSREの職域においても「人が調べてから対処する」から「AIが調査し人が判断する」への転換が進みつつある Agentic AIに関するサービスが各社から発表されている ※以下は一例 AWS DevOps Agent: AWSリソースの調査・トラブルシュートを自律的に実行 Datadog Bits AI SRE: Datadogの監視データを活用した自動アラート調査・根本原因分析 Azure SRE Agent: Azureの障害検知から修復提案までを自動化 10

Slide 11

Slide 11 text

これからの我々に求められること © LayerX Inc. 生成AI時代における我々を取り巻く環境の変化自分達の業務の中で人間の介入が必要な箇所を見極め、Agenticなものに置き換えていかないと環境変化に間に合わない例えば、アラート対応 Before: アラート対応は手動かつ属人的 After: AIが調査を担い、人間は判断・意思決定に集中上記を踏まえた取り組みの一例を本発表で紹介します 11

Slide 12

Slide 12 text

バクラクのアラート対応における課題

Slide 13

Slide 13 text

バクラクのアーキテクチャの紹介 © LayerX Inc. 背景・課題出典: Bakuraku Engineering Team Deck P23 13

Slide 14

Slide 14 text

バクラクの監視にまつわる前提 © LayerX Inc. 大半のシステムにおいてはDatadogにメトリクス、ログ、トレースを集約している歴史的な経緯で一部のシステムではログ情報がCloudWatch Logsに出力されている Datadogのメトリクスは遅延することがあるため、CloudWatchメトリクスも合わせて確認している 14

Slide 15

Slide 15 text

バクラクのアラート対応の課題 © LayerX Inc. 背景・課題バクラクではプロダクト間連携している機能があり、プロダクトをまたぐアラート対応が複雑な調査となるアラート調査では関連システムのバックエンド/フロントエンドそれぞれの挙動を確認する調査に当たってはそれぞれのサービス依存関係を把握しつつ調べるアラートに関連するシステムの処理フローを横断的に追うアラートの調査と合わせて適宜コードの修正対応を行う 15

Slide 16

Slide 16 text

プロダクトチームメンバー拡大に伴う課題 © LayerX Inc. 背景・課題前頁で触れた、プロダクト単体だけでなくプロダクトをまたぐ機能を把握していないとアラート調査が難しいプロダクトチームの新入社員がアラート調査ができるようになるまでの学習コストが高い SREを介さなくてもプロダクトチームで調査や修正対応が継続するよう支援したい 16

Slide 17

Slide 17 text

課題に対する改善の検討

Slide 18

Slide 18 text

内製化 © LayerX Inc. 課題に対する改善の検討アラート調査は一定定型化を行っている特定時間帯における関連システムのメトリクス、トレース、ログを確認場合によってECSタスクを再起動するこれらをアラートごとにNotionに対応をまとめて運用している一定定型化されているためアラート調査は自動化余地があると感じており、そのための改善を行うことにした他ソリューションとも比較し、現時点においては内製することにした 18

Slide 19

Slide 19 text

AWS DevOps Agentとの比較 AWS DevOps Agent : re:Invent 2025で発表された自律的なAIエージェント(プレビュー中) © LayerX Inc. 他ソリューションとの比較利用者はAWSにログインしないとDevOps Agentを使用できない AWSにログインしなくても利用できることを目指したかった Slackから調査依頼を行うことができない業務のインターフェースとしてSlackが主のため 19

Slide 20

Slide 20 text

AWS DevOps Agentとの比較サマリー項目 AWS DevOps Agent 内製データソースの統合 ◯ ◯ Slackからの利用 ✕ (調査ステータスの通知のみ) ◯ カスタマイズ性 ✕ ◯ 初期導入の手軽さ ◯(ボタン数クリックで利用可能) △ (エージェント実行環境の構築が必要) 料金 ◯ (プレビュー期間は無料) △ (AWSの従量課金) © LayerX Inc. 他ソリューションとの比較 20

Slide 21

Slide 21 text

Datadog Bits AI SREとの比較 Datadog Bits AI SRE : Datadog内で動作する自動アラート調査AIエージェント © LayerX Inc. 他ソリューションとの比較バクラクの大半のメトリクス、ログ、トレース情報はDatadogに集まってくるが、一部 Datadog外の情報(CloudWatch)を必要とする場合もある全ての調査がBits AI SREで完結できるわけではなく、AWSにエージェントを配置し、Datadogの調査はMCP経由で行うことにした 21

Slide 22

Slide 22 text

Datadog Bits AI SREとの比較サマリー項目 Datadog Bits AI 内製データソースの統合 △ (Datadogのみ) ◯ (Datadog + CloudWatch等) Slackからの利用 ◯ ◯ カスタマイズ性 △ (Datadog提供機能のみ) ◯ (独自拡張可能) 初期導入の手軽さ ◯ (設定のみ) △ (エージェント実行環境の構築が必要) 料金 △ (オンデマンドだと1件の調査につき $36) △ (AWSの従量課金) © LayerX Inc. 他ソリューションとの比較 22

Slide 23

Slide 23 text

内製のAIエージェント開発のきっかけ

Slide 24

Slide 24 text

AI エージェント祭 AI エージェント祭社内でAI Agent開発を行うハッカソン (AI エージェント祭)が開催された AI エージェント祭を開催しました © LayerX Inc. 24

Slide 25

Slide 25 text

AI エージェント祭りで作ったもの © LayerX Inc. AI エージェント祭 CloudWatchのメトリクス推移から異常を調べるエージェントを作成 ALB/ECS/RDSの特定タグのメトリクスを収集異常な挙動があったらその結果をレポートする 25

Slide 26

Slide 26 text

システム調査エージェントとはアラートに関連するメトリクス・ログ・トレース情報を自動で調査・分析するAI エージェント現在PoC中でプロダクトチームに展開を目指して開発・検証中 © LayerX Inc. システム調査エージェント概要 Slackからアラート情報を渡すことで自動調査専門のMCPを使って複数データソース(CloudWatch、Datadog)に渡って調査した結果をレポートする調査結果から優先度付けて改善の提案を行う 26

Slide 27

Slide 27 text

使用している技術(1) © LayerX Inc. アーキテクチャ・技術スタック Python uv: Pythonのパッケージ・プロジェクト管理ツール Strands Agent: AIエージェントSDK Claude Sonnet 4.6: Anthropic社の最新世代の大規模言語モデル Slack Bolt: Slackアプリ開発用のフレームワーク 27

Slide 28

Slide 28 text

使用している技術(2) © LayerX Inc. アーキテクチャ・技術スタック Datadog MCP Server(プレビュー機能): Datadogの監視データにアクセスするための MCPサーバー CloudWatch MCP Server: AWS CloudWatchのメトリクスやログ分析等を行うための MCPサーバー AWS Documentation MCP Server: AWS公式ドキュメントにアクセスするためのMCPサーバー 28

Slide 29

Slide 29 text

実行環境 © LayerX Inc. アーキテクチャ・技術スタック AWS上に構築 ALB + ECS Fargate + Bedrock(日本リージョン) バクラクでは大半のコンピューティングリソースがECS Fargateで構成されており、CI/CDやインフラの自動生成等既存のプラットフォームに載ることで高速に検証を回せるため採用した Amazon Bedrockのモデルでは学習のオプトアウトが適用済みのため採用した AWS公式ドキュメント 29

Slide 30

Slide 30 text

システム調査エージェントの構成図アーキテクチャ・技術スタック © LayerX Inc. 30

Slide 31

Slide 31 text

複数データソースの統合調査に当たって考慮したこと主に以下の点を考慮して進めました © LayerX Inc. 実装上の考慮点統括エージェントとMCP問合せエージェントを分割コンテキストウィンドウの超過対策調査レポートにおけるタイムウィンドウの統一 31

Slide 32

Slide 32 text

統括エージェントとMCP問合せエージェントを分割 © LayerX Inc. 実装上の考慮点各エージェントの責務を明確化し、追加のエージェントも増やすときにも対応できるようにエージェントを分割したシステム調査エージェントでは、以下のように分割調査の計画策定とレポーティングを統括するエージェント(Supervisor)、専門MCPをツールとし呼び出してその結果を取りまとめるエージェントで構成(Agents-as-Tools) 32

Slide 33

Slide 33 text

Slide 34

Slide 34 text

Slide 35

Slide 35 text

コンテキストウィンドウの超過対策 © LayerX Inc. 実装上の考慮点調査計画策定時、各MCPへ問い合わせた結果を統合してBedrockに渡す事を行っており、稼働させてみたところコンテキストウィンドウを超過するエラーが発生した bedrock threw context window overflow error プロンプトの指示としてトークン数を過剰に使用しないようにレポートを簡潔にするよう指示を追加し、一旦エラーは解消上記のエラーはClaude Sonnet 4.5で発生したが、Claude Sonnet 4.6ではコンテキストの圧縮が利用できるため試したいコンテキストウィンドウオーバーフローとその対策,Compaction 35

Slide 36

Slide 36 text

調査レポートにおけるタイムウィンドウの統一 © LayerX Inc. 実装上の考慮点エージェントのレポートでのタイムウィンドウに実際の時間帯よりも過去になっていることがあった ex) 調査期間が2026年2月28日の16:00-16:30とレポートしてほしいところ、2024年2月28日の16:00-16:30とレポートされてしまう事象開発初期エージェントに対して時間に関するコンテキストを与えておらずタイムウィンドウがばらつきがあったため、コンテキストで明確に指示するようにした明確に時間の指定がなければ現在時刻で調査を行うようにプロンプトで指示するのと、Strands Agentのtoolsで現在時刻を取得するようにした 36

Slide 37

Slide 37 text

Slide 38

Slide 38 text

システム調査エージェントの動作イメージ

Slide 39

Slide 39 text

Slide 40

Slide 40 text

Slide 41

Slide 41 text

Slide 42

Slide 42 text

今後の展望:SRE Kaigi 2026での学び © LayerX Inc. システム調査エージェントの今後の展望 SRE Kaigiで以下のセッションを聴講して、本発表の延長線上にある取り組みで私自身大変勉強になりました AIと新時代を切り拓く。これからのSREとメルカリIBISの挑戦 botへのメンションによる調査依頼は利用が進まなかったことは勉強になり、ユーザーの状況を先読みして自律的にアクションを起こす、Ambient Agentのようにしないといけないと感じた 42

Slide 43

Slide 43 text

まとめ

Slide 44

Slide 44 text

まとめ © LayerX Inc. まとめシステムアラート調査に生成AIを適用し、アラート対応を支援するAIエージェントを作ったまずはAIを自分たちの業務に小さく適用して広げてみる本発表以外にも生成AIを業務に適用する範囲を見極めて、AIを自分たちのオペレーションに染み込ませるフローを今後も構築していきたい 44

Slide 45

Slide 45 text

Slide 46

Slide 46 text

SREに関するイベントやります! まとめ 3/16(月)に弊社オフィスにてSREのイベントを企画しています https://layerx.connpass.com/event/385842/ ぜひお越しください！ © LayerX Inc. 46

Slide 47

Slide 47 text

ご清聴ありがとうございました！