Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
バクラクのSREにおけるAgentic AIへの挑戦/Our Journey with Age...
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
SadayoshiTada
February 28, 2026
Technology
0
130
バクラクのSREにおけるAgentic AIへの挑戦/Our Journey with Agentic AI
SRE Kaigi 2026 延長戦で発表した資料です。
SadayoshiTada
February 28, 2026
Tweet
Share
More Decks by SadayoshiTada
See All by SadayoshiTada
システムのアラート調査をサポートするAI Agentの紹介/Introduction to an AI Agent for System Alert Investigation
taddy_919
2
3.2k
バクラクでのSystem Risk Records導入による変化と改善の取り組み/Changes and Improvement Initiatives Resulting from the Implementation of System Risk Records
taddy_919
0
720
プロダクトチームへのSystem Risk Records導入・運用事例の紹介/Introduction and Case Studies on Implementing and Operating System Risk Records for Product Teams
taddy_919
1
1.2k
開発者が安心して実行可能なSQL実行基盤の取り組み/Initiatives for a Secure SQL Execution Platform for Developers
taddy_919
2
9k
バックアップのリストア検証が可能な AWS Backup Restore testing を使ってみた/AWS Backup Restore testing, which enables backup restore verification
taddy_919
0
720
今日から実践!継続的に自分の軌跡を残す方法/Start practicing today! How to Continuously Keep Track of Yourself
taddy_919
0
3.8k
スタートアップ企業での散乱した システムリリースフローをととのえる話/Maintain the system release flow
taddy_919
1
4.3k
スタートアップ企業でのデータ活用に向けての取り組み/Working with Startups to Leverage Data
taddy_919
0
3.5k
スタートアップ企業でのAWS マルチアカウント運用の実践と普及/Practice and dissemination of AWS multi-account operation in a start-up company
taddy_919
1
5.7k
Other Decks in Technology
See All in Technology
三菱UFJ銀行におけるエンタープライズAI駆動開発のリアル / Enterprise AI_Driven Development at MUFG Bank: The Real Story
muit
10
19k
もう怖くないバックグラウンド処理 Background Tasks のすべて - Hakodate.swift #1
kantacky
0
120
Eight Engineering Unit 紹介資料
sansan33
PRO
1
6.8k
LINEヤフーにおけるAI駆動開発組織のプロデュース施策
lycorptech_jp
PRO
0
160
社内でAWS BuilderCards体験会を立ち上げ、得られた気づき / 20260225 Masaki Okuda
shift_evolve
PRO
1
130
Interop Tokyo 2025 ShowNet Team Memberで学んだSRv6を基礎から丁寧に
miyukichi_ospf
0
200
【Developers Summit 2026】Memory Is All You Need:コンテキストの「最適化」から「継続性」へ ~RAGを進化させるメモリエンジニアリングの最前線~
shisyu_gaku
5
780
Secure Boot 2026 - Aggiornamento dei certificati UEFI e piano di adozione in azienda
memiug
0
110
サンタコンペ2025完全攻略 ~お前らの焼きなましは遅すぎる~
terryu16
1
500
チームメンバー迷わないIaC設計
hayama17
1
330
Devinを導入したら予想外の人たちに好評だった
tomuro
0
110
Data Hubグループ 紹介資料
sansan33
PRO
0
2.8k
Featured
See All Featured
Marketing to machines
jonoalderson
1
5k
What Being in a Rock Band Can Teach Us About Real World SEO
427marketing
0
180
What's in a price? How to price your products and services
michaelherold
247
13k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.4k
BBQ
matthewcrist
89
10k
Six Lessons from altMBA
skipperchong
29
4.2k
Building Better People: How to give real-time feedback that sticks.
wjessup
370
20k
Statistics for Hackers
jakevdp
799
230k
Digital Ethics as a Driver of Design Innovation
axbom
PRO
1
200
Agile that works and the tools we love
rasmusluckow
331
21k
Leadership Guide Workshop - DevTernity 2021
reverentgeek
1
220
The Art of Programming - Codeland 2020
erikaheidi
57
14k
Transcript
バクラクのSREにおけるAgentic AIへの挑戦 2026/02/28 SRE Kaigi 2026 延長戦 基調講演 多田 貞剛/@taddy_919
多田 貞剛 @taddy_919 自己紹介 2022/03 入社 バクラク事業部 Platform Engineering部 SREグループ
全国穴掘り大会に出場して331チーム 中178位でした 身体を動かすのが好きです © LayerX Inc. 2
会社紹介
© LayerX Inc. 4
© LayerX Inc. 5
本日のアジェンダ © LayerX Inc. 生成AI時代における我々を取り巻く環境の変化 バクラクのアラート対応における課題 課題に対する改善検討と開発したAIエージェントの概要 AIエージェントの動作イメージと今後の展望 まとめ 6
生成AI時代における我々を取り巻く環境の変化
開発や運用に生成AIを使っていますか? © LayerX Inc. 生成AI時代における我々を取り巻く環境の変化 みなさんは業務で生成AIを使っていますか? 私たちも生成AIを活用して日々の業務にあたっています 8
SREを取り巻く環境の変化 © LayerX Inc. 生成AI時代における我々を取り巻く環境の変化 生成AI時代ではコードの変更量が従前と比べると数倍増加している コードの変更量が増えたことでシステムは複雑化し、運用・監視を行う対象も増加した これまでのやり方ではサービス増加に対して運用がスケールしない 私たちもマインドセットを変えないといけないと感じる 9
Agentic AIの広がり © LayerX Inc. 生成AI時代における我々を取り巻く環境の変化 Agentic AI:チャットで答えるだけのAIから、AIがコンテキストを踏まえ自律的にツール を呼び出し、複雑なタスクを実行する 昨年からSREの職域においても「人が調べてから対処する」から
「AIが調査し人が判断 する」 への転換が進みつつある Agentic AIに関するサービスが各社から発表されている ※以下は一例 AWS DevOps Agent: AWSリソースの調査・トラブルシュートを自律的に実行 Datadog Bits AI SRE: Datadogの監視データを活用した自動アラート調査・根本原因分析 Azure SRE Agent: Azureの障害検知から修復提案までを自動化 10
これからの我々に求められること © LayerX Inc. 生成AI時代における我々を取り巻く環境の変化 自分達の業務の中で人間の介入が必要な箇所を見極め、Agenticなものに置き換えてい かないと環境変化に間に合わない 例えば、アラート対応 Before: アラート対応は手動かつ属人的
After: AIが調査を担い、人間は判断・意思決定に集中 上記を踏まえた取り組みの一例を本発表で紹介します 11
バクラクのアラート対応における課題
バクラクのアーキテクチャの紹介 © LayerX Inc. 背景・課題 出典: Bakuraku Engineering Team Deck
P23 13
バクラクの監視にまつわる前提 © LayerX Inc. 大半のシステムにおいてはDatadogにメトリクス、ログ、トレースを集約している 歴史的な経緯で一部のシステムではログ情報がCloudWatch Logsに出力されている Datadogのメトリクスは遅延することがあるため、CloudWatchメトリクスも合わせて確認している 14
バクラクのアラート対応の課題 © LayerX Inc. 背景・課題 バクラクではプロダクト間連携している機能があり、プロダクトをまたぐアラート対応 が複雑な調査となる アラート調査では関連システムのバックエンド/フロントエンドそれぞれの挙動を確認する 調査に当たってはそれぞれのサービス依存関係を把握しつつ調べる アラートに関連するシステムの処理フローを横断的に追う
アラートの調査と合わせて適宜コードの修正対応を行う 15
プロダクトチームメンバー拡大に伴う課題 © LayerX Inc. 背景・課題 前頁で触れた、プロダクト単体だけでなくプロダクトをまたぐ機能を把握していないと アラート調査が難しい プロダクトチームの新入社員がアラート調査ができるようになるまでの学習コストが高い SREを介さなくてもプロダクトチームで調査や修正対応が継続するよう支援したい 16
課題に対する改善の検討
内製化 © LayerX Inc. 課題に対する改善の検討 アラート調査は一定定型化を行っている 特定時間帯における関連システムのメトリクス、トレース、ログを確認 場合によってECSタスクを再起動する これらをアラートごとにNotionに対応をまとめて運用している 一定定型化されているためアラート調査は自動化余地があると感じており、そのための
改善を行うことにした 他ソリューションとも比較し、現時点においては 内製する ことにした 18
AWS DevOps Agentとの比較 AWS DevOps Agent : re:Invent 2025で発表された自律的なAIエージェント(プレビュー中) ©
LayerX Inc. 他ソリューションとの比較 利用者はAWSにログインしないとDevOps Agentを使用できない AWSにログインしなくても利用できることを目指したかった Slackから調査依頼を行うことができない 業務のインターフェースとしてSlackが主のため 19
AWS DevOps Agentとの比較サマリー 項目 AWS DevOps Agent 内製 データソースの統合 ◯
◯ Slackからの利用 ✕ (調査ステータスの通知のみ) ◯ カスタマイズ性 ✕ ◯ 初期導入の手軽さ ◯(ボタン数クリックで利用可能) △ (エージェント実行環境の構築が必要) 料金 ◯ (プレビュー期間は無料) △ (AWSの従量課金) © LayerX Inc. 他ソリューションとの比較 20
Datadog Bits AI SREとの比較 Datadog Bits AI SRE : Datadog内で動作する自動アラート調査AIエージェント
© LayerX Inc. 他ソリューションとの比較 バクラクの大半のメトリクス、ログ、トレース情報はDatadogに集まってくるが、一部 Datadog外の情報(CloudWatch)を必要とする場合もある 全ての調査がBits AI SREで完結できるわけではなく、AWSにエージェントを配置し、Datadogの調査はMCP経由 で行うことにした 21
Datadog Bits AI SREとの比較サマリー 項目 Datadog Bits AI 内製 データソースの統
合 △ (Datadogのみ) ◯ (Datadog + CloudWatch等) Slackからの利用 ◯ ◯ カスタマイズ性 △ (Datadog提供機能のみ) ◯ (独自拡張可能) 初期導入の手軽さ ◯ (設定のみ) △ (エージェント実行環境の構築が必 要) 料金 △ (オンデマンドだと1件の調査につき $36) △ (AWSの従量課金) © LayerX Inc. 他ソリューションとの比較 22
内製のAIエージェント開発のきっかけ
AI エージェント祭 AI エージェント祭 社内でAI Agent開発を行うハッカソン (AI エージェント祭)が開催された AI エージェント祭を開催しました
© LayerX Inc. 24
AI エージェント祭りで作ったもの © LayerX Inc. AI エージェント祭 CloudWatchのメトリクス推移から異常を調べるエージェントを作成 ALB/ECS/RDSの特定タグのメトリクスを収集 異常な挙動があったらその結果をレポートする
25
システム調査エージェントとは アラートに関連するメトリクス・ログ・トレース情報を自動で調査・分析するAI エージェント 現在PoC中でプロダクトチームに展開を目指して開発・検証中 © LayerX Inc. システム調査エージェント概要 Slackからアラート情報を渡すことで自動調査 専門のMCPを使って複数データソース(CloudWatch、Datadog)に渡って調査した結果を
レポートする 調査結果から優先度付けて改善の提案を行う 26
使用している技術(1) © LayerX Inc. アーキテクチャ・技術スタック Python uv: Pythonのパッケージ・プロジェクト管理ツール Strands Agent:
AIエージェントSDK Claude Sonnet 4.6: Anthropic社の最新世代の大規模言語モデル Slack Bolt: Slackアプリ開発用のフレームワーク 27
使用している技術(2) © LayerX Inc. アーキテクチャ・技術スタック Datadog MCP Server(プレビュー機能): Datadogの監視データにアクセスするための MCPサーバー
CloudWatch MCP Server: AWS CloudWatchのメトリクスやログ分析等を行うための MCPサーバー AWS Documentation MCP Server: AWS公式ドキュメントにアクセスするためのMCPサ ーバー 28
実行環境 © LayerX Inc. アーキテクチャ・技術スタック AWS上に構築 ALB + ECS Fargate
+ Bedrock(日本リージョン) バクラクでは大半のコンピューティングリソースがECS Fargateで構成されており、CI/CDやインフラの自動 生成等既存のプラットフォームに載ることで高速に検証を回せるため採用した Amazon Bedrockのモデルでは学習のオプトアウトが適用済みのため採用した AWS公式ドキュメント 29
システム調査エージェントの構成図 アーキテクチャ・技術スタック © LayerX Inc. 30
複数データソースの統合調査に当たって考慮したこと 主に以下の点を考慮して進めました © LayerX Inc. 実装上の考慮点 統括エージェントとMCP問合せエージェントを分割 コンテキストウィンドウの超過対策 調査レポートにおけるタイムウィンドウの統一 31
統括エージェントとMCP問合せエージェントを分割 © LayerX Inc. 実装上の考慮点 各エージェントの責務を明確化し、追加のエージェントも増やすときにも対応できるよ うにエージェントを分割した システム調査エージェントでは、以下のように分割 調査の計画策定とレポーティングを統括するエージェント(Supervisor)、専門MCPをツールとし呼び出してその 結果を取りまとめるエージェントで構成(Agents-as-Tools)
32
ツールの登録と呼び出すイメージ © LayerX Inc. 実装上の考慮点 33
ツールの登録と呼び出すイメージ © LayerX Inc. 実装上の考慮点 34
コンテキストウィンドウの超過対策 © LayerX Inc. 実装上の考慮点 調査計画策定時、各MCPへ問い合わせた結果を統合してBedrockに渡す事を行ってお り、稼働させてみたところコンテキストウィンドウを超過するエラーが発生した bedrock threw context
window overflow error プロンプトの指示としてトークン数を過剰に使用しないようにレポートを簡潔にするよ う指示を追加し、一旦エラーは解消 上記のエラーはClaude Sonnet 4.5で発生したが、Claude Sonnet 4.6ではコンテキストの圧縮が利用できるため 試したい コンテキストウィンドウオーバーフローとその対策,Compaction 35
調査レポートにおけるタイムウィンドウの統一 © LayerX Inc. 実装上の考慮点 エージェントのレポートでのタイムウィンドウに実際の時間帯よりも過去になっている ことがあった ex) 調査期間が2026年2月28日の16:00-16:30とレポートしてほしいところ、2024年2月28日の16:00-16:30とレポ ートされてしまう事象
開発初期エージェントに対して時間に関するコンテキストを与えておらずタイムウィン ドウがばらつきがあったため、コンテキストで明確に指示するようにした 明確に時間の指定がなければ現在時刻で調査を行うようにプロンプトで指示するのと、Strands Agentのtoolsで 現在時刻を取得するようにした 36
タイムウィンドウのコンテキスト指示イメージ © LayerX Inc. 実装上の考慮点 37
システム調査エージェントの動作イメージ
システム調査エージェントの振る舞い 大まかに以下のような振る舞いをします © LayerX Inc. システム調査エージェントの動作イメージ 39
システム調査エージェントの動作イメージ © LayerX Inc. 40
今後の展望 © LayerX Inc. システム調査エージェントの今後の展望 プロダクトチームに利用可能な状態にする 自動修復アクションの提案・実行 調査するシステムに応じてコンテキストを渡して調査を効率化 41
今後の展望:SRE Kaigi 2026での学び © LayerX Inc. システム調査エージェントの今後の展望 SRE Kaigiで以下のセッションを聴講して、本発表の延長線上にある取り組みで私自身 大変勉強になりました
AIと新時代を切り拓く。これからのSREとメルカリIBISの挑戦 botへのメンションによる調査依頼は利用が進まなかったことは勉強になり、ユーザーの状況を先読みして 自律的にアクションを起こす、Ambient Agentのようにしないといけないと感じた 42
まとめ
まとめ © LayerX Inc. まとめ システムアラート調査に生成AIを適用し、アラート対応を支援するAIエージェントを作 った まずはAIを自分たちの業務に小さく適用して広げてみる 本発表以外にも生成AIを業務に適用する範囲を見極めて、AIを自分たちのオペレーショ ンに染み込ませるフローを今後も構築していきたい
44
We're hiring 採用全力強化中です!ご興味ありましたらご連絡をお願いします! バクラク事業部・エンジニア組織紹介資料 バクラクSRE JD © LayerX Inc. まとめ
45
SREに関するイベントやります! まとめ 3/16(月)に弊社オフィスにてSREのイ ベントを企画しています https://layerx.connpass.com/event/385842/ ぜひお越しください! © LayerX Inc. 46
ご清聴ありがとうございました!