Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
アラート調査向けAIエージェントの本番導入とその後/AI Agents for Alert I...
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
SadayoshiTada
July 01, 2026
Technology
110
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
アラート調査向けAIエージェントの本番導入とその後/AI Agents for Alert Investigation: Production Deployment and After
2026年06月30日開催の「The SRE Backlog: 蔵出し事例共有会」での発表資料です
SadayoshiTada
July 01, 2026
More Decks by SadayoshiTada
See All by SadayoshiTada
バクラクのSREにおけるAgentic AIへの挑戦/Our Journey with Agentic AI
taddy_919
2
1.7k
システムのアラート調査をサポートするAI Agentの紹介/Introduction to an AI Agent for System Alert Investigation
taddy_919
2
4.5k
バクラクでのSystem Risk Records導入による変化と改善の取り組み/Changes and Improvement Initiatives Resulting from the Implementation of System Risk Records
taddy_919
0
800
プロダクトチームへのSystem Risk Records導入・運用事例の紹介/Introduction and Case Studies on Implementing and Operating System Risk Records for Product Teams
taddy_919
1
1.2k
開発者が安心して実行可能なSQL実行基盤の取り組み/Initiatives for a Secure SQL Execution Platform for Developers
taddy_919
2
9.6k
バックアップのリストア検証が可能な AWS Backup Restore testing を使ってみた/AWS Backup Restore testing, which enables backup restore verification
taddy_919
0
790
今日から実践!継続的に自分の軌跡を残す方法/Start practicing today! How to Continuously Keep Track of Yourself
taddy_919
0
4k
スタートアップ企業での散乱した システムリリースフローをととのえる話/Maintain the system release flow
taddy_919
1
4.5k
スタートアップ企業でのデータ活用に向けての取り組み/Working with Startups to Leverage Data
taddy_919
0
3.6k
Other Decks in Technology
See All in Technology
Microsoft のサポートとフィードバック総まとめ
murachiakira
PRO
0
110
2026-06-24_人とAIの責務分離に基づく開発プロセスの提案.pdf
takahiromatsui
0
120
いまさら聞けない「仕様駆動開発入門」 〜AI活用時代の開発プロセスを考える〜
findy_eventslides
2
200
「勝手に広まる」人気 AI エージェントを爆速で作ろう!(AWS Summit Japan 2026講演資料)
minorun365
PRO
10
2.5k
Flow 不死:AI 時代 DevOps 的不變本質
cheng_wei_chen
2
500
From Prompt Engineering to Loop Engineering
shibuiwilliam
1
170
不要なレビューをAIにまかせて AIコーディングの環境改善を加速した
shoota
1
260
SteampipeとExcel Power QueryでAWS構成定義書の作成を自動化する
jhashimoto
0
180
技術・能力を向上する原理原則 #きのこセッションa #きのこ2026
bash0c7
0
120
コミットの「なぜ」を読む
ota1022
0
120
[チョークトーク資料]AWS DevOps Agent を使いこなす / AWS Dev Ops Agent Chalk Talk AWS Summit Japan 2026
kinunori
4
770
AI Agentをシステムに組み込む前にゆるく向き合ってみる
hayama17
0
130
Featured
See All Featured
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.7k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.5k
Claude Code のすすめ
schroneko
67
230k
GitHub's CSS Performance
jonrohan
1033
470k
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.6k
Applied NLP in the Age of Generative AI
inesmontani
PRO
4
2.3k
Jess Joyce - The Pitfalls of Following Frameworks
techseoconnect
PRO
1
170
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
62
44k
How to build a perfect <img>
jonoalderson
1
5.7k
Bash Introduction
62gerente
615
220k
Side Projects
sachag
455
43k
It's Worth the Effort
3n
188
29k
Transcript
アラート調査向けAIエージェントの本番導入とその後 2026/06/30 The SRE Backlog: 蔵出し事例共有会 多田 貞剛/@taddy_919
多田 貞剛 @taddy_919 自己紹介 2022/03 入社 バクラク事業部 Platform Engineering部 SREグループ
最近ベンチプレスで100kgを挙げられ るようになりました © LayerX Inc. 2
バクラクの紹介
© LayerX Inc. 4
© LayerX Inc. 5
目次 © LayerX Inc. 目次 開発しているエージェントの紹介 本番導入で取り組んだこと 運用後に発生した課題 課題に対する解決策 今後の展望
まとめ 6
開発しているエージェントの紹介
エージェント開発を検討したきっかけ © LayerX Inc. 開発しているエージェントについて バクラクにはプロダクト間で連携している機能があり、プロダクトをまたぐアラート調 査が複雑になる アラート調査では関連システムのバックエンド/フロントエンドそれぞれの挙動を確認する 調査に当たってはそれぞれのサービス依存関係を把握しつつ調べる アラートに関連するシステムの処理フローを横断的に追う
プロダクトチームの新入社員が上記の調査に対応できるようになるまでの学習コストが 高い SREを介さなくてもプロダクトチームで調査や修正対応が継続するよう支援したい 8
内製化 © LayerX Inc. 開発しているエージェントについて アラート調査は一定程度、定型化できている 特定時間帯における関連システムのメトリクス、トレース、ログを確認 これらの対応手順をアラートごとにNotionにまとめて運用している アラート調査には自動化の余地があると感じ、そのための改善を行うことにした 他のソリューション(AWS
DevOps Agent / Datadog Bits Investigation)と比較し、内製することにした 比較軸1 / 比較軸2 9
システム調査エージェントとは アラートに関連するメトリクス・ログ・トレース情報を自動で調査・分析するAIエージェント © LayerX Inc. 開発しているエージェントについて Slackからアラート情報を渡すことで自動調査 専門のMCPを使って複数データソース(AWS、Datadog)に渡って調査した結果をレポー トする 調査結果から優先度付けて改善の提案を行う
10
使用している技術(1) © LayerX Inc. 開発しているエージェントについて Python uv: Pythonのパッケージ・プロジェクト管理ツール Strands Agents:
AIエージェントSDK Claude Sonnet 4.6: Anthropic社の大規模言語モデル Slack Bolt: Slackアプリ開発用のフレームワーク 11
使用している技術(2) © LayerX Inc. 開発しているエージェントについて Datadog MCP Server: Datadogの監視データにアクセスするためのMCPサーバー CloudWatch
MCP Server: AWS CloudWatchのメトリクス確認やログ分析などを行うた めのMCPサーバー AWS Documentation MCP Server: AWS公式ドキュメントにアクセスするためのMCPサ ーバー 12
実行環境 © LayerX Inc. 開発しているエージェントについて AWS上に構築 ALB + ECS Fargate
+ Bedrock(日本リージョン) バクラクでは大半のコンピューティングリソースがECS Fargateで構成されており、CI/CDやインフラの自動 生成等既存のプラットフォームに載ることで高速に検証を回せるため採用した Amazon Bedrockのモデルでは学習のオプトアウトが適用済みのため採用した AWS公式ドキュメント 13
システム調査エージェントの構成図 開発しているエージェントについて © LayerX Inc. 14
システム調査エージェントの振る舞い 大まかに以下のような振る舞いをします © LayerX Inc. 開発しているエージェントについて 15
本番導入で取り組んだこと
SREチームのアラートに設定した © LayerX Inc. 本番導入 SREチームにメンションされるアラートを対象に設定 Slackのアラート通知を受け取ったエージェントが自動で調査・レポートを投稿 SREの調査の手間を減らし、レポートを最終確認するだけの状態を目指した 17
本番導入:SREチームのアラートに設定した © LayerX Inc. 18
他システムとの統合 © LayerX Inc. 本番導入 内製のインシデント管理ツールからAPIで初期調査を行えるようにした 上記ツールにメンションすることで初期調査を行い、その結果をSlackに投稿する 19
本番導入:他システムとの統合 © LayerX Inc. 20
運用後に発生した課題
課題は大きく2つあった 課題 起きていたこと 1. 調査が非効率 システム特有のコンテキストを持たず、広く探索していた 2. 間違った情報を調査・レポートする 誤った調査をレポートすることがあった ©
LayerX Inc. 運用後に発生した課題 22
課題1: 調査が非効率 © LayerX Inc. 運用後に発生した課題 アラートから自動調査するにあたってはどういった観点で調査を行うべきかを持ってい ないと、非効率な調査になる この状態で調査をしようとすると広く探索し、調査時間が長期化したりレポート内容も期待通りではなかった 23
課題2: 間違った情報を調査・レポートしていた © LayerX Inc. 運用後に発生した課題 例えばレイテンシーアラートの調査では、必要な情報を含むレポートが出る時と、誤っ た情報を含むレポートが出る時があり安定しなかった 遅いRPC名を見ただけで根本原因を断定してレポートしていた 実際にはtraceを掘ってspan詳細を確認しないと主因は特定できない
エージェントは「調査レポートを出す」ことを責務として進めてくれたが、 「必要な情 報が揃っているか」を判断するための機構がなかった 24
解決策の検討
課題1への対応: Strands AgentsのSkillsを使う © LayerX Inc. Skillsによるコンテキスト投入 Strands AgentsのAgent Skillsを使い、専門的な指示を必要なときだけAgentに読み込ま
せる エージェントが必要だと判断したタイミングで、該当するSkillの詳細指示をロードする Strands Agents Skills 26
Skillsの設定例抜粋 © LayerX Inc. Skillsによるコンテキスト投入 27
課題2への対応: 調査レポート投稿前にチェック機構を追加 © LayerX Inc. 精度向上への取り組み 調査後の投稿前にレポートチェック機構を追加 必要な情報(ex. 根本原因・数値等)が含まれているか確認 チェック機構を通過しないレポートはSlackに投稿しないように制御
28
レイテンシーアラートのチェック機構例 © LayerX Inc. 精度向上への取り組み 29
解決策実装後の所感 © LayerX Inc. 精度向上への取り組み バクラク固有の調査観点を渡すことで、見るべきデータソースを絞りやすくなった 調査結果のチェック機構を入れることで、精度の低いレポートが減少している 30
今後の展望
インシデント管理ツールとの統合強化 © LayerX Inc. 今後の展望 インシデント管理ツールとの統合は、現状は初期調査の結果をインシデント管理ツール に返すだけになっており、より連携を強化したい アラートの調査ログや次のアクションを記録する データをインシデント管理ツール側に貯めておくことでシステム調査エージェントが過去対応を参照して調 査の効率化を目指していきたい
32
まとめ
まとめ © LayerX Inc. まとめ システム調査エージェントを本番環境に導入した 本番稼働させたところ課題が2つあり、それぞれ対応を行った 今後は、単一システムの強化ではなく他システムとの連携を強化して、円滑な調査対応 を目指していく 34
We're hiring 採用全力強化中です!ご興味ありましたらご連絡をお願いします! バクラク事業部・エンジニア組織紹介資料 バクラクSRE JD © LayerX Inc. まとめ
35
ご清聴ありがとうございました!