Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Agentの「今、何してる?」がわかる! AgentOpsのはじめ方
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
あんどお
November 10, 2025
Technology
0
11
Agentの「今、何してる?」がわかる! AgentOpsのはじめ方
Agent作るときにあると嬉しいOps周りのはなし
あんどお
November 10, 2025
Tweet
Share
More Decks by あんどお
See All by あんどお
Strands AgentsのEvaluatorをLangfuseにぶち込んでみた
andoooooo_bb
0
130
Other Decks in Technology
See All in Technology
Agile Leadership Summit Keynote 2026
m_seki
1
290
GitHub Issue Templates + Coding Agentで簡単みんなでIaC/Easy IaC for Everyone with GitHub Issue Templates + Coding Agent
aeonpeople
1
170
クレジットカード決済基盤を支えるSRE - 厳格な監査とSRE運用の両立 (SRE Kaigi 2026)
capytan
6
2.5k
Bill One 開発エンジニア 紹介資料
sansan33
PRO
4
17k
Data Hubグループ 紹介資料
sansan33
PRO
0
2.7k
Webhook best practices for rock solid and resilient deployments
glaforge
1
250
データの整合性を保ちたいだけなんだ
shoheimitani
7
2.8k
データ民主化のための LLM 活用状況と課題紹介(IVRy の場合)
wxyzzz
2
660
Frontier Agents (Kiro autonomous agent / AWS Security Agent / AWS DevOps Agent) の紹介
msysh
3
140
Claude_CodeでSEOを最適化する_AI_Ops_Community_Vol.2__マーケティングx_AIはここまで進化した.pdf
riku_423
2
410
FinTech SREのAWSサービス活用/Leveraging AWS Services in FinTech SRE
maaaato
0
120
10Xにおける品質保証活動の全体像と改善 #no_more_wait_for_test
nihonbuson
PRO
1
180
Featured
See All Featured
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
25
1.7k
Claude Code どこまでも/ Claude Code Everywhere
nwiizo
61
52k
Lessons Learnt from Crawling 1000+ Websites
charlesmeaden
PRO
1
1.1k
VelocityConf: Rendering Performance Case Studies
addyosmani
333
24k
How People are Using Generative and Agentic AI to Supercharge Their Products, Projects, Services and Value Streams Today
helenjbeal
1
110
How To Stay Up To Date on Web Technology
chriscoyier
791
250k
Jess Joyce - The Pitfalls of Following Frameworks
techseoconnect
PRO
1
63
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
320
Mobile First: as difficult as doing things right
swwweet
225
10k
4 Signs Your Business is Dying
shpigford
187
22k
Git: the NoSQL Database
bkeepers
PRO
432
66k
Kristin Tynski - Automating Marketing Tasks With AI
techseoconnect
PRO
0
130
Transcript
Agentの「今、何してる?」がわかる! AgentOpsのはじめ方
はじめに 得られること - Agentってなんなの?の基礎知識 - 最近のAgentの使われ方とそれに伴う課題 - AgentOpsってどうやるの?langfuseを例にした説明 対象者 -
Agentに興味がある人 - Agent作ってみたけどいまいちうまくいかない人 - AgentOpsについて興味を持ち始めた人
こんなことありませんか、、、、、、??? Agentに仕事任せたら、いつの間にか変なことしてた あとよろしくー 働けや!! でも、なんでAgentがラリったのかわからないな、、、 どこの処理が異常なのかわからないのが問題
そもそもAgentってなに? Agentは抽象的な課題でも自分で試行錯誤して解決できる、シゴできくん ユーザの指示に従い出力を返す LLM:脳みそだけ 自律的に試行錯誤を繰り返し 目的を達成する Agent:脳みそ+自律 議事録をサマリして できません or
妄想で書きました (ハルシネーション) 議事録をサマリして できました 議事録どこ? いつのやつ? わからんなぁ 議事録どこ? いつのやつ? 自分で探そ 聞き返そ わかった!
そもそもAgentってなに? Agentを武器(tool)で強化したりチームを組ませたりできる チーム・組織を組ませる (Agent同士で連携) 武器で強化 (MCPなどで接続) slack Github Google Slides
などなど ボスAgent サブAgent
Agentの活用:ロープレ評価Agent ロープレ評価Agent ロープレAI 定性的な評価はAgent、定量的な評価はツールを用いて処理 ロープレの 会話履歴 [AIに与えられている情報] 役割、ロープレ手順、深掘りポイント 役割の評価Agent 計算ツール
まとめAgent 会話の流れ評価Agent
Agent開発での課題 異常が発生した時にどこを直せばいいのかわからない 調整・変更 役割の評価Agent 計算ツール まとめAgent 会話の流れ評価Agent 出力 入力 会話ログ
評価結果 実装1: 3点/100点 実装2: 95点/100点 実装3: 54点/100点 プロンプトチューニング、処理ロジック変更など 結果が めっちゃブレる
Agent開発での課題 異常が発生した時にどこを直せばいいのかわからない 役割評価Agent 計算ツール まとめAgent 会話の流れ評価Agent 出力 入力 会話ログ 評価結果
実装1: 3点/100点 実装2: 95点/100点 実装3: 54点/100点 【課題】 Agentの挙動が ブラックボックス どこが異常かわからない ↓ 直したくても直せない 調整・変更 プロンプトチューニング、処理ロジック変更など 結果が めっちゃブレる
Langfuseの登場 LangfuseはLLMやAgentの動きを可視化し、追跡できるようにするツール どんな情報が入力されたか どんな情報を取得したか どんなツールを使ったか? などが見えるようになる OSSでセルフホスト可能 通常プランでもプレミアムと近い 機能が利用可能 更新が活発でほぼ毎週アップデートあり
今回はメインの3つの機能をザクっとご紹介!!
Langfuseの機能:トレース Agentが何しているか?を表示してくれる機能 Agentの呼び出し LLMの呼び出し トレースの名前 トレース画面
Langfuseの機能:プロンプト管理 Agentへの指示(プロンプト)を管理しやすくする機能 バージョン管理も可能 タグの付け替えで 簡単にプロンプト変更 プロンプトの変更も簡単
Langfuseの機能:評価(LLM as a judge) Agentのアウトプットを評価してくれる機能 アウトプット 1 アウトプット 2 アウトプット
3 評価項目 (LLM as a judge) 評価結果 0.5 1.0 0.8 管理・検知 Agent アウトプット ダッシュボード
Langfuseの活用 機能を組み合わせるとプロンプトの試行錯誤は Biz側で回せる(かも) トレース プロンプト管理 プロンプトを 変更する 何が起きて るかみる Good/Badを
評価する 評価 Agentを 動かす