Agentの「今、何してる？」がわかる！ AgentOpsのはじめ方

はじめに得られること - Agentってなんなの？の基礎知識 - 最近のAgentの使われ方とそれに伴う課題 - AgentOpsってどうやるの？langfuseを例にした説明対象者 -
Agentに興味がある人 - Agent作ってみたけどいまいちうまくいかない人 - AgentOpsについて興味を持ち始めた人

こんなことありませんか、、、、、、？？？ Agentに仕事任せたら、いつの間にか変なことしてたあとよろしくー働けや！！でも、なんでAgentがラリったのかわからないな、、、どこの処理が異常なのかわからないのが問題

そもそもAgentってなに？ Agentは抽象的な課題でも自分で試行錯誤して解決できる、シゴできくんユーザの指示に従い出力を返す LLM：脳みそだけ自律的に試行錯誤を繰り返し目的を達成する Agent：脳みそ＋自律議事録をサマリしてできません or
妄想で書きました (ハルシネーション) 議事録をサマリしてできました議事録どこ？いつのやつ？わからんなぁ議事録どこ？いつのやつ？自分で探そ聞き返そわかった！

そもそもAgentってなに？ Agentを武器(tool)で強化したりチームを組ませたりできるチーム・組織を組ませる (Agent同士で連携) 武器で強化 (MCPなどで接続) slack Github Google Slides
などなどボスAgent サブAgent

Agentの活用：ロープレ評価Agent ロープレ評価Agent ロープレAI 定性的な評価はAgent、定量的な評価はツールを用いて処理ロープレの会話履歴 [AIに与えられている情報] 役割、ロープレ手順、深掘りポイント役割の評価Agent 計算ツール
まとめAgent 会話の流れ評価Agent

Agent開発での課題異常が発生した時にどこを直せばいいのかわからない調整・変更役割の評価Agent 計算ツールまとめAgent 会話の流れ評価Agent 出力入力会話ログ
評価結果実装1: 3点/100点実装2: 95点/100点実装3: 54点/100点プロンプトチューニング、処理ロジック変更など結果がめっちゃブレる

Agent開発での課題異常が発生した時にどこを直せばいいのかわからない役割評価Agent 計算ツールまとめAgent 会話の流れ評価Agent 出力入力会話ログ評価結果
実装1: 3点/100点実装2: 95点/100点実装3: 54点/100点【課題】 Agentの挙動がブラックボックスどこが異常かわからない ↓ 直したくても直せない調整・変更プロンプトチューニング、処理ロジック変更など結果がめっちゃブレる

Langfuseの登場 LangfuseはLLMやAgentの動きを可視化し、追跡できるようにするツールどんな情報が入力されたかどんな情報を取得したかどんなツールを使ったか？などが見えるようになる OSSでセルフホスト可能通常プランでもプレミアムと近い機能が利用可能更新が活発でほぼ毎週アップデートあり
今回はメインの3つの機能をザクっとご紹介！！

Langfuseの機能：トレース Agentが何しているか？を表示してくれる機能 Agentの呼び出し LLMの呼び出しトレースの名前トレース画面

Langfuseの機能：プロンプト管理 Agentへの指示(プロンプト)を管理しやすくする機能バージョン管理も可能タグの付け替えで簡単にプロンプト変更プロンプトの変更も簡単

Langfuseの機能：評価(LLM as a judge) Agentのアウトプットを評価してくれる機能アウトプット 1 アウトプット 2 アウトプット
3 評価項目 (LLM as a judge) 評価結果 0.5 1.0 0.8 管理・検知 Agent アウトプットダッシュボード

Langfuseの活用機能を組み合わせるとプロンプトの試行錯誤は Biz側で回せる(かも) トレースプロンプト管理プロンプトを変更する何が起きてるかみる Good／Badを
評価する評価 Agentを動かす

Agentの「今、何してる？」がわかる！ AgentOpsのはじめ方

Agentの「今、何してる？」がわかる！ AgentOpsのはじめ方

あんどお

More Decks by あんどお

Other Decks in Technology

Featured

Transcript