Langfuseで支える AIエージェントの監視・評価

by Haruki Nagasawa

Embed

Start on current slide

Slide 1

Slide 1 text

Langfuseで支える AIエージェントの監視・評価 2026/02/16 AI Shift (サイバーエージェント100%子会社) ソリューション事業部 AI team lead 長澤春希

Slide 2

Slide 2 text

自己紹介長澤春希 (Nagasawa Haruki) ● 東北大学 Tohoku NLP 出身 ○ 学部早期卒業後、修士課程に進学・修了 ○ ACL・EMNLP・ICASSP採択歴あり ● 2023/10 よりサイバーエージェントに Join ○ AI Shiftで機械学習エンジニアとして勤務 ○ 音声認識精度の向上、チャットボットの改修、論文執筆、自律型エージェントの開発、監視基盤のデプロイ・組み込み etc. ● 好きなもの ○ 梅干しとHipHopとLa La Land @sp_1999N

Slide 3

Slide 3 text

メディア主力事業サイバーエージェントにおけるAI Shift ● デジタルビジネスのノウハウを生かし、 2016年頃からAI、2020年頃からDXの領域に最注力 ● AI/DXの主幹子会社インターネット広告主力事業ゲーム主力事業エンタメテック強化分野 AI 主力事業 DX 主力事業スタートアップ新規事業

Slide 4

Slide 4 text

提供サービス AIコールセンター領域から、AIエージェント構築支援まで  9年以上の自然言語・音声対話処理での研究・事業開発を元にご要望に合わせ、プロダクト提供から個別構築まで幅広く提供

Slide 5

Slide 5 text

AI Worker: AIエージェント構築プラットフォーム

Slide 6

Slide 6 text

2つのエージェント: ワークフロー型、自律型

Slide 7

Slide 7 text

自律型エージェント、開発当時の状況 ● 開発当時の状況と僕らの当初のアイディア ○ エージェント開発のベストプラクティスも曖昧 ○ まずはシングルエージェントから始め、難しければマルチエージェント ○ 「ユーザーの1リクエスト = 1つのタスク」として捉え、このタスクを解決するために、プラン・実行・レビュー・最終回答を行うようにマルチエージェントアーキテクチャを組んでみた ● 作ってみて実際どうだったか ○ 🤔「リクエストに応じて適切にツールを呼び分けているし、足りない情報はヒアリングするよう動いてくれて、ワークフロー型よりは柔軟に動いている。まあ、良さそう。」

Slide 8

Slide 8 text

自律型エージェントが直面した課題リリース当時の気持ち「自律型的に動くので、簡単になる案件が出てくると思います！」 PM・FDEチームからの実際のフィードバック「どうしてこの挙動するの？」「自律型エージェントの挙動が安定しない」「業務分解できているし、今回の案件もワークフロー型で実装します」

Slide 9

Slide 9 text

監視・評価基盤の導入へ ● 採用したアーキテクチャが何に向いていて、何に不向きかのか、開発している自分たちもきちんと定量評価できていなかった ● うまくいっていないユースケースを分析するときに、自律的な（変動的な）行動をログから探るのに限界があった自律型エージェントはリリースして終わりではなく、むしろそこからが始まり検証・観察・改善のサイクルを可能にする手段が欲しい

Slide 10

Slide 10 text

どうしてLangfuseを選んだのか ● AI Worker は TypeScript で実装→エージェント開発フレームワークは TypeScriptネイティブなMastraを利用していた ● ビジネス要件などの観点から、データの保存場所は自分たちで管理したい ● 監視して終わりではなく、評価基盤としても機能できるものが良い調査して色々見比べた結果、条件を満たす Langfuse or Arize Phoenix の二択に Langfuse: ダッシュボードの機能が充実している Mastra には公式にサポートしている監視基盤がいくつかあり、Langfuse は当時その1つ Phoenix: 評価基盤が充実している

Slide 11

Slide 11 text

アーキテクチャが決定打になった ● ベクトルの可視化までできる Phoenix にかなり惹かれていたがアーキテクチャに不安があった ● LLM に関する評価はLangfuseでも十分可能と判断し、スケーラブルな方を採用 https://langfuse.com/self-hosting https://arize.com/docs/phoenix/self-hosting/architecture

Slide 12

Slide 12 text

小噺: Langfuse v2 vs. v3 ● Langfuse もかつては Phoenix と似たようなバックエンド構成だったが、スケールの難しさを理由にリアーキテクチャされている ○ https://langfuse.com/blog/2024-12-langfuse-v3-infrastructure-evolution

Slide 13

Slide 13 text

トレースの取得 ● スパン単位の設計・タグの付与などは試行錯誤中どのユースケースだったのかどのエージェントだったのか

Slide 14

Slide 14 text

評価・実験環境としての利用 ● UIからの直接操作・SDKによって、実験（データ）の作成・管理が可能ペルソナとシナリオを設定として与え、マルチターンで対話を評価する実験：OpenEvalを利用することで実験実行を簡素化実験に必要な LLM-as-a-judgeのルーブリックもUI・SDKで作成・管理できる https://github.com/langchain-ai/openevals データセット名各エントリ

Slide 15

Slide 15 text

実験結果全体の可視化も可能 LLM-as-a-judge などの定量評価結果平均レイテンシの取得実験ごとに付与したメタデータ

Slide 16

Slide 16 text

実験結果の詳細 Judgeの判断理由をコメントとして残す実験の設定としての inputとその結果としての outputを一元管理

Slide 17

Slide 17 text

改めて考える、LLM時代のOps ● LLMのパラメータはすでに完成されているものとして享受できる ● その代わり、エージェントアーキテクチャやコンテキスト全体のデザインなどの対象が変化 ● LLM Observability はLLM時代のOpsを支える「基盤」として必要 ChatGPTの登場 2023年第3次AIブーム 2000年代いかに良いモデルを作るかが主眼の時代十分に高性能な汎用モデルをどう活用するかが主眼に AlexNet BERT GPT-2, 3 ResNet GPT-4o Gemini2.5 Claude Opus4.6

Slide 18

Slide 18 text

Evalも（**の方が**）大事 “Using evals strategically can make a customer-facing product or internal tool more reliable at scale, decrease high-severity errors, protect against downside risk, and give an organization a measurable path to higher ROI. “ – OpenAI “Good evaluations help teams ship AI agents more confidently. Without them, it’s easy to get stuck in reactive loops — catching issues only in production, where fixing one failure creates others.” – Anthropic https://openai.com/index/evals-drive-next-chapter-of-ai/ https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents

Slide 19

Slide 19 text

関連ブログ本日お話しした内容に関連するものをブログとしても公開していますよければご覧ください ● LLMエージェントオブサーバビリティ基盤についてまとめてみた ○ https://www.ai-shift.co.jp/techblog/6009 ● Langfuse セルフホストでハマったポイントをまとめてみる ○ https://www.ai-shift.co.jp/techblog/6554 ● OpenEvals × Langfuseで始めるAIエージェントのマルチターン評価 ○ https://www.ai-shift.co.jp/techblog/6705

Slide 20

Slide 20 text

No content