LLM監視基盤の選び方

LLM監視基盤の選び方 2026/03/05 AI Shift (サイバーエージェント100%子会社) ソリューション事業部 AI team lead 長澤
春希

自己紹介長澤春希 (Nagasawa Haruki) • 東北大学 Tohoku NLP Group 出身
◦ 学部早期卒業後、修士課程に進学・修了 ◦ ACL・EMNLP・ICASSPなどの国際学会で発表 • 2023/10 よりサイバーエージェントに Join ◦ AI Shiftで機械学習エンジニアとして勤務 ◦ 音声認識精度の向上、チャットボットの改修、論文執筆、自律型エージェントの開発、監視基盤のデプロイ・組み込み etc. • 好きなもの ◦ 梅干しとHipHopとLa La Land @sp_1999N

本日のおはなし目的：LLM Agent の監視基盤の選定観点を整理してみる対象：LLM監視基盤をこれから導入する方 / ツール選定に迷っている方話さないこと：特定ツールの詳細な紹介 Langfuse Datadog
LangWatch Arize AX Arize Phoenix traceloop Braintrust

まとめてみる LLM監視基盤の選び方、どんな観点がある？ • コミュニティの勢いは？（将来的に脱落しなそうか） • OSS？商用？ • 機能として何を推している？ • OTelへの対応はされている？
• 既存フレームワークがネイティブサポートしている？ • （使っていて楽しいか）

監視基盤に対する注目度 2025年中ごろから注目されている

検索上位の語句から様子を見る関連語句として注目を集めるツール Langfuse Arize / phoenix Datadog Helicone LangSmith

LLM監視基盤は変化が激しい 2024/6: Datadog の LLM Observability 機能がGAとして発表 2025/2: Arize AI
約110億円をシリーズCで調達 2025/3: W&B が CoreWeave に買収される 2025/8: Humanloop が Anthropic に買収される 2026/1: Langfuse が Clickhouse に買収される 2026/2: Braintrust 約120億円をシリーズBで調達 2026/3: Traceloop が ServiceNow に買収される https://www.datadoghq.com/about/latest-news/press-releases/datadog-llm-observability-is-now-generally-available-to-help-businesses-monitor-improve-and-secure-generative-ai-applications/ https://arize.com/blog/arize-ai-raises-70m-series-c-to-build-the-gold-standard-for-ai-evaluation-observability/ https://wandb.ai/wandb/wb-announcements/reports/W-B-being-acquired-by-CoreWeave--VmlldzoxMTY0MDI1MQ https://humanloop.com/ https://langfuse.com/blog/joining-clickhouse https://www.braintrust.dev/blog/announcing-series-b https://traceloop.com/blog/traceloop-is-joining-servicenow

GitHub Starsから様子を見る MLお馴染み mlﬂowも LLM Obs提供 Langfuseは追随する勢いその他ツールは伯仲した状態

競争から脱落するツールも手軽に組み込めるのが魅力だった Langtrace は開発が休眠 2025/4から更新がない https://www.langtrace.ai/changelog

ざっくり特徴を見てみる Langfuse: OSS筆頭。マルチテナント対応やカスタムダッシュボードなど本番利用に向く。 Opik：Agent Optimizerとしてプロンプトの自動改善機能あり。 Phoenix：ベクトル可視化などもでき、評価や実験基盤として優れる。 Braintrust: エージェントやツール管理などからできるE2Eプ
ラットフォーム。 LangWatch：シナリオテストなど、Agenticな評価をネイティブサポート。

バックエンドアーキテクチャから見る同じOSS監視基盤でもバックエンドアーキテクチャが異なる Phoenix：Docker Container1つで成立する手軽な構成 Langfuse：Clickhouseなどを取り込んだスケーラブルな構成 https://langfuse.com/self-hosting https://arize.com/docs/phoenix/ self-hosting/architecture https://arize.com/docs/phoenix/resources/frequently-asked-questions/langfuse-alternative-arize-phoenix-vs-langfuse-key-differences

OpenTelemetry の観点から見る OpenTelemetry: テレメトリデータ（ログ、メトリクス、トレース）を収集し、オブザーバビリティバックエンドに送信する方法を標準化現在、GenAIに向けた規格の拡張が行われている (Development)

OpenTelemetry GenAI 規格を知る https://opentelemetry.io/docs/specs/semconv/gen -ai/ プロンプト・レスポンス・トークン使用量・ツール呼び出し・プロバイダーメタデータなど、生成AIに関連するトレース・スパンの標準スキーマを策定

OpenTelemetry GenAI 規格を知るプロンプト・レスポンス・トークン使用量・ツール呼び出し・プロバイダーメタデータなど、生成AIに関連するトレース・スパンの標準スキーマを策定 https://opentelemetry.io/docs/specs/semconv/gen -ai/gen-ai-agent-spans/

コラム：OpenLLMetry という存在 2023 OTelがLLM未対応 Traceloopが主導して独自にOTelをLLM向けに拡張＝OpenLLMetry誕生 OTelがLLM対応開始 TraceloopもOTel
GenAI SIGに参加標準化をリード OpenLLMetryのセマンティック規約が OTelに正式統合プロジェクト自体の寄贈提案もされている 2024 https://www.traceloop.com/docs/openllmetry/contributing/s emantic-conventions https://github.com/open-telemetry/semantic-conventions/iss ues/327 2025 https://community.dynatrace.com/t5/AI-Observability/OpenL LMetry-semantic-conventions-are-now-part-of-OpenTeleme try/m-p/267984

OpenTelemetry の観点から改めて見る各種LLM監視ツールでは OTel 標準サポートを進めている Datadog：OTel GenAI Semantic Conventions v1.37+
をネイティブサポート（従来は独自 SDK が必要だった） LangSmith：2025 年 3 月にフル E2E OTel サポートを追加 Langfuse：OTLP エンドポイントを提供し、OpenLLMetry / OpenLIT のインストルメンテーションを受容 Arize Phoenix：OpenTelemetry 上に完全構築その他、Dynatrace、New Relic、Grafana Cloud、Splunk、 Honeycomb が OTel GenAI テレメトリを受け入れ

OTelへの収束の何が嬉しいのか「どのツールを選ぶか」から「どのOTelバックエンドを使うか」に問いが変わりつつある BEFORE 各ツール独自フォーマット時代 AFTER OTel対応後 Xのツールを選ぶ →X専用SDKを書くやっぱりYに切り替えたい →Y専用のSDKを書き直し
＝ベンダーロックイン OTelコードを一回書く (Mastra/Vercelなどなら設定のみ) 設定を変えるだけで気軽に切替可 https://mastra.ai/docs/observability/tracing/overview

AI Shift では何を使っている？ A. Langfuseをセルフホストしている • Why ◦ 利用しているMastraと親和性が高い ◦
データは自社管理したい / マルチテナント運用したい ◦ 評価基盤としても利用できるものが良い • How ◦ Helm chartを dependency として取り込み、k8sで運用 ◦ RBACでの権限管理（エンタープライズ機能） ◦ 自社IDPを利用したSSOの強制

まとめてみる（再掲） LLM監視基盤の選び方、どんな観点がある？ • コミュニティの勢いは？（将来的に脱落しなそうか） • OSS？商用？ • 機能として何を推している？ • OTelへの対応はされている？
• 既存フレームワークがネイティブサポートしている？ • （使っていて楽しいか）

関連資料本日お話しした内容に関連するものを公開していますよければご覧ください • Arize Phoenix で実現する LLM アプリケーションのトレース ◦
https://www.ai-shift.co.jp/techblog/5608 • LLMエージェントオブサーバビリティ基盤についてまとめてみた ◦ https://www.ai-shift.co.jp/techblog/6009 • Langfuse セルフホストでハマったポイントをまとめてみる ◦ https://www.ai-shift.co.jp/techblog/6554 • OpenEvals × Langfuseで始めるAIエージェントのマルチターン評価 ◦ https://www.ai-shift.co.jp/techblog/6705 • Langfuseで支える AIエージェントの監視・評価 ◦ https://speakerdeck.com/haruki1999/langfusedezhi-eru-aiezientonojian-shi-ping-jia

LLM監視基盤の選び方

LLM監視基盤の選び方

Haruki Nagasawa

More Decks by Haruki Nagasawa

Other Decks in Technology

Featured

Transcript