Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Langfuseを活用して、評価用プロンプトを育てていく
Search
Yuto Toya
March 25, 2025
0
260
Langfuseを活用して、評価用プロンプトを育てていく
Langfuse Night(3/25)の登壇資料です
Yuto Toya
March 25, 2025
Tweet
Share
More Decks by Yuto Toya
See All by Yuto Toya
DSPyとLangfuseで行うプロンプト最適化
toyayuto
0
130
LangfuseとClickHouse で進化するLLMOps
toyayuto
3
2.1k
Langfuse ✖️ Clickhouse MCPサーバを活用した分析
toyayuto
0
85
Langfuseを活用したLLM評価について
toyayuto
1
140
Featured
See All Featured
Building a Scalable Design System with Sketch
lauravandoore
463
34k
Music & Morning Musume
bryan
46
7k
GitHub's CSS Performance
jonrohan
1032
470k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
16
1.8k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.5k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
25
1.6k
Product Roadmaps are Hard
iamctodd
PRO
55
12k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
Making Projects Easy
brettharned
120
6.5k
The World Runs on Bad Software
bkeepers
PRO
72
12k
Building a Modern Day E-commerce SEO Strategy
aleyda
45
8.3k
A designer walks into a library…
pauljervisheath
210
24k
Transcript
Langfuseを活用して、評価用プロンプトを 育てていく Yuto Toya ガオ株式会社
自己紹介
スピーカー 遠矢 侑音(Toya Yuto) ガオ株式会社 エンジニア
現在、LLMシステムでの評価において、 RAGASを活用していませんか?
• フィードバックを返さなくても、RAGASで作成された評価基準と設 定したLLMによってスコアが返ってくる (LLM as a Judge) • 実装も簡単で、Langfuseとの連携して、可視化も可能
ですが... 利用してみると、課題が多い!
RAGASの技術的課題 • 期待した回答(Ground truth)がある前提の評価基準が多い • ドメイン知識を基にした正確性の評価が難しい • RAGASでのスコアが高い≠精度が良い •
評価基準のカスタマイズが限定的 RAGASだけでは本番リリース時の品質担保の基準として不十分な 場合が多い
LLMシステム評価の実務的課題 • RAGASと人手評価を別々に管理する手間が大きい • 評価プロンプトの継続的な改善・進化プロセスが必要 • 人手評価は重要だが、大規模なデータではスケールが困難 • 異なる評価手法の結果を統合して一元管理をしたい
カスタマイズ可能なLLM as a Judgeの仕組みと 効率的な評価プロセスの管理が必要
LLM as a Judgeを活用する理由 人手評価は高品質だが時間と リソースがかかる 人手評価とLLM評価の効率的に組み合わせる (人間の評価をLLMで拡張・スケール) LLM
as a Judgeにより人的リソースを効率化しながら 評価データ量と大幅な増加と判断の一貫性を実現
人の評価を代替するためのLLM as a Judge評価ステップ ステップ1:人手のみの評価 ステップ2:人手評価 + RAGAS等の評価フレームワーク導入 ステップ4:人手評価+カスタム評価用プロンプト +
Langfuseでの一元管理 (スコア評価+採点理由をUI環境で効率的に実施) ステップ3:人手評価+カスタム評価用プロンプト (評価ロジックをソースコードで実装) LLMシステムのリリース時に品質を担保するための評価を行うには ステップ3以上が必須であり、評価基準の継続的改善が鍵
LLM as a Judgeを行うために、人間がやるべきことは 評価用LLMにきちんと指示(プロンプト)を与えることです! そのために、評価基準はきちんと設定する必要があります
LLM as a Judgeを実装するために必要な要素 評価用プロンプトの作成と管理 評価用 LLMへのAPIリクエストの実装 (ソースコードの修正) 評価用プロンプトの調整 (評価用プロンプトを育てる
)
評価用プロンプトの調整は以下のフローで行います • 評価用プロンプトでのLLM as a Judgeの結果が人間が考えてい るようなスコアと差異がないか評価する • 評価用のプロンプトの管理と結果の可視化が重要 評価用プロンプトの作成
LLMシステムでのテスト LLM as a Judgeでの 評価について人が評価
LLM as a Judgeをカスタムで やるの大変そうですね ...
Langfuseを使えば、カスタムでの評価 設定をUIで簡単に行えます ※ セルフホスティングの場合 Pro/Enterprise版のみ利用可能
Template • プロンプトテンプレートとモデル設定を含む評価の基本設定 • 評価用のプロンプトの設定はこちらで設定 LangfuseでLLM as a
Judgeを行うには2つの設定が必須 Evaluators • Templateを基に作成され、実際の評価を実行する設定 • 以下の要素を設定します ◦ どのデータに対して評価を実行するか ◦ 評価の実行タイミング ◦ スコアの名前付けルール ◦ テンプレート内の変数をどのように埋めるか ◦ サンプリングレート(コスト制御のため)
Templateの画面では評価用プロンプトの設定が可能 変数の設定 コメント(理由の指示) スコアの指示 評価用LLMの設定 バージョン管理 評価用プロンプトの設定
Evaluatorsの画面設定① トレース or データセットの値 を選択 設定後のトレースのみ設定 or 過去のトレースに関しても LLM as
a Judgeを行うべき か選択する 利用するプロンプトの設定 Langfuseでは過去の評価できてないトレースに関しても評価をするこ とが可能!
Evaluatorsの画面設定② トレースの何 %に対して評価を 行うかの設定 (サンプリングレート) 変数の設定 (各 Objectの input、Output、 Metadataの値を設定)
Langfuseでは、アプリケーションコードの変更をせずにLLM as a Judgeの設定を行うことが可能! トレースが取得されてから 何秒後に評価を行うか設定
Langfuseで評価用プロンプトを 作成して、 LLM as a Judgeを行う ようにしていきましょう!
None