Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Langfuseを活用して、評価用プロンプトを育てていく
Search
Yuto Toya
March 25, 2025
0
240
Langfuseを活用して、評価用プロンプトを育てていく
Langfuse Night(3/25)の登壇資料です
Yuto Toya
March 25, 2025
Tweet
Share
More Decks by Yuto Toya
See All by Yuto Toya
LangfuseとClickHouse で進化するLLMOps
toyayuto
3
2k
Langfuse ✖️ Clickhouse MCPサーバを活用した分析
toyayuto
0
80
Langfuseを活用したLLM評価について
toyayuto
1
130
Featured
See All Featured
Statistics for Hackers
jakevdp
799
220k
Become a Pro
speakerdeck
PRO
29
5.6k
Optimising Largest Contentful Paint
csswizardry
37
3.5k
GraphQLとの向き合い方2022年版
quramy
49
14k
YesSQL, Process and Tooling at Scale
rocio
174
15k
Faster Mobile Websites
deanohume
310
31k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.3k
Scaling GitHub
holman
463
140k
Reflections from 52 weeks, 52 projects
jeffersonlam
355
21k
Leading Effective Engineering Teams in the AI Era
addyosmani
8
990
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
36
6.1k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
34
2.5k
Transcript
Langfuseを活用して、評価用プロンプトを 育てていく Yuto Toya ガオ株式会社
自己紹介
スピーカー 遠矢 侑音(Toya Yuto) ガオ株式会社 エンジニア
現在、LLMシステムでの評価において、 RAGASを活用していませんか?
• フィードバックを返さなくても、RAGASで作成された評価基準と設 定したLLMによってスコアが返ってくる (LLM as a Judge) • 実装も簡単で、Langfuseとの連携して、可視化も可能
ですが... 利用してみると、課題が多い!
RAGASの技術的課題 • 期待した回答(Ground truth)がある前提の評価基準が多い • ドメイン知識を基にした正確性の評価が難しい • RAGASでのスコアが高い≠精度が良い •
評価基準のカスタマイズが限定的 RAGASだけでは本番リリース時の品質担保の基準として不十分な 場合が多い
LLMシステム評価の実務的課題 • RAGASと人手評価を別々に管理する手間が大きい • 評価プロンプトの継続的な改善・進化プロセスが必要 • 人手評価は重要だが、大規模なデータではスケールが困難 • 異なる評価手法の結果を統合して一元管理をしたい
カスタマイズ可能なLLM as a Judgeの仕組みと 効率的な評価プロセスの管理が必要
LLM as a Judgeを活用する理由 人手評価は高品質だが時間と リソースがかかる 人手評価とLLM評価の効率的に組み合わせる (人間の評価をLLMで拡張・スケール) LLM
as a Judgeにより人的リソースを効率化しながら 評価データ量と大幅な増加と判断の一貫性を実現
人の評価を代替するためのLLM as a Judge評価ステップ ステップ1:人手のみの評価 ステップ2:人手評価 + RAGAS等の評価フレームワーク導入 ステップ4:人手評価+カスタム評価用プロンプト +
Langfuseでの一元管理 (スコア評価+採点理由をUI環境で効率的に実施) ステップ3:人手評価+カスタム評価用プロンプト (評価ロジックをソースコードで実装) LLMシステムのリリース時に品質を担保するための評価を行うには ステップ3以上が必須であり、評価基準の継続的改善が鍵
LLM as a Judgeを行うために、人間がやるべきことは 評価用LLMにきちんと指示(プロンプト)を与えることです! そのために、評価基準はきちんと設定する必要があります
LLM as a Judgeを実装するために必要な要素 評価用プロンプトの作成と管理 評価用 LLMへのAPIリクエストの実装 (ソースコードの修正) 評価用プロンプトの調整 (評価用プロンプトを育てる
)
評価用プロンプトの調整は以下のフローで行います • 評価用プロンプトでのLLM as a Judgeの結果が人間が考えてい るようなスコアと差異がないか評価する • 評価用のプロンプトの管理と結果の可視化が重要 評価用プロンプトの作成
LLMシステムでのテスト LLM as a Judgeでの 評価について人が評価
LLM as a Judgeをカスタムで やるの大変そうですね ...
Langfuseを使えば、カスタムでの評価 設定をUIで簡単に行えます ※ セルフホスティングの場合 Pro/Enterprise版のみ利用可能
Template • プロンプトテンプレートとモデル設定を含む評価の基本設定 • 評価用のプロンプトの設定はこちらで設定 LangfuseでLLM as a
Judgeを行うには2つの設定が必須 Evaluators • Templateを基に作成され、実際の評価を実行する設定 • 以下の要素を設定します ◦ どのデータに対して評価を実行するか ◦ 評価の実行タイミング ◦ スコアの名前付けルール ◦ テンプレート内の変数をどのように埋めるか ◦ サンプリングレート(コスト制御のため)
Templateの画面では評価用プロンプトの設定が可能 変数の設定 コメント(理由の指示) スコアの指示 評価用LLMの設定 バージョン管理 評価用プロンプトの設定
Evaluatorsの画面設定① トレース or データセットの値 を選択 設定後のトレースのみ設定 or 過去のトレースに関しても LLM as
a Judgeを行うべき か選択する 利用するプロンプトの設定 Langfuseでは過去の評価できてないトレースに関しても評価をするこ とが可能!
Evaluatorsの画面設定② トレースの何 %に対して評価を 行うかの設定 (サンプリングレート) 変数の設定 (各 Objectの input、Output、 Metadataの値を設定)
Langfuseでは、アプリケーションコードの変更をせずにLLM as a Judgeの設定を行うことが可能! トレースが取得されてから 何秒後に評価を行うか設定
Langfuseで評価用プロンプトを 作成して、 LLM as a Judgeを行う ようにしていきましょう!
None