Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Langfuseを活用して、評価用プロンプトを育てていく
Search
Yuto Toya
March 25, 2025
0
210
Langfuseを活用して、評価用プロンプトを育てていく
Langfuse Night(3/25)の登壇資料です
Yuto Toya
March 25, 2025
Tweet
Share
More Decks by Yuto Toya
See All by Yuto Toya
LangfuseとClickHouse で進化するLLMOps
toyayuto
3
1.3k
Langfuse ✖️ Clickhouse MCPサーバを活用した分析
toyayuto
0
75
Langfuseを活用したLLM評価について
toyayuto
1
120
Featured
See All Featured
Why You Should Never Use an ORM
jnunemaker
PRO
59
9.5k
RailsConf 2023
tenderlove
30
1.2k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
188
55k
Imperfection Machines: The Place of Print at Facebook
scottboms
269
13k
Building a Modern Day E-commerce SEO Strategy
aleyda
43
7.6k
Agile that works and the tools we love
rasmusluckow
330
21k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
140
34k
We Have a Design System, Now What?
morganepeng
53
7.8k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.4k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
53
3k
A Modern Web Designer's Workflow
chriscoyier
697
190k
How GitHub (no longer) Works
holman
315
140k
Transcript
Langfuseを活用して、評価用プロンプトを 育てていく Yuto Toya ガオ株式会社
自己紹介
スピーカー 遠矢 侑音(Toya Yuto) ガオ株式会社 エンジニア
現在、LLMシステムでの評価において、 RAGASを活用していませんか?
• フィードバックを返さなくても、RAGASで作成された評価基準と設 定したLLMによってスコアが返ってくる (LLM as a Judge) • 実装も簡単で、Langfuseとの連携して、可視化も可能
ですが... 利用してみると、課題が多い!
RAGASの技術的課題 • 期待した回答(Ground truth)がある前提の評価基準が多い • ドメイン知識を基にした正確性の評価が難しい • RAGASでのスコアが高い≠精度が良い •
評価基準のカスタマイズが限定的 RAGASだけでは本番リリース時の品質担保の基準として不十分な 場合が多い
LLMシステム評価の実務的課題 • RAGASと人手評価を別々に管理する手間が大きい • 評価プロンプトの継続的な改善・進化プロセスが必要 • 人手評価は重要だが、大規模なデータではスケールが困難 • 異なる評価手法の結果を統合して一元管理をしたい
カスタマイズ可能なLLM as a Judgeの仕組みと 効率的な評価プロセスの管理が必要
LLM as a Judgeを活用する理由 人手評価は高品質だが時間と リソースがかかる 人手評価とLLM評価の効率的に組み合わせる (人間の評価をLLMで拡張・スケール) LLM
as a Judgeにより人的リソースを効率化しながら 評価データ量と大幅な増加と判断の一貫性を実現
人の評価を代替するためのLLM as a Judge評価ステップ ステップ1:人手のみの評価 ステップ2:人手評価 + RAGAS等の評価フレームワーク導入 ステップ4:人手評価+カスタム評価用プロンプト +
Langfuseでの一元管理 (スコア評価+採点理由をUI環境で効率的に実施) ステップ3:人手評価+カスタム評価用プロンプト (評価ロジックをソースコードで実装) LLMシステムのリリース時に品質を担保するための評価を行うには ステップ3以上が必須であり、評価基準の継続的改善が鍵
LLM as a Judgeを行うために、人間がやるべきことは 評価用LLMにきちんと指示(プロンプト)を与えることです! そのために、評価基準はきちんと設定する必要があります
LLM as a Judgeを実装するために必要な要素 評価用プロンプトの作成と管理 評価用 LLMへのAPIリクエストの実装 (ソースコードの修正) 評価用プロンプトの調整 (評価用プロンプトを育てる
)
評価用プロンプトの調整は以下のフローで行います • 評価用プロンプトでのLLM as a Judgeの結果が人間が考えてい るようなスコアと差異がないか評価する • 評価用のプロンプトの管理と結果の可視化が重要 評価用プロンプトの作成
LLMシステムでのテスト LLM as a Judgeでの 評価について人が評価
LLM as a Judgeをカスタムで やるの大変そうですね ...
Langfuseを使えば、カスタムでの評価 設定をUIで簡単に行えます ※ セルフホスティングの場合 Pro/Enterprise版のみ利用可能
Template • プロンプトテンプレートとモデル設定を含む評価の基本設定 • 評価用のプロンプトの設定はこちらで設定 LangfuseでLLM as a
Judgeを行うには2つの設定が必須 Evaluators • Templateを基に作成され、実際の評価を実行する設定 • 以下の要素を設定します ◦ どのデータに対して評価を実行するか ◦ 評価の実行タイミング ◦ スコアの名前付けルール ◦ テンプレート内の変数をどのように埋めるか ◦ サンプリングレート(コスト制御のため)
Templateの画面では評価用プロンプトの設定が可能 変数の設定 コメント(理由の指示) スコアの指示 評価用LLMの設定 バージョン管理 評価用プロンプトの設定
Evaluatorsの画面設定① トレース or データセットの値 を選択 設定後のトレースのみ設定 or 過去のトレースに関しても LLM as
a Judgeを行うべき か選択する 利用するプロンプトの設定 Langfuseでは過去の評価できてないトレースに関しても評価をするこ とが可能!
Evaluatorsの画面設定② トレースの何 %に対して評価を 行うかの設定 (サンプリングレート) 変数の設定 (各 Objectの input、Output、 Metadataの値を設定)
Langfuseでは、アプリケーションコードの変更をせずにLLM as a Judgeの設定を行うことが可能! トレースが取得されてから 何秒後に評価を行うか設定
Langfuseで評価用プロンプトを 作成して、 LLM as a Judgeを行う ようにしていきましょう!
None