Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Langfuseを活用して、評価用プロンプトを育てていく
Search
Yuto Toya
March 25, 2025
0
180
Langfuseを活用して、評価用プロンプトを育てていく
Langfuse Night(3/25)の登壇資料です
Yuto Toya
March 25, 2025
Tweet
Share
More Decks by Yuto Toya
See All by Yuto Toya
Langfuse ✖️ Clickhouse MCPサーバを活用した分析
toyayuto
0
65
Langfuseを活用したLLM評価について
toyayuto
1
110
Featured
See All Featured
VelocityConf: Rendering Performance Case Studies
addyosmani
332
24k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
229
22k
Building Flexible Design Systems
yeseniaperezcruz
328
39k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Building Applications with DynamoDB
mza
96
6.5k
Designing for humans not robots
tammielis
253
25k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
50
5.5k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
47
9.6k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
1.3k
The Pragmatic Product Professional
lauravandoore
36
6.8k
Balancing Empowerment & Direction
lara
1
540
Transcript
Langfuseを活用して、評価用プロンプトを 育てていく Yuto Toya ガオ株式会社
自己紹介
スピーカー 遠矢 侑音(Toya Yuto) ガオ株式会社 エンジニア
現在、LLMシステムでの評価において、 RAGASを活用していませんか?
• フィードバックを返さなくても、RAGASで作成された評価基準と設 定したLLMによってスコアが返ってくる (LLM as a Judge) • 実装も簡単で、Langfuseとの連携して、可視化も可能
ですが... 利用してみると、課題が多い!
RAGASの技術的課題 • 期待した回答(Ground truth)がある前提の評価基準が多い • ドメイン知識を基にした正確性の評価が難しい • RAGASでのスコアが高い≠精度が良い •
評価基準のカスタマイズが限定的 RAGASだけでは本番リリース時の品質担保の基準として不十分な 場合が多い
LLMシステム評価の実務的課題 • RAGASと人手評価を別々に管理する手間が大きい • 評価プロンプトの継続的な改善・進化プロセスが必要 • 人手評価は重要だが、大規模なデータではスケールが困難 • 異なる評価手法の結果を統合して一元管理をしたい
カスタマイズ可能なLLM as a Judgeの仕組みと 効率的な評価プロセスの管理が必要
LLM as a Judgeを活用する理由 人手評価は高品質だが時間と リソースがかかる 人手評価とLLM評価の効率的に組み合わせる (人間の評価をLLMで拡張・スケール) LLM
as a Judgeにより人的リソースを効率化しながら 評価データ量と大幅な増加と判断の一貫性を実現
人の評価を代替するためのLLM as a Judge評価ステップ ステップ1:人手のみの評価 ステップ2:人手評価 + RAGAS等の評価フレームワーク導入 ステップ4:人手評価+カスタム評価用プロンプト +
Langfuseでの一元管理 (スコア評価+採点理由をUI環境で効率的に実施) ステップ3:人手評価+カスタム評価用プロンプト (評価ロジックをソースコードで実装) LLMシステムのリリース時に品質を担保するための評価を行うには ステップ3以上が必須であり、評価基準の継続的改善が鍵
LLM as a Judgeを行うために、人間がやるべきことは 評価用LLMにきちんと指示(プロンプト)を与えることです! そのために、評価基準はきちんと設定する必要があります
LLM as a Judgeを実装するために必要な要素 評価用プロンプトの作成と管理 評価用 LLMへのAPIリクエストの実装 (ソースコードの修正) 評価用プロンプトの調整 (評価用プロンプトを育てる
)
評価用プロンプトの調整は以下のフローで行います • 評価用プロンプトでのLLM as a Judgeの結果が人間が考えてい るようなスコアと差異がないか評価する • 評価用のプロンプトの管理と結果の可視化が重要 評価用プロンプトの作成
LLMシステムでのテスト LLM as a Judgeでの 評価について人が評価
LLM as a Judgeをカスタムで やるの大変そうですね ...
Langfuseを使えば、カスタムでの評価 設定をUIで簡単に行えます ※ セルフホスティングの場合 Pro/Enterprise版のみ利用可能
Template • プロンプトテンプレートとモデル設定を含む評価の基本設定 • 評価用のプロンプトの設定はこちらで設定 LangfuseでLLM as a
Judgeを行うには2つの設定が必須 Evaluators • Templateを基に作成され、実際の評価を実行する設定 • 以下の要素を設定します ◦ どのデータに対して評価を実行するか ◦ 評価の実行タイミング ◦ スコアの名前付けルール ◦ テンプレート内の変数をどのように埋めるか ◦ サンプリングレート(コスト制御のため)
Templateの画面では評価用プロンプトの設定が可能 変数の設定 コメント(理由の指示) スコアの指示 評価用LLMの設定 バージョン管理 評価用プロンプトの設定
Evaluatorsの画面設定① トレース or データセットの値 を選択 設定後のトレースのみ設定 or 過去のトレースに関しても LLM as
a Judgeを行うべき か選択する 利用するプロンプトの設定 Langfuseでは過去の評価できてないトレースに関しても評価をするこ とが可能!
Evaluatorsの画面設定② トレースの何 %に対して評価を 行うかの設定 (サンプリングレート) 変数の設定 (各 Objectの input、Output、 Metadataの値を設定)
Langfuseでは、アプリケーションコードの変更をせずにLLM as a Judgeの設定を行うことが可能! トレースが取得されてから 何秒後に評価を行うか設定
Langfuseで評価用プロンプトを 作成して、 LLM as a Judgeを行う ようにしていきましょう!
None