Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Langfuseを活用して、評価用プロンプトを育てていく
Search
Yuto Toya
March 25, 2025
0
140
Langfuseを活用して、評価用プロンプトを育てていく
Langfuse Night(3/25)の登壇資料です
Yuto Toya
March 25, 2025
Tweet
Share
More Decks by Yuto Toya
See All by Yuto Toya
Langfuse ✖️ Clickhouse MCPサーバを活用した分析
toyayuto
0
47
Langfuseを活用したLLM評価について
toyayuto
1
78
Featured
See All Featured
The Pragmatic Product Professional
lauravandoore
35
6.7k
Producing Creativity
orderedlist
PRO
346
40k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
The Art of Programming - Codeland 2020
erikaheidi
54
13k
Side Projects
sachag
455
42k
GraphQLとの向き合い方2022年版
quramy
46
14k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
161
15k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
130
19k
Building a Modern Day E-commerce SEO Strategy
aleyda
41
7.3k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
48
5.4k
4 Signs Your Business is Dying
shpigford
184
22k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.4k
Transcript
Langfuseを活用して、評価用プロンプトを 育てていく Yuto Toya ガオ株式会社
自己紹介
スピーカー 遠矢 侑音(Toya Yuto) ガオ株式会社 エンジニア
現在、LLMシステムでの評価において、 RAGASを活用していませんか?
• フィードバックを返さなくても、RAGASで作成された評価基準と設 定したLLMによってスコアが返ってくる (LLM as a Judge) • 実装も簡単で、Langfuseとの連携して、可視化も可能
ですが... 利用してみると、課題が多い!
RAGASの技術的課題 • 期待した回答(Ground truth)がある前提の評価基準が多い • ドメイン知識を基にした正確性の評価が難しい • RAGASでのスコアが高い≠精度が良い •
評価基準のカスタマイズが限定的 RAGASだけでは本番リリース時の品質担保の基準として不十分な 場合が多い
LLMシステム評価の実務的課題 • RAGASと人手評価を別々に管理する手間が大きい • 評価プロンプトの継続的な改善・進化プロセスが必要 • 人手評価は重要だが、大規模なデータではスケールが困難 • 異なる評価手法の結果を統合して一元管理をしたい
カスタマイズ可能なLLM as a Judgeの仕組みと 効率的な評価プロセスの管理が必要
LLM as a Judgeを活用する理由 人手評価は高品質だが時間と リソースがかかる 人手評価とLLM評価の効率的に組み合わせる (人間の評価をLLMで拡張・スケール) LLM
as a Judgeにより人的リソースを効率化しながら 評価データ量と大幅な増加と判断の一貫性を実現
人の評価を代替するためのLLM as a Judge評価ステップ ステップ1:人手のみの評価 ステップ2:人手評価 + RAGAS等の評価フレームワーク導入 ステップ4:人手評価+カスタム評価用プロンプト +
Langfuseでの一元管理 (スコア評価+採点理由をUI環境で効率的に実施) ステップ3:人手評価+カスタム評価用プロンプト (評価ロジックをソースコードで実装) LLMシステムのリリース時に品質を担保するための評価を行うには ステップ3以上が必須であり、評価基準の継続的改善が鍵
LLM as a Judgeを行うために、人間がやるべきことは 評価用LLMにきちんと指示(プロンプト)を与えることです! そのために、評価基準はきちんと設定する必要があります
LLM as a Judgeを実装するために必要な要素 評価用プロンプトの作成と管理 評価用 LLMへのAPIリクエストの実装 (ソースコードの修正) 評価用プロンプトの調整 (評価用プロンプトを育てる
)
評価用プロンプトの調整は以下のフローで行います • 評価用プロンプトでのLLM as a Judgeの結果が人間が考えてい るようなスコアと差異がないか評価する • 評価用のプロンプトの管理と結果の可視化が重要 評価用プロンプトの作成
LLMシステムでのテスト LLM as a Judgeでの 評価について人が評価
LLM as a Judgeをカスタムで やるの大変そうですね ...
Langfuseを使えば、カスタムでの評価 設定をUIで簡単に行えます ※ セルフホスティングの場合 Pro/Enterprise版のみ利用可能
Template • プロンプトテンプレートとモデル設定を含む評価の基本設定 • 評価用のプロンプトの設定はこちらで設定 LangfuseでLLM as a
Judgeを行うには2つの設定が必須 Evaluators • Templateを基に作成され、実際の評価を実行する設定 • 以下の要素を設定します ◦ どのデータに対して評価を実行するか ◦ 評価の実行タイミング ◦ スコアの名前付けルール ◦ テンプレート内の変数をどのように埋めるか ◦ サンプリングレート(コスト制御のため)
Templateの画面では評価用プロンプトの設定が可能 変数の設定 コメント(理由の指示) スコアの指示 評価用LLMの設定 バージョン管理 評価用プロンプトの設定
Evaluatorsの画面設定① トレース or データセットの値 を選択 設定後のトレースのみ設定 or 過去のトレースに関しても LLM as
a Judgeを行うべき か選択する 利用するプロンプトの設定 Langfuseでは過去の評価できてないトレースに関しても評価をするこ とが可能!
Evaluatorsの画面設定② トレースの何 %に対して評価を 行うかの設定 (サンプリングレート) 変数の設定 (各 Objectの input、Output、 Metadataの値を設定)
Langfuseでは、アプリケーションコードの変更をせずにLLM as a Judgeの設定を行うことが可能! トレースが取得されてから 何秒後に評価を行うか設定
Langfuseで評価用プロンプトを 作成して、 LLM as a Judgeを行う ようにしていきましょう!
None