Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Langfuseを活用して、評価用プロンプトを育てていく

Avatar for Yuto Toya Yuto Toya
March 25, 2025
140

 Langfuseを活用して、評価用プロンプトを育てていく

Langfuse Night(3/25)の登壇資料です

Avatar for Yuto Toya

Yuto Toya

March 25, 2025
Tweet

Transcript

  1. RAGASの技術的課題 
 • 期待した回答(Ground truth)がある前提の評価基準が多い
 • ドメイン知識を基にした正確性の評価が難しい
 • RAGASでのスコアが高い≠精度が良い
 •

    評価基準のカスタマイズが限定的
 
 RAGASだけでは本番リリース時の品質担保の基準として不十分な 場合が多い 
 
 

  2. 人の評価を代替するためのLLM as a Judge評価ステップ
 ステップ1:人手のみの評価 ステップ2:人手評価 + RAGAS等の評価フレームワーク導入 ステップ4:人手評価+カスタム評価用プロンプト +

    Langfuseでの一元管理      (スコア評価+採点理由をUI環境で効率的に実施) ステップ3:人手評価+カスタム評価用プロンプト      (評価ロジックをソースコードで実装) LLMシステムのリリース時に品質を担保するための評価を行うには 
 ステップ3以上が必須であり、評価基準の継続的改善が鍵 

  3. 
 
 Template
 • プロンプトテンプレートとモデル設定を含む評価の基本設定
 • 評価用のプロンプトの設定はこちらで設定
 LangfuseでLLM as a

    Judgeを行うには2つの設定が必須
 Evaluators 
 • Templateを基に作成され、実際の評価を実行する設定
 • 以下の要素を設定します
 ◦ どのデータに対して評価を実行するか
 ◦ 評価の実行タイミング
 ◦ スコアの名前付けルール
 ◦ テンプレート内の変数をどのように埋めるか
 ◦ サンプリングレート(コスト制御のため)

  4. Evaluatorsの画面設定①
 トレース or データセットの値 を選択 設定後のトレースのみ設定 or 過去のトレースに関しても LLM as

    a Judgeを行うべき か選択する 利用するプロンプトの設定 Langfuseでは過去の評価できてないトレースに関しても評価をするこ とが可能!

  5. Evaluatorsの画面設定②
 トレースの何 %に対して評価を 行うかの設定 (サンプリングレート) 変数の設定 (各 Objectの input、Output、 Metadataの値を設定)

    Langfuseでは、アプリケーションコードの変更をせずにLLM as a Judgeの設定を行うことが可能!
 トレースが取得されてから 何秒後に評価を行うか設定