Langfuseを活用して、評価用プロンプトを育てていく

Langfuseを活用して、評価用プロンプトを育てていく Yuto Toya ガオ株式会社　

自己紹介

スピーカー遠矢　侑音（Toya Yuto）   ガオ株式会社　エンジニア        

現在、LLMシステムでの評価において、 RAGASを活用していませんか？

  • フィードバックを返さなくても、RAGASで作成された評価基準と設定したLLMによってスコアが返ってくる  （LLM as a Judge）  • 実装も簡単で、Langfuseとの連携して、可視化も可能 
ですが...　利用してみると、課題が多い！     

RAGASの技術的課題   • 期待した回答（Ground truth）がある前提の評価基準が多い  • ドメイン知識を基にした正確性の評価が難しい  • RAGASでのスコアが高い≠精度が良い  •
評価基準のカスタマイズが限定的    RAGASだけでは本番リリース時の品質担保の基準として不十分な場合が多い      

LLMシステム評価の実務的課題   • RAGASと人手評価を別々に管理する手間が大きい  • 評価プロンプトの継続的な改善・進化プロセスが必要  • 人手評価は重要だが、大規模なデータではスケールが困難  • 異なる評価手法の結果を統合して一元管理をしたい 
  カスタマイズ可能なLLM as a Judgeの仕組みと   効率的な評価プロセスの管理が必要      

LLM as a Judgeを活用する理由  人手評価は高品質だが時間とリソースがかかる人手評価とLLM評価の効率的に組み合わせる（人間の評価をLLMで拡張・スケール）   LLM
as a Judgeにより人的リソースを効率化しながら   評価データ量と大幅な増加と判断の一貫性を実現    

人の評価を代替するためのLLM as a Judge評価ステップ  ステップ1：人手のみの評価ステップ2：人手評価 + RAGAS等の評価フレームワーク導入ステップ4：人手評価＋カスタム評価用プロンプト +
Langfuseでの一元管理　　　　　（スコア評価＋採点理由をUI環境で効率的に実施）ステップ3：人手評価＋カスタム評価用プロンプト　　　　　（評価ロジックをソースコードで実装） LLMシステムのリリース時に品質を担保するための評価を行うには   ステップ3以上が必須であり、評価基準の継続的改善が鍵  

LLM as a Judgeを行うために、人間がやるべきことは    評価用LLMにきちんと指示（プロンプト）を与えることです！       そのために、評価基準はきちんと設定する必要があります 

LLM as a Judgeを実装するために必要な要素  評価用プロンプトの作成と管理評価用 LLMへのAPIリクエストの実装（ソースコードの修正）評価用プロンプトの調整 (評価用プロンプトを育てる
)

評価用プロンプトの調整は以下のフローで行います  • 評価用プロンプトでのLLM as a Judgeの結果が人間が考えているようなスコアと差異がないか評価する  • 評価用のプロンプトの管理と結果の可視化が重要  評価用プロンプトの作成
LLMシステムでのテスト LLM as a Judgeでの評価について人が評価

LLM as a Judgeをカスタムでやるの大変そうですね ...

Langfuseを使えば、カスタムでの評価設定をUIで簡単に行えます     ※ セルフホスティングの場合 Pro/Enterprise版のみ利用可能

    Template  • プロンプトテンプレートとモデル設定を含む評価の基本設定  • 評価用のプロンプトの設定はこちらで設定  LangfuseでLLM as a
Judgeを行うには2つの設定が必須  Evaluators   • Templateを基に作成され、実際の評価を実行する設定  • 以下の要素を設定します  ◦ どのデータに対して評価を実行するか  ◦ 評価の実行タイミング  ◦ スコアの名前付けルール  ◦ テンプレート内の変数をどのように埋めるか  ◦ サンプリングレート（コスト制御のため） 

Templateの画面では評価用プロンプトの設定が可能  変数の設定コメント（理由の指示）スコアの指示評価用LLMの設定バージョン管理評価用プロンプトの設定

Evaluatorsの画面設定①  トレース or データセットの値を選択設定後のトレースのみ設定 or 過去のトレースに関しても LLM as
a Judgeを行うべきか選択する利用するプロンプトの設定 Langfuseでは過去の評価できてないトレースに関しても評価をすることが可能！ 

Evaluatorsの画面設定②  トレースの何 %に対して評価を行うかの設定（サンプリングレート）変数の設定（各 Objectの input、Output、 Metadataの値を設定）
Langfuseでは、アプリケーションコードの変更をせずにLLM as a Judgeの設定を行うことが可能！  トレースが取得されてから何秒後に評価を行うか設定

Langfuseで評価用プロンプトを作成して、 LLM as a Judgeを行うようにしていきましょう！

Langfuseを活用して、評価用プロンプトを育てていく

Langfuseを活用して、評価用プロンプトを育てていく

Yuto Toya

More Decks by Yuto Toya

Featured

Transcript