Langfuseを活用したLLM評価について

Langfuse を活用した LLM Evaluation 解説 Yuto Toya ガオ株式会社　

自己紹介

スピーカー遠矢　侑音（Toya Yuto）   ガオ株式会社　エンジニア        

現状の LLM システム開発の課題

生成 AI サービスの個別利用   ChatGPT, Claude, Gemini etc   画像生成、プログラム支援
  予算化: PoC の実施   例：社内ナレッジをチャットで   回答させるツールの実装   本番利用としてリリース   … できる品質になりきらない   ビジネス価値の創出   … 生成 AI の ROI に対しての懸念   生成 AI を取り巻く企業の状況 

本題

LLM システムの評価はどのようにしてますか？  出力結果のみを目視で確認ユーザーフィードバック LLM as a Judge
RAGAS

でも、LLM システムの評価って難しくないですか ...

難しい要因  評価の定義が難しい人によって評価が違う評価を行う実装自体が難しい評価する軸が複数ある

Langfuse を使えば、これらの   難しい要因が改善できます！    

    Human Annotate  • 人間が手動でラベリングができるようになる  • 開発者とは別のドメインエキスパートの人が評価する  場合などに有用  Evaluation
機能では以下の 2 つの設定が UI 上からできます  LLM as a Judge  • LLM が評価用プロンプトを元に評価を自動で行う  • UI 上でトレースと紐付けが可能（ソースの修正なし）  • 合間な表現に対して、点数をつけたりする時などに有用  ※ セルフホスティングの場合 Pro/Enterprise 版のみ利用可能

    Langfuse の Evaluation 機能を利用すると管理者側で Annotate することが可能様々なステップに対して、人間の評価と
  LLM as a Judge をそれぞれ UI 上で簡単に設定が可能自動的にトレースやデータセットと紐づいた LLM as a Judge の設定を可能

  Human Annotate の設定プロンプトの設定や利用する LLM モデルの設定が可能評価用プロンプトや Annotate の設定も
UI 上で定義が可能また、Evaluation 機能を利用するとラベル等の設定も可能 LLM as a Judge の設定

LLM as a Judge の設定方法例  • 評価したい関数と input や output
等の変数として指定を行う  • ボタン操作のみで LLM as a Judge の設定ができるため簡単  • 評価軸を複数作る際にも簡単に作成できる    各トレースや関数と紐づける設定画面

Langfuse を活用することで LLM システムの評価が容易にできそう！

でも、LLM システムの評価はやること多くて大変じゃないですか？

大変（めんどくさい）な要因  評価用データセットを作る手間がかかる評価用のプロンプトの作成・管理評価をするフローに時間がかかる評価結果可視化のために別途作業発生

Langfuse を使えば、これらの  大変な要因が改善できます！   

トレースを確認して、ユーザが入力した Input を   データセットとして利活用することが可能     データセット用のトレースを別で作っておくと良い (
input だけ欲しい場合など) langfuse_context.update_ current_observation() で作成データセットに格納が可能データセットの作成での Langfuse 活用 

しかし、テストで利用するデータセット (入力)はきちんと選定する必要があります  トレースを Annotationの Queue に入れるドメインエキスパートが Queue
を仕分けする Langfuse を活用することで以上のフローを行い、データセットの  選定を行うことが可能 

また、データセットの選定に LLM as a Judge も活用が可能です  また、LLM as a
Judge には以下のような基準のテンプレートもあるので、簡単に評価用プロンプトの作成が可能です • Conciseness (簡潔性) • Context correctness (文脈の正確性 ) • Context relevance (文脈の関連性 ) • Correctness (正確性) • Hallucination (幻覚/誤作成) • Helpfulness (有用性)など前述したような設定を行えば、トレースには自動で  LLM as a judge でスコアが入るので、怪しい値があったらチェックして格納するような運用も可能です  スコアを確認してデータセット選定

利用する LLM モデルやプロンプト設定が可能 Langfuse の UI 上でモデル別やプロンプト別のテストが簡単に可能 
（カスタムの評価を別途プログラムから行うことも可能）  選定した、データセットを用いて、テストを実行  複数の評価基準を設定が可能プロンプトに沿った variables が必要

Input と OutPut、事前に設定した LLM as a Judge のスコア等が可視化できる
テストした結果をきちんと可視化することも可能  LLM as a Judge のスコア可視化した結果を確認して、システムの改善を行っていく 

まとめ：Langfuse で以下の作業を行うことが可能です!  テストケースの作成 • トレースから作成　 • 手動で作成　　 •
LLM as a Judge やドメインエキスパートと連携したデータセットの選定　テスト • プロンプトごとのテスト　　　 • モデルごとのテスト　　　　　 • 複数の評価軸でのテストを一度　　　に行うことが可能　　　　　評価の事前準備 • 評価用プロンプトの作成 • 評価の定義　　　　　　評価結果の可視化 • 各テストごとの評価の比較　　　　 • スコアでの定量的な評価　　　　　 • トレースを活用した原因追及　　　 • Human Attention を利用して　　　ドメインエキスパートと連携した評価上記の作業をそれぞれ別のツールでやるのって辛くないですか？  Langfuse で完結すれば、幸せになると思います！ 

　　　　　　　最後に

デプロイとアプリケー
ションデータ収集とモニタリングデバッグと調整評価と分析 GenAI 運用サイクル Langfuse は LLM システムの開発〜  運用までの一連のライフサイクルを管理できるツールです    現状はトレースやモニタリングの利用が主ではあると思いますが、評価機能も  利用して一連のライフサイクルを管理していくと便利なので、お試しください！  With

Langfuseを活用したLLM評価について

Langfuseを活用したLLM評価について

Yuto Toya

More Decks by Yuto Toya

Featured

Transcript

Langfuse を活用した LLM Evaluation 解説 Yuto Toya ガオ株式会社

自己紹介

スピーカー遠矢　侑音（Toya Yuto）   ガオ株式会社　エンジニア

現状の LLM システム開発の課題

生成 AI サービスの個別利用   ChatGPT, Claude, Gemini etc   画像生成、プログラム支援

本題

LLM システムの評価はどのようにしてますか？  出力結果のみを目視で確認ユーザーフィードバック LLM as a Judge

でも、LLM システムの評価って難しくないですか ...

難しい要因  評価の定義が難しい人によって評価が違う評価を行う実装自体が難しい評価する軸が複数ある

Langfuse を使えば、これらの   難しい要因が改善できます！

Human Annotate  • 人間が手動でラベリングができるようになる  • 開発者とは別のドメインエキスパートの人が評価する  場合などに有用  Evaluation

Langfuse の Evaluation 機能を利用すると管理者側で Annotate することが可能様々なステップに対して、人間の評価と

Human Annotate の設定プロンプトの設定や利用する LLM モデルの設定が可能評価用プロンプトや Annotate の設定も

LLM as a Judge の設定方法例  • 評価したい関数と input や output

Langfuse を活用することで LLM システムの評価が容易にできそう！

でも、LLM システムの評価はやること多くて大変じゃないですか？

大変（めんどくさい）な要因  評価用データセットを作る手間がかかる評価用のプロンプトの作成・管理評価をするフローに時間がかかる評価結果可視化のために別途作業発生

Langfuse を使えば、これらの  大変な要因が改善できます！

トレースを確認して、ユーザが入力した Input を   データセットとして利活用することが可能     データセット用のトレースを別で作っておくと良い (

しかし、テストで利用するデータセット (入力)はきちんと選定する必要があります  トレースを Annotationの Queue に入れるドメインエキスパートが Queue

また、データセットの選定に LLM as a Judge も活用が可能です  また、LLM as a

利用する LLM モデルやプロンプト設定が可能 Langfuse の UI 上でモデル別やプロンプト別のテストが簡単に可能

Input と OutPut、事前に設定した LLM as a Judge のスコア等が可視化できる

まとめ：Langfuse で以下の作業を行うことが可能です!  テストケースの作成 • トレースから作成　 • 手動で作成　　 •

最後に

デプロイとアプリケー