効果的なLLM評価法 LangSmithの技術と実践

Slide 1

Slide 1 text

効果的なLLM評価法 LangSmithの技術と実践 2024/06/29 第36回勉強会

Slide 2

Slide 2 text

自己紹介 ● 名前: 西岡賢一郎 ○ Twitter: @ken_nishi ○ note: https://note.com/kenichiro ○ YouTube: 【経営xデータサイエンスx開発】西岡賢一郎のチャンネル (https://www.youtube.com/channel/UCpiskjqLv1AJg64jFCQIyBg) ● 経歴 ○ 東京大学で位置予測アルゴリズムを研究し博士 (学術) を取得 ○ 東京大学の博士課程在学中にデータサイエンスをもとにしたサービスを提供する株式会社トライディアを設立 ○ トライディアを別のIT会社に売却し、CTOとして3年半務め、2021年10月末にCTOを退職 ○ CDPのスタートアップ (Sr. CSM)・株式会社データインフォームド (CEO)・株式会社ディースタッツ (CTO) ○ 自社よび他社のプロダクト開発チーム・データサイエンスチームの立ち上げ経験

Slide 3

Slide 3 text

今日のお話 ● プレゼンの目的: ○ LangSmithの機能とその利点を紹介し、LLMの評価プロセスの改善を図る。 ● トピック ○ LLMの評価 ○ LangSmithを使った評価 + デモ

Slide 4

Slide 4 text

LLMの評価

Slide 5

Slide 5 text

LLMの主な評価方法 LLM（大規模言語モデル）アプリケーションを開発するとに評価必要となる背景 ● 品質保証 ○ 誤情報 (ハルシネーション) を防、正確な応答を提供するための評価必要 ○ 特に重要な分野では信頼性の確保不可欠 ● ユーザーエクスペリエンス ○ ユーザーの満足度を向上させるために応答の質を評価 ○ 対話の質ユーザー体験に直結する ● モデル改善 ○ モデルの強みと弱みを把握し、次のアプリの改善に役立てる ○ 評価を通じて性能を向上させ、より良い結果を目指す LLMの現場で見られる3つの評価 1. ユーザのフィードバック 2. プロダクトチームのフィードバック 3. 期待する出力を使った評価

Slide 6

Slide 6 text

ユーザのフィードバック ● フィードバック収集 ○ 親指マークやコメントでの評価 ○ 簡便で直感的なインターフェース ● 応答の質の分析 ○ 高評価と低評価の応答を比較 ○ 改善点の特定 ● ユーザー満足度の向上 ○ フィードバックを基にアプリを改善 ○ 継続的なユーザーエクスペリエンスの向上をめざす

Slide 7

Slide 7 text

プロダクトチームのフィードバック ● 手動のチェック ○ 開発中の応答を人力で確認 ○ モデルの精度と一貫性の評価 ● プロダクトログデータの活用 ○ 実際の使用データを分析 ○ ユーザーの行動パターンや傾向を把握 ● パフォーマンス指標のモニタリング ○ 応答速度やエラーレートの監視 ○ システムの信頼性と効率性の向上 ● ダッシュボードの作成 ○ リアルタイムのデータを可視化 ○ 評価結果の一元管理と迅速な対応。

Slide 8

Slide 8 text

期待する出力を使った評価 ● 特定のInputに対するOutputを準備 ○ 具体的なInputと期待されるOutputを設定 ○ 実際のLLMのOutputと比較して評価 ● 曖昧性の考慮 ○ LLMの生成するテキスト必ず同じになるわけではない ○ 完全一致ではな、意味的な一致も考慮する ● InputとOutputの管理は課題となる ○ InputとOutputは追加・更新される可能性ある ● 評価基準の設定 ○ 実際のOutputを評価するための基準の設定必要 ○ 一貫性、正確性、関連性の評価

Slide 9

Slide 9 text

LangSmithを使った評価

Slide 10

Slide 10 text

LangSmithの評価機能 LLMアプリケーション開発でよ使われるLangChainのサービスである「LangSmith」は、LLMを楽に評価でる機能を提供している。 ● Evaluatorの設定 ○ コードを書ずにEvaluatorを設定し、データセットに紐づけられる ● PlayGround ○ プログラムを書ずにプロンプトやモデルの設定をテスト ● 中間ステップの評価 ○ RAGパイプラインなどの中間ステップを詳細に評価 ● 標準Evaluatorの利用: ○ カスタムコードを書ことな、標準の Evaluatorを使用 ● Annotationの利用 ○ 実行結果に注釈を追加し、詳細なフィードバックを提供

Slide 11

Slide 11 text

評価に使える2つの機能「Feedback」と「Evaluation」 ● 評価文脈で使える機能は、FeedbackとEvaluationの 2種類 ○ Feedback: ユーザやプロダクトチーム LLM の実行結果に対してAnnotate (注釈付け) ○ Evaluation: 期待する出力を使ってLLMの出力を特定の基準をもとに評価 ● FeedbackはRun (LLMの実行等) を絞り込むのに使い、実行のInputとOutputをDatasetに保存することでEvaluationに利用することでるようになる (Annotateした内容はDatasetには保存されない)

Slide 12

Slide 12 text

Feedback ● Traceされた実行の中に含まれるRunに、自分で定義したTagやKeyをAnnotate ○ trace_id1つに対して複数のrun_id 含まれる構造 ○ 最初のrun_idはtrace_idと同一 ● API経由のfeedbackではKey, 手動のfeedbackでは TagでAnnotateする仕組みとなっている、Tagも Keyとして保存されている ● API経由のfeedbackはrecord 追加・上書でるのに対して、手動のfeedbackは上書のみという違いある ● 数値データで同じキーのものは集計されて表示される ● LLMアプリを使っているユーザらのフィードバックは、基本的にAPI経由の登録となる Runに対して定義したTagをAnnotateしてい

Slide 13

Slide 13 text

Evaluation ● DatasetにあらじめInputとOutputの組み合わせらなるExampleを保存 ● ExampleのInputを使ってLLMを実行し、出てた Outputを保存されているOutputを使って評価 ● 評価にはLangSmith あらじめ用意している評価や、カスタム評価を利用することでる ● 評価結果は、key (評価指標の名前), score (評価結果), commentとして残すこと可能

Slide 14

Slide 14 text

LangSmith導入の課題 ● データの送信: ○ LangSmithにInput、Output、Prompt などを送ることとなる ○ 意図せずセキュアな情報を送らないように実装時に注意必要 ● コスト: ○ チームで使うと1ユーザあたり $39 (6000円強)/月で少し高め ● アプリとLangSmithの密結合: ○ ユーザらのフィードバックを保存する仕組みなどで、アプリとLangSmith 密結合してしまうことある

Slide 15

Slide 15 text

Appendix

Slide 16

Slide 16 text

自動Evaluatorの設定 ● 手順: ○ データセットで「Add Evaluator」ボタンをクリック ○ Evaluatorに名前を付け、使用するプロンプトを設定 ○ 評価基準をスキーマフィールドに指定 ○ Evaluatorを保存し、設定後の実験実行自動的に評価される ● 利点: 評価プロセス簡素化され、一貫した評価基準適用される

Slide 17

Slide 17 text

PlayGround ● 手順: ○ プロンプトプレイグラウンドでプロンプトを選択または作成 ○ データセットに切り替えて実験を開始 ○ 結果を確認し、プロンプトを再調整して実験を繰り返す ● 利点: 効率的にプロンプトやモデルの設定をテストでる

Slide 18

Slide 18 text

中間ステップの評価 ● 手順: ○ パイプラインを定義。 ○ データセットと評価例を作成。 ○ カスタム評価者を定義。 ○ パイプラインを評価。 ● 利点: 各ステップのパフォーマンスを最適化でる

Slide 19

Slide 19 text

標準Evaluatorの利用 ● 種類: ○ QA Evaluator（qa、context_qa、cot_qa） ○ 基準Evaluator（criteria） ○ ラベル付基準Evaluator（labeled_criteria） ○ 文字列距離メトリックEvaluator（string_distance） ○ 埋め込み距離メトリックEvaluator（embedding_distance） ● 利点: 多様な評価基準をカバーし、迅速に評価でる

Slide 20

Slide 20 text

Annotationの利用 ● 手順: ○ 実行結果ページで「Add Annotation」ボタンをクリック。 ○ 注釈内容を入力して保存 ○ 注釈は実行結果ページで確認・編集可能 ● 利点: ○ 詳細なフィードバック: 各実行結果に具体的なフィードバックを追加。 ○ エラーの特定: 特定のエラーや問題点を明確化。 ○ チーム間の共有: チームメンバー間での情報共有容易。

Slide 21

Slide 21 text

LangSmithの高度な評価機能 ● ペアワイズ評価の実行 ● 評価者スコアの監査 ● 実験のパフォーマンス指標の取得