LLMチャットボットの評価モデル

LLMチャットボットの評価モデル https://www.confident-ai.com/blog/llm-chatbot-evaluation-explained-top-chatbot-evaluation-metrics-and-testing-techniques 出典：役割の遵守会話の関連性知識の保持会話の完全性会話全体を通じて LLM チャットボットが指示どおりに行動できるかどうかを評価します。これは、ロール
プレイングのユースケースに特に役立ちます。最終的なロール遵守メトリックスコアは、指定されたチャットボットがロールに従ったターン数を、会話テストケースの合計ターン数で割った値です LLM チャットボットが会話全体を通じて関連性のある応答を生成できるかどうかを評価します。これは、各ターンを個別にループして計算され、スライディングウィンドウアプローチを採用し、最後の min(0, current turn number — window size)ターンを考慮して関連性があるかどうかを判断します。最終的な会話の関連性メトリックスコアは、関連するターン応答の数を会話テストケースの合計ターン数で割った値です LLMチャットボットが会話全体を通じて提示された情報を保持できるかどうかを評価します。これは、まず会話の特定のターンまでに提示された知識のリストを抽出し、LLM がターン応答にすでに存在する情報を求めているかどうかを判断することによって計算されます。知識保持スコアは、知識の喪失がないターンの数をターンの合計数で割ったものです。会話全体を通じて LLM チャットボットがユーザーの要求を満たすことができるかどうかを評価します。会話の完全性は、ユーザー満足度とチャットボットの有効性を測定するための代替評価として使用できます。会話の完全性は、最初に LLM を使用して会話ターンで見つかった高レベルのユーザー意図のリストを抽出し、次に同じ LLM を使用して会話全体で各意図が満たされたかどうかを判断して計算されます。 Slide: Shinsuke.Matsuki.2024

LLMチャットボットの評価モデル：アプローチ https://www.confident-ai.com/blog/llm-chatbot-evaluation-explained-top-chatbot-evaluation-metrics-and-testing-techniques 出典： Slide: Shinsuke.Matsuki.2024 スライディングウインドウ（Sliding Window）アプローチ小さなブロック（ウインドウ）で順次評価する「スライディングウインドウ」とは、チャットの内容やテキストを一定サイズの小さなブロッ
クに区切り、順番に（あるいは少しずつ重なりを持たせながら）評価を行うという方法を指します。以下のようなイメージです。 1. 大きなテキストや長い対話ログを、ウインドウサイズ（例: 100トークン、200単語など）で分割 2. 先頭からウインドウを当てて評価（例: ウインドウ内のチャットボット応答を評価） 3. 少しずらして次のウインドウを当てて評価 4. 全体をカバーするように繰り返す「スライディングウインドウ」の狙いは、「全体の会話」や「長いテキスト」をそのまま一括で評価するのではなく、ウインドウごとに局所的な要素（文脈の一部、回答の一部）をきめ細かくチェックする点にあります

LLMチャットボットの評価モデル：アプローチ https://www.confident-ai.com/blog/llm-chatbot-evaluation-explained-top-chatbot-evaluation-metrics-and-testing-techniques 出典： Slide: Shinsuke.Matsuki.2024 局所評価を積み重ねるメリット • 詳細な不具合やエラー箇所を発見しやすいウインドウを使うことで、対話ログ中のどのセクションで問題が起きやすいかを見極められます。 •
チャットボットの長い対話でも評価しやすい一度に大量の文字数を扱う場合、評価基準がぼやけたり評価コストが膨大になったりすることがあります。スライディングウインドウで段階的に評価することでその問題を軽減できます。 • メトリクスが安定しやすい 1箇所だけ極端に良い /悪い応答があっても全体平均に埋もれることがあるため、ウインドウ単位での評価を集計することでトレンドを捉えやすくなります。スライディングウインドウの注意点 • ウインドウサイズ・ステップサイズの選定 ◦ 大きすぎるウインドウでは「細部を見逃しがち」、小さすぎると「文脈が途切れて正しい評価ができない」など、バランスが重要 • 評価コスト ◦ ウインドウ単位で繰り返し評価するため、評価ツールや人手アノテーションのコストが増大する場合がある • 重複カウント・重複評価の扱い ◦ ウインドウ同士が重複する場合、その部分の応答をどう扱うかを明確に決めておかないと、一部の箇所だけ過剰に評価される可能性がある

LLMチャットボットの評価モデル

LLMチャットボットの評価モデル

Shinsuke Matsuki(snsk)

More Decks by Shinsuke Matsuki(snsk)

Other Decks in Technology

Featured

Transcript