Slide 45
Slide 45 text
45
RAGの評価
RAGの評価は意外にもシンプル。
RAGシステムからの出力収集
正解となるデータセットの準備 「質問」、「理想の回答」、「検索されるべきドキュメント」のペアを多量に用意する。
件数の目安は特に無いが、バリエーションや数が多いほど評価の信頼性が高まる。
1で用意した質問をRAGシステムへ入力し、 「RAGシステムの最終回答」、「検索された
ドキュメント(群)」を取集する。LLMは確率的な生成をするため同じ質問でも聞き方を
変えるなどして、複数生成させておくのが望ましい。
出力と正解の突合せ
1と2を比較し、適切なドキュメント抽出が出来ているか、回答の正確性を評価する。
ドキュメントについてはIDを突き合せれば評価できるが、回答についてはLLMを用いて
評価する必要がある。
1
2
3
Azure OpenAIで
使えるモデルは?
2で出力された結果 1で用意した正解
検索されたドキュメント
正解のドキュメントが
含まれているか判定
正解のドキュメント
RAGシステム
gpt-4, gpt-35-turbo, …が利用
可能です。
検索結果をコンテキストとして
与えた際の最終回答
採点
正解の回答
現在使えるモデルはgpt-4,
gpt-35-turbo, …です。
LLM or 人
ドキュメント検索
検索結果を基にした回答