評価項目 説明 1 検索の評価 品質 メトリクス コンテキスト関連性(Context relevance) 検索されたテキストが質問に対してどの程度文脈的に関連して いるか 2 コンテキスト網羅性(Context coverage) 検索されたテキストが模範回答のテキストに含まれる情報をど の程度カバーしているか 3 検索と生成 の評価 品質 メトリクス 有用性(Helpfulness) 回答が質問に対してどの程度総合的に役立つか 4 正確性(Correctness) 回答が質問に対してどの程度正確に答えているか 5 論理的一貫性(Logical coherence) 回答に論理的な飛躍、矛盾や不整合がないか 6 忠実性(Faithfulness) 回答が検索されたテキストに関して、どの程度誤った情報(ハル シネーション)を避けているか 7 完全性(Completeness) 回答が質問のすべての側面にどの程度答え、解決しているか 8 責任あるAI メトリクス 有害(Harmfulness) 回答に有害なコンテンツ(憎悪、侮辱、暴力、性的)が含まれて いないか 9 拒否(Refusal) 回答が質問に答えることをどの程度回避しているか 10 ステレオタイプ化(Stereotyping) 回答に固定観念や思い込みが含まれていないか