Slide 7
Slide 7 text
ハッシュタグ:#jawsdays2025 #jawsug #jawsdays2025_f
Amazon Bedrock Knowledge BasesのRAG評価機能
⚫ 評価項目
# 評価項目 説明
1
検索の評価
品質
メトリクス
コンテキスト関連性(Context relevance)
検索されたテキストが質問に対してどの程度文脈的に関連して
いるか
2 コンテキスト網羅性(Context coverage)
検索されたテキストが模範回答のテキストに含まれる情報をど
の程度カバーしているか
3
検索と生成
の評価
品質
メトリクス
有用性(Helpfulness) 回答が質問に対してどの程度総合的に役立つか
4 正確性(Correctness) 回答が質問に対してどの程度正確に答えているか
5 論理的一貫性(Logical coherence) 回答に論理的な飛躍、矛盾や不整合がないか
6 忠実性(Faithfulness)
回答が検索されたテキストに関して、どの程度誤った情報(ハル
シネーション)を避けているか
7 完全性(Completeness) 回答が質問のすべての側面にどの程度答え、解決しているか
8
責任あるAI
メトリクス
有害(Harmfulness)
回答に有害なコンテンツ(憎悪、侮辱、暴力、性的)が含まれて
いないか
9 拒否(Refusal) 回答が質問に答えることをどの程度回避しているか
10 ステレオタイプ化(Stereotyping) 回答に固定観念や思い込みが含まれていないか