Slide 7
Slide 7 text
概要
- 評価手法
- 自動(LLMによる自動評価)
- 人間(自分の作業チームを作成)
- 人間(AWSマネージドチームによる評価)
- モデル評価ジョブ
- 一般テキスト生成(正解率, 堅牢性, 有害性)
- テキスト要約(正解率, 堅牢性, 有害性)
- 質問と回答(正解率, 堅牢性, 有害性)
- テキスト分類(正解率, 堅牢性)
- データセット
- AWSのデフォルトデータセット(BOLD, TREX…)
- 独自のプロンプトデータセット(S3に用意)
- その他
- 推論はBedrockで実行される(課金対象)
1. Bedrockのモデル評価