Slide 12
Slide 12 text
LLM as a Judgeとは
AIモデル(生成応答)を評価するために、別のAIモデル(評価者)を利用する
by オライリーAIエンジニアリング
速度とコスト効率 参照データ不要 高い相関性
人間の評価者(アノ
テーター)と比較し
て、はるかに高速か
つ安価に評価を行う
ことができる
正解データ(参照応
答)が存在しない本番
環境のデータに対し
ても、プロンプトに基
づいて品質や安全性
を評価できる
人間の評価者と強い
相関(85%の一致率
など)を示すことが研
究で報告されており、
信頼性がある程度確
認されている
柔軟性
プロンプトを変更す
るだけで、ハルシネー
ションの検出、トーン
の確認、役割(ロール
プレイ)の維持など、
あらゆる基準に基づ
いた評価が可能