Slide 12
Slide 12 text
A4-3 LLMの出力結果に対する人間による評価分析とGPT-4による自動
評価との比較分析
○関根聡 (理研), 小島淳嗣, 貞光九月, 北岸郁雄 (マネーフォーワード)
12
● LLM による自動評価と人間によ
る手動評価に大きな乖離が生じ
うるという報告
● RAG の回答評価においても,タ
スクに適した項目について事前
に人手評価と LLM の評価との
相関があるかチェックすべき
○ LLM を鵜呑みにすると危険
c.f.
Position bias, Length bias,
Self-enhancement bias など