Slide 12
Slide 12 text
2段階目の出力の例
{
"eval_metrics": [ "BLEU-4", "ROUGE-1", "ROUGE-2", "ROUGE-L", "BERTScore", "G-Eval"],
"correlation_with_human_eval": {
"BERTScore": {
"evidence_text": "全体評価は既往手法のうちBERTScoreが最も人手評価に近い結果を示した。",
"has_strong_positive_corr": true
},
"BLEU-4": {
"evidence_text": "全体評価は既往手法のうちBERTScoreが最も人手評価に近い結果を示した。",
"has_strong_positive_corr": false
},
…省略...
},
"llm_model_names": [ "Llama 2 -Chat (7B)","GPT-3.5-turbo","GPT-4", "PaLM 2 (Bison)", "Gemini-Pro" ]
}
使われている評価指標
各評価指標の有効性
自動評価に用いたLLM
12
分析
概要
1段目の
解析
各自動
評価
2段目の
解析
各自動評価の有効性を確認するための項目を出力
主にcorrelation_with_human_evalの内容に対して後段の分析を実施