"correlation_with_human_eval": { "BERTScore": { "evidence_text": "全体評価は既往手法のうちBERTScoreが最も人手評価に近い結果を示した。", "has_strong_positive_corr": true }, "BLEU-4": { "evidence_text": "全体評価は既往手法のうちBERTScoreが最も人手評価に近い結果を示した。", "has_strong_positive_corr": false }, …省略... }, "llm_model_names": [ "Llama 2 -Chat (7B)","GPT-3.5-turbo","GPT-4", "PaLM 2 (Bison)", "Gemini-Pro" ] } 使われている評価指標 各評価指標の有効性 自動評価に用いたLLM 12 分析 概要 1段目の 解析 各自動 評価 2段目の 解析 各自動評価の有効性を確認するための項目を出力 主にcorrelation_with_human_evalの内容に対して後段の分析を実施