0.76 22.95± 0.99 27.34±0.36 43.59±0.64 35.24±2.05 Ours 22.33±0.60 25.92±0.55 28.98±0.55 45.60±0.51 39.85±1.39 定量的結果: すべての評価尺度で精度向上 + 2.96 ▪ 主要尺度JaSPICE [和田+, NLP23]において提案手法はベースライン手法を 2.96ポイント上回った ▪ 他の尺度も同様に、提案手法がそれぞれベースライン手法を上回った 21 日本語における人間による評価との相関が 他の自動評価尺度と比較して最も高い