(1:Seoul National University 2:Coxwave) 1 EXPERT: An Explainable Image Captioning Evaluation Metric with Structured Explanations 慶應義塾⼤学 杉浦孔明研究室 ⼩⼭修⽣ Hyunjong Kim et al., “EXPERT: An Explainable Image Captioning Evaluation Metric with Structured Explanations,” in Findings of ACL, 2025. ACL25 Findings
n Score binning n ⼈⼿評価は複数のアノテータによる評価値を平均化→⼩数点以下が⻑い値の傾向 L MLLMは評価値の各桁を個別のトークンとして扱うため,些細な数値の違い(e.g., 0.59375 vs 0.60)は不必要に複雑で,学習しづらい可能性 J 事前にscore binningを⾏い安定して性能向上 スコアの理由のデータ スコアのデータ
n エポック数︓1 n バッチサイズ︓8 n ベンチマーク n Flickr8k-Expert & Flickr8k-CF [Hodosh+, IJCAI13], Composite [Hodosh+, IJCAI15], Polaris [Wada+, CVPR24], Nebula [Matsuda+, ACCV24], Pascal-50S [Vedantam+, CVPR15] n 実験環境 n NVIDIA A100 GPU n SFTに2h LLaVA-1.5