[Journal club] EXPERT: An Explainable Image Captioning Evaluation Metric with Structured Explanations

Hyunjong Kim1 Sangyeop Kim1,2 Jongheon Jeong1 Yeongjae Cho1 Sungzoon Cho1
(1:Seoul National University 2:Coxwave) 1 EXPERT: An Explainable Image Captioning Evaluation Metric with Structured Explanations 慶應義塾⼤学杉浦孔明研究室⼩⼭修⽣ Hyunjong Kim et al., “EXPERT: An Explainable Image Captioning Evaluation Metric with Structured Explanations,” in Findings of ACL, 2025. ACL25 Findings

概要 2 背景 n 画像キャプション⽣成の既存評価尺度は評価値の説明の品質が低い n 既存のデータセットは評価値に対する説明を含まない提案 n Polaris-exp,
Nebula-exp︓評価値に対する説明を含むデータセット n EXPERT︓⾼品質な説明を出⼒するMLLM-as-a-Judge 結論 n ほとんどのベンチマークで既存⼿法を上回る n 評価値に対する説明の品質においても既存⼿法を上回る

背景︓既存のMLLM-as-a-Judgeは説明の品質に課題 3 L 画像キャプション⽣成における既存の⾃動評価尺度 (e.g., PAC-Score [Sarto+, CVPR23] )の多くは評価値に対する説明を⽋く
L MLLM-as-a-Judge (e.g., FLEUR [Lee+, ACL24] ) は評価値の理由を出⼒するが，評価値の説明に⼀貫した基準がない L 既存の画像キャプション⽣成の評価尺度⽤のデータセット (e.g., Polaris [Wada+, CVPR24] ) は評価値に対する説明を含まない FLEURにおける評価値の説明の例

関連研究 4 PAC-Score ⼿法概要 PAC-Score [Sarto+, CVPR23] PAC-Score++ [Sarto+,
IJCV25] CLIPの訓練時と画像キャプションの評価時のドメインギャップをBLIP2でデータを⽣成し訓練することで対処 L評価値に対する説明を⽋く FLEUR [Lee+, ACL24] Score smoothingを⽤いたMLLM-as-a-Judge．スコアおよびスコアの理由を出⼒ L評価値の説明に⼀貫した基準がない Polaris [Wada+, CVPR24] 画像キャプションに対する⼈間による評価を含む⼤規模データセット Lデータセットに評価値に対する説明を含まない FLEUR

提案: ⾼品質な説明を出⼒するMLLM-as-a-Judge 5 EXPERT: 流暢性，関連性，記述性の基準で評価値に対する説明を出⼒するMLLM-as-a-Judge n 評価値に対する説明を含むデータセットを構築 n Score Binningした評価値およびその評価値に対する説明を⽤いてSFT
n 実際の評価時は，score smoothing (各出⼒トークンの尤度で加重平均) を適⽤ FLEUR

提案: ⾼品質な説明を出⼒するMLLM-as-a-Judge 6 EXPERT: 流暢性，関連性，記述性の基準で評価値に対する説明を出⼒するMLLM-as-a-Judge n 評価値に対する説明を含むデータセットを構築 n Score Binningしたスコアとそのスコアに対する説明を⽤いてSFT
n 実際の評価時は，score smoothing(各出⼒トークンの尤度で加重平均)を適⽤ FLEUR Score smoothing n MLLMの出⼒を採⽤する⼿法 (e.g., CLAIR [Chan+, EMNLP23] ) は出⼒スコアが離散値→tieが多くなり性能が低下 → 𝑗桁⽬の値が𝑖 (0 ≤ 𝑖 ≤ 9) である尤度𝑝(𝑖, 𝑗)を⽤いて加重平均

提案: スコアに対する説明を含むデータセット 7 L 既存の画像キャプション⽣成の評価尺度⽤のデータセットは評価値に対する説明を含まない →Polaris [Wada+, CVPR24], Nebula [Matsuda+,
ACCV24] を拡張したPolaris-exp, Nebula-expデータセットを構築構築⼿順 1. 流暢さ，関連性，記述性についての説明を各キャプションごとにGPT-4oで作成 2. 品質の保証のため，サブセット (100サンプル) の品質を⼈⼿評価 n 全ての観点で平均3.7/4以上→⾼品質⽣成された説明の⼈⼿評価

提案: Polaris-exp, Nebula-expを⽤いてMLLMをSFT 8 n Polaris-exp, Nebula-expの評価値および理由を⽤いてLoRA [Edward+, ICLR22] でFine-Tuning
n Score binning n ⼈⼿評価は複数のアノテータによる評価値を平均化→⼩数点以下が⻑い値の傾向 L MLLMは評価値の各桁を個別のトークンとして扱うため，些細な数値の違い（e.g., 0.59375 vs 0.60）は不必要に複雑で，学習しづらい可能性 J 事前にscore binningを⾏い安定して性能向上スコアの理由のデータスコアのデータ

実験設定 9 n MLLM n LLaVA-1.5 [Liu+, NeurIPS23] n 学習設定
n エポック数︓１ n バッチサイズ︓8 n ベンチマーク n Flickr8k-Expert & Flickr8k-CF [Hodosh+, IJCAI13], Composite [Hodosh+, IJCAI15], Polaris [Wada+, CVPR24], Nebula [Matsuda+, ACCV24], Pascal-50S [Vedantam+, CVPR15] n 実験環境 n NVIDIA A100 GPU n SFTに2h LLaVA-1.5

定量的結果: ほとんどのベンチマークで既存⼿法を上回る 10 n Reference-freeにおいてほとんどのベンチマークで既存⼿法を上回る n Reference-basedを含めても良好な結果

Ablation︓ Score BinningおよびScore smoothingは性能に寄与 11 n Score BinningおよびScore Smoothingがほとんどのベンチマークで性能に寄与

Ablation︓ Score BinningおよびScore smoothingは性能に寄与 12 n GPT-4oがafter score smoothingで性能が低いのは，tokenizerの影響 n
LLaVAと異なり，⼆桁以上の数字を⼀桁ずつ出さないケースがある

定量的結果: ⽣成された説明の品質は既存⼿法を⼈⼿評価で上回る 13 n EXPERTw/o SFT ︓EXPERTのプロンプトを⽤いて説明⽣成 n EXPERTw/o SFT
は説明の品質がFLEURを下回る→プロンプトによる制御のみでは不⼗分 n SFTと組み合わせることで全項⽬について品質が向上

定性的結果: FLUERと⽐較して各項⽬について詳細な説明を提供 14 n FLEURはフリスビーへの⾔及付属を⾒落としている n EXPERTはフリスビーを追いかけている⾏動に⾔及

定性的結果: FLUERと⽐較して各項⽬について詳細な説明を提供 15 n EXPERTはFLEURが⾔及できていない⽂法的な不完全さを指摘

まとめ 16 背景 n 画像キャプション⽣成の既存評価尺度は評価値の説明の品質に課題 n 既存のデータセットは評価値に対する説明の含まない提案 n Polaris-exp,
Nebula-exp︓評価値に対する説明を含むデータセット n EXPERT︓⾼品質な説明を出⼒するMLLM-as-a-Judge 結論 n ほとんどのベンチマークで既存⼿法を上回る n 評価値に対する説明の品質で，既存⼿法を上回る

17 Appendix

prompt 18 n 評価⽤プロンプト n 評価値に対する説明⽣成⽤のプロンプト

[Journal club] EXPERT: An Explainable Image Cap...

[Journal club] EXPERT: An Explainable Image Captioning Evaluation Metric with Structured Explanations

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

Hyunjong Kim1 Sangyeop Kim1,2 Jongheon Jeong1 Yeongjae Cho1 Sungzoon Cho1

概要 2 背景 n 画像キャプション⽣成の既存評価尺度は評価値の説明の品質が低い n 既存のデータセットは評価値に対する説明を含まない提案 n Polaris-exp,

背景︓既存のMLLM-as-a-Judgeは説明の品質に課題 3 L 画像キャプション⽣成における既存の⾃動評価尺度 (e.g., PAC-Score [Sarto+, CVPR23] )の多くは評価値に対する説明を⽋く

関連研究 4 PAC-Score ⼿法概要 PAC-Score [Sarto+, CVPR23] PAC-Score++ [Sarto+,

提案: スコアに対する説明を含むデータセット 7 L 既存の画像キャプション⽣成の評価尺度⽤のデータセットは評価値に対する説明を含まない →Polaris [Wada+, CVPR24], Nebula [Matsuda+,

提案: Polaris-exp, Nebula-expを⽤いてMLLMをSFT 8 n Polaris-exp, Nebula-expの評価値および理由を⽤いてLoRA [Edward+, ICLR22] でFine-Tuning

実験設定 9 n MLLM n LLaVA-1.5 [Liu+, NeurIPS23] n 学習設定

定量的結果: ほとんどのベンチマークで既存⼿法を上回る 10 n Reference-freeにおいてほとんどのベンチマークで既存⼿法を上回る n Reference-basedを含めても良好な結果

Ablation︓ Score BinningおよびScore smoothingは性能に寄与 11 n Score BinningおよびScore Smoothingがほとんどのベンチマークで性能に寄与

Ablation︓ Score BinningおよびScore smoothingは性能に寄与 12 n GPT-4oがafter score smoothingで性能が低いのは，tokenizerの影響 n

定量的結果: ⽣成された説明の品質は既存⼿法を⼈⼿評価で上回る 13 n EXPERTw/o SFT ︓EXPERTのプロンプトを⽤いて説明⽣成 n EXPERTw/o SFT

定性的結果: FLUERと⽐較して各項⽬について詳細な説明を提供 14 n FLEURはフリスビーへの⾔及付属を⾒落としている n EXPERTはフリスビーを追いかけている⾏動に⾔及

定性的結果: FLUERと⽐較して各項⽬について詳細な説明を提供 15 n EXPERTはFLEURが⾔及できていない⽂法的な不完全さを指摘

まとめ 16 背景 n 画像キャプション⽣成の既存評価尺度は評価値の説明の品質に課題 n 既存のデータセットは評価値に対する説明の含まない提案 n Polaris-exp,

17 Appendix

prompt 18 n 評価⽤プロンプト n 評価値に対する説明⽣成⽤のプロンプト