[NLP24] Polos: Multimodal Metric Learning from Human Feedback for Image Captioning

Polos: 画像キャプション生成における教師あり自動評価尺度和田唯我, 兼田寛大, 齋藤大地, 杉浦孔明慶應義塾大学

o 画像キャプション⽣成における教師あり⾃動評価尺度 Polos を提案 o 約13万サンプルの⼈間による評価 (世界最⼤の10倍) で構成されたPolarisを構築 o ベクトル間の複雑な関係を学習する提案尺度は様々なベンチマークで世界最⾼性能
o ソフトウェア・データセット公開済み→ https://yuiga.dev/polos 画像キャプション⽣成における教師あり⾃動評価尺度 - 2 - ６つのベンチマークにおいてSOTA • Flickr8K-Expert • Flickr8K-CF • Composite • PASCAL50S • FOIL • Polaris CVPR 2024 採択

- 3 - o 画像キャプション⽣成: 画像を説明するキャプションを⽣成 • 視覚障害者の補助 [Gurari+, ECCV20]
• 画像に関する対話⽣成 [White+, EMNLP21] • 画像に基づく質問応答 [Fisch+, EMNLP20] o 様々な⽤途で社会応⽤ L 既存の⾃動評価尺度は⼈間による評価との相関係数が低い [Wada+, CoNLL23] [Sarto+, CVPR23] A person with a red umbrella is sitting on a bench. 円滑なモデル改良には適切な評価ができる実⽤的な⾃動評価尺度が望まれる背景 : 画像キャプション⽣成では⽣成⽂の品質評価が重要

- 4 - o ⼊⼒: ⽣成⽂𝒙!"#$ , 参照⽂ 𝒙 !"#
(%) %'( ) , および画像 𝑥%&' o 出⼒: 参照⽂および画像に対して，⽣成⽂𝒙!"#$ が適切であるかの評価値 o 性能の検証: ⼈間による評価との相関係数 (Kendall’s 𝜏) 問題設定 : 画像キャプション⽣成に対する⾃動評価 Image Captioning Model 𝒙 !"# (%) %'( ) 𝒙*+,- 評価値⼈間による評価相関係数により性能を検証 𝒙*+, 提案⼿法

- 5 - o 提案⼿法: Polos o 新規性 1. 並列クロスモーダル特徴抽出機構
2. Polosを学習するフレームワーク M2LHF 3. ⼤規模データセットPolarisを構築 • 世界最⼤の標準データセットの約10倍 • 画像キャプション⽣成における教師あり⾃動評価尺度提案⼿法: 画像キャプション⽣成における教師あり⾃動評価尺度

2. Polosを学習するフレームワーク M2LHF 3. ⼤規模データセットPolarisを構築 • 世界最⼤の標準データセットの約10倍 • 画像キャプション⽣成における教師あり⾃動評価尺度提案⼿法: 画像キャプション⽣成における教師あり⾃動評価尺度 CLIP/SimCSE [Gao+, EMNLP21]に基づき，ベクトル間の複雑な関係を学習

2. Polosを学習するフレームワーク M2LHF 3. ⼤規模データセットPolarisを構築 • 世界最⼤の標準データセットの約10倍 • 画像キャプション⽣成における教師あり⾃動評価尺度提案⼿法: 画像キャプション⽣成における教師あり⾃動評価尺度人間による評価を直接学習しより人間に近い評価を出力 M2LHF: Multimodal Metric Learning from Human Feedback

2. Polosを学習するフレームワーク M2LHF 3. ⼤規模データセットPolarisを構築 • 世界最⼤の標準データセットの約10倍 • 画像キャプション⽣成における教師あり⾃動評価尺度提案⼿法: 画像キャプション⽣成における教師あり⾃動評価尺度 550⼈から収集した13万の⼈間による評価を含む

o CLIPのエンコーダより特徴量を抽出 • 𝑥!"# の画像埋め込み • 𝑥$%&' , 𝑥 ()*
(,) の⽂埋め込み o SimCSEで学習されたRoBERTaより抽出 • 𝑥$%&' , 𝑥 ()* (,) の⽂埋め込み - 9 - 提案⼿法: 画像キャプション⽣成における教師あり⾃動評価尺度 • CLIPはウェブから収集したalt-textで事前学習 →⾼品質な⽂埋め込みを⽣成できないことを指摘先⾏研究: [Sarto+, CVPR23] → SimCSEで事前学習された RoBERTaを使⽤

- 10 - アダマール積と要素間の差分を⽤いてベクトル形式の類似度を定式化 o 並列クロスモーダル特徴抽出機構 • アダマール積と要素間の差分により𝑥!"#$ , 𝑥)*+
(-) ,𝑥%&' 間の類似度をベクトル形式で定式化 • 得られた類似度にMLPを適⽤し，𝑖 番⽬の参照⽂に対するスコアを得る

(-) ,𝑥%&' 間の類似度をベクトル形式で定式化 • 得られた類似度にMLPを適⽤し，𝑖 番⽬の参照⽂に対するスコアを得る機械翻訳における⾃動評価尺度である COMET [Rei+, EMNLP20] にて有効性が検証

o 並列クロスモーダル特徴抽出機構 • ⼀般的なデータセット: 複数の参照⽂が付与されている • 𝑖 番⽬の参照⽂に対するをスカラ値へ変換
• Aggregate関数としてMax関数を採⽤ → Ablation studyを実施 • ⼈間による評価とｙから損失を計算し，⼈間に近い評価を学習 - 17 - Aggregate関数により複数の参照⽂に対するスコアを集約

- 18 - o クラウドソーシングサービスにより評価を収集 • アノテータ : 550⼈
• 131,020 サンプル収集 o 与えられた 1 枚の画像と，対応するキャプションの組に対してキャプションの適切さを 5 段階で評価 o アノテータは以下を考慮 • Fluency • Relevance • Descriptiveness Polaris データセット: アノテータ550⼈から約13万サンプル収集

o 18個の⾃動評価尺度・6個のベンチマークにおいて⽐較 (以下⼀部抜粋) J 現時点でのSOTA尺度 RefPAC-S [Sarto+, CVPR23] を上回る良好な結果 -
19 - 定量結果: 提案尺度がComposite, Flickr8K, PolarisにおいてSOTA Composite Flickr8K (Expert) Flickr8K(CF) Polaris MID 55.7 54.9 37.3 51.3 PAC-S 55.7 54.3 36.0 52.5 UMIC 56.1 46.8 30.1 56.0 RefPAC-S 57.3 55.9 37.6 56.0 Polos 57.6 56.4 37.8 57.8 +0.3 +0.5 +0.2 +1.8

o ⽣成⽂: “a bunch of bananas are hanging on a
tree.” o 参照⽂: ”A framed picture of a bunch of bananas.” - 20 - 定性結果: 既存⼿法と⽐べて良好な結果 • ⼈間による評価: 0.450 • Polos: 0.513 J 提案⼿法は適切に評価 • RefPAC-S: 0.825 L RefPAC-Sは過⼤評価 “hanging on a tree”は画像からは誤り．

- 21 - 定性結果: 既存⼿法と⽐べて良好な結果 “cat”, “blue blanket”等の深刻な誤りを含む o ⽣成⽂:
“a black and white cat sleeping on a blue blanket.” o 参照⽂: ”A cute little dog biting on something a person is holding.” • ⼈間による評価: 0.071 • Polos: 0.173 J 提案⼿法は⽐較的適切に評価 • RefPAC-S: 0.903 L RefPAC-Sは過⼤評価

- 22 - o 𝑃 : 並列クロスモーダル特徴抽出機構の有無 o 𝑥%&' :
画像特徴量の有無条件 𝑷 𝒙𝐢𝐦𝐠 CLIP Aggregate Composite Flickr8K Polaris (i) ✔ ✔ Max 39.3 41.0 51.4 (ii) ✔ ✔ Max 56.8 55.5 57.1 (iii) ✔ Max 55.0 53.2 55.4 (iv) ✔ ✔ ✔ Mean 55.1 55.4 52.1 提案手法 ✔ ✔ ✔ Max 57.6 56.4 57.8 Ablation Study: 各モジュールおよび⼊⼒の性能への寄与を調査並列クロスモーダル特徴抽出機構の有無

o 条件(i) : 並列クロスモーダル特徴抽出機構を削除 →並列クロスモーダル特徴抽出機構の性能への寄与を確認条件 𝑷 𝒙𝐢𝐦𝐠 CLIP Aggregate
Composite Flickr8K Polaris (i) ✔ ✔ Max 39.3 41.0 51.4 (ii) ✔ ✔ Max 56.8 55.5 57.1 (iii) ✔ Max 55.0 53.2 55.4 (iv) ✔ ✔ ✔ Mean 55.1 55.4 52.1 提案手法 ✔ ✔ ✔ Max 57.6 56.4 57.8 - 23 - +18.3 Ablation Study: 並列クロスモーダル特徴抽出機構の性能への寄与を確認並列クロスモーダル特徴抽出機構の有無

- 24 - o 条件(ii) / (iii): CLIPの削除および CLIPによる画像埋め込みを削除
→ 𝒙𝐢𝐦𝐠 およびCLIPの画像エンコーダの性能への寄与を確認条件 𝑷 𝒙𝐢𝐦𝐠 CLIP Aggregate Composite Flickr8K Polaris (i) ✔ ✔ Max 39.3 41.0 51.4 (ii) ✔ ✔ Max 56.8 55.5 57.1 (iii) ✔ Max 55.0 53.2 55.4 (iv) ✔ ✔ ✔ Mean 55.1 55.4 52.1 提案手法 ✔ ✔ ✔ Max 57.6 56.4 57.8 Ablation Study: CLIPの画像エンコーダの性能への寄与を確認 +0.8 +3.2

- 25 - o 条件(iv) : Aggregate関数をMax関数からMean関数へ変更 → Aggregate関数にはMax関数が最良であることを確認条件
𝑷 𝒙𝐢𝐦𝐠 CLIP Aggregate Composite Flickr8K Polaris (i) ✔ ✔ Max 39.3 41.0 51.4 (ii) ✔ ✔ Max 56.8 55.5 57.1 (iii) ✔ Max 55.0 53.2 55.4 (iv) ✔ ✔ ✔ Mean 55.1 55.4 52.1 提案手法 ✔ ✔ ✔ Max 57.6 56.4 57.8 Ablation Study: Aggregate関数にはMax関数が最良 +2.5

o 画像キャプション⽣成における教師あり⾃動評価尺度 Polos を提案 o 新規性 1. 並列クロスモーダル特徴抽出機構 2. Polosを学習するフレームワーク
M2LHF を提案 3. 550⼈から収集した131Kの⼈間による評価を含む新たなデータセットPolarisを提案まとめ: 画像キャプション⽣成における教師あり⾃動評価尺度 - 26 - ６つのベンチマークにおいてSOTA • Flickr8K-Expert • Flickr8K-CF • Composite • PASCAL50S • FOIL • Polaris

- 27 - Polos: Multimodal Metric Learning from Human Feedback
for Image Captioning Project Page: https://yuiga.dev/polos Project Page: Polos CVPR 2024 採択

- 28 - 1. [Banerjee+, ACL05] Banerjee, S. and Lavie,
A.: METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments, in IEEvaluation@ACL, pp. 65–72 (2005) 2. [Vedantam+, CVPR15] Vedantam, R., Zitnick, L., and Parikh, D.: CIDEr: Consensus-based Image Description Evaluation, in CVPR, pp. 4566–4575 (2015) 3. [Anderson+, ECCV16] Anderson, P., Fernando, B., et al.: SPICE: Se- mantic Propositional Image Caption Evaluation, in ECCV, pp. 382–398 (2016) 4. [Wada+, CoNLL23] Wada, Y., Kaneda, K., and Sugiura, K.: JaSPICE: Automatic Evaluation Metric Using Predicate-Argument Structures for Image Captioning Models, in CoNLL (2023) 5. [Zhang+, ICLR20] Zhang, T., Kishore, V., Wu, F., Weinberger, K. Q., and Artzi, Y.: BERTScore: Evaluating Text Generation with BERT, in ICLR (2020) 6. [Devlin+, NACCL19] Devlin, J., et al.: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, NAACL- HLT, pp. 4171–4186 (2019) 7. [Hessel+, EMNLP21] Hessel, J., et al.: CLIPScore: A Reference-free Evaluation Metric for Image Captioning, in EMNLP, pp. 7514–7528 (2021) 8. [Kim+, NeurIPS22] Kim, J.-H., Kim, Y., Lee, J., Yoo, K. M., and Lee, S.- W.: Mutual information divergence: A unified metric for multimodal generative models, NeurIPS, Vol. 35, pp. 35072–35086 (2022) 9. [Lee+, ACL21] Lee, H., Yoon, S., Dernoncourt, F., and Jung, K.: UMIC: An Unreferenced Metric for Image Captioning via Con- trastive Learning, in ACL, pp. 220–226 (2021) 10. [Sarto+, CVPR23] Sarto, S., Barraco, M., Cornia, M., Baraldi, L., and Cucchiara, R.: Positive-Augmented Contrastive Learning for Image and Video Captioning Evaluation, in CVPR, pp. 6914– 6924 (2023) 11. [Chen+, ECCV20] Chen, Y.-C., Li, L., Yu, L., El Kholy, A., Ahmed, F., Gan, Z., Cheng, Y., and Liu, J.: UNITER: Universal image-text representation learning, in ECCV, pp. 104–120 (2020) 12. [Radford+, PMLR21] Radford, A., Kim, J. W., Hallacy, C., et al.: Learning transferable visual models from natural language supervi- sion, in ICML, pp. 8748–8763 (2021) 13. [Gao+, EMNLP21] Tianyu Gao, Xingcheng Yao, and Danqi Chen. SimCSE: Simple Contrastive Learning of Sentence Embeddings. In 737 EMNLP, pages 6894–6910, 2021. 14. [Rei+, EMNLP20] Rei, R., Stewart, C., Farinha, A. C., and Lavie, A.: COMET: A Neural Framework for MT Evaluation, in EMNLP, pp. 2685–2702 (2020) 15. [Sellam+, ACL20] Sellam, T., Das, D., and Parikh, A.: BLEURT: Learning Robust Metrics for Text Generation, in ACL, pp. 7881–7892 (2020) 参考⽂献

29 Appendix

実験結果: 提案⼿法は定性・定量ともに良好な結果 - 30 - (a) Human 0.750 PAC-S 0.612
CLIP-S 0.402 Polos (Ours) 0.745 RefPAC-S 0.670 RefCLIP-S 0.703 White plate full of fries next to a sandwich. a close-up of a sandwich and some fries. A cute little dog biting on something a person is holding. A black and white cat sleeping on a blue blanket. Polos (Ours) 0.173 RefPAC-S 0.903 RefCLIP-S 0.343 Human 0.071 PAC-S 0.856 CLIP-S 0.200 (c) (b) (d) Polosは定性・定量ともに良好な結果

実験結果: 提案⼿法はPASCAL-50S・FOILともに良好な結果 - 31 -

- 32 - ⼿法概要 BERTScore [Zhang+, ICLR20] BERT [Devlin+,
NACCL19]の単語埋め込みからcosine類似度を計算 CLIPScore [Hessel+, EMNLP21] ⼤規模対照学習により事前学習されたCLIP [Radford+, PMLR21] の埋め込み表現よりcosine類似度を計算 MID [Kim+, NeurIPS22] CLIPの埋め込み表現からNegative Gaussian Cross- Mutual Informationを⽤いて類似度を計算 BERTScore CLIPScore 関連研究(1/2): Similarity-based metrics (埋め込み表現の類似度に基づく)

- 33 - ⼿法概要 BERTScore [Zhang+, ICLR20] BERT [Devlin+,
NACCL19]の単語埋め込みからcosine類似度を計算 CLIPScore [Hessel+, EMNLP21] ⼤規模対照学習により事前学習されたCLIP [Radford+, PMLR21] の埋め込み表現よりcosine類似度を計算 MID [Kim+, NeurIPS22] CLIPの埋め込み表現からNegative Gaussian Cross- Mutual Informationを⽤いて類似度を計算古典的⼿法(cosine類似度・最適輸送)により類似度を計算するため，性能に改善の余地あり BERTScore CLIPScore 関連研究(1/2): Similarity-based metrics (埋め込み表現の類似度に基づく)

- 34 - UMIC PAC-S ⼿法概要 UMIC [Lee+, ACL21]
UNITER [Chen+, ECCV20]を⽤いてキャプション同⼠を⽐較できるように学習 PAC-S [Sarto+, CVPR23] CLIPの学習データとimage captioningの評価データとの間のドメインギャップにデータ拡張を⽤いて対処．関連研究(2/2): Learning-based metrics (学習を⾏う⾃動評価尺度)

- 35 - UMIC PAC-S ⼿法概要 UMIC [Lee+, ACL21]
UNITER [Chen+, ECCV20]を⽤いてキャプション同⼠を⽐較できるように学習 PAC-S [Sarto+, CVPR23] CLIPの学習データとimage captioningの評価データとの間のドメインギャップにデータ拡張を⽤いて対処．多様な画像およびテキストに対する汎化性能が低い (UMICはopen vocabulary設定に対応できない) 提案尺度Polosはこれらの問題点を解決し下記ベンチマークにてSOTA性能の結果 • Flickr8K-Expert • Flickr8K-CF • Composite • PASCAL50S • FOIL • Polaris 関連研究(2/2): Learning-based metrics (学習を⾏う⾃動評価尺度)

[NLP24] Polos: Multimodal Metric Learning from...

[NLP24] Polos: Multimodal Metric Learning from Human Feedback for Image Captioning

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript