Slide 1

Slide 1 text

Polos: 画像キャプション生成における 教師あり自動評価尺度 和田唯我, 兼田寛大, 齋藤大地, 杉浦孔明 慶應義塾大学

Slide 2

Slide 2 text

o 画像キャプション⽣成における教師あり⾃動評価尺度 Polos を提案 o 約13万サンプルの⼈間による評価 (世界最⼤の10倍) で構成されたPolarisを構築 o ベクトル間の複雑な関係を学習する提案尺度は様々なベンチマークで世界最⾼性能 o ソフトウェア・データセット公開済み→ https://yuiga.dev/polos 画像キャプション⽣成における教師あり⾃動評価尺度 - 2 - 6つのベンチマークにおいてSOTA • Flickr8K-Expert • Flickr8K-CF • Composite • PASCAL50S • FOIL • Polaris CVPR 2024 採択

Slide 3

Slide 3 text

- 3 - o 画像キャプション⽣成: 画像を説明するキャプションを⽣成 • 視覚障害者の補助 [Gurari+, ECCV20] • 画像に関する対話⽣成 [White+, EMNLP21] • 画像に基づく質問応答 [Fisch+, EMNLP20] o 様々な⽤途で社会応⽤ L 既存の⾃動評価尺度は⼈間による評価との 相関係数が低い [Wada+, CoNLL23] [Sarto+, CVPR23] A person with a red umbrella is sitting on a bench. 円滑なモデル改良には適切な評価が できる実⽤的な⾃動評価尺度が望まれる 背景 : 画像キャプション⽣成では⽣成⽂の品質評価が重要

Slide 4

Slide 4 text

- 4 - o ⼊⼒: ⽣成⽂𝒙!"#$ , 参照⽂ 𝒙 !"# (%) %'( ) , および 画像 𝑥%&' o 出⼒: 参照⽂および画像に対して,⽣成⽂𝒙!"#$ が適切であるかの評価値 o 性能の検証: ⼈間による評価との相関係数 (Kendall’s 𝜏) 問題設定 : 画像キャプション⽣成に対する⾃動評価 Image Captioning Model 𝒙 !"# (%) %'( ) 𝒙*+,- 評価値 ⼈間による評価 相関係数により 性能を検証 𝒙*+, 提案⼿法

Slide 5

Slide 5 text

- 5 - o 提案⼿法: Polos o 新規性 1. 並列クロスモーダル特徴抽出機構 2. Polosを学習するフレームワーク M2LHF 3. ⼤規模データセットPolarisを構築 • 世界最⼤の標準データセットの約10倍 • 画像キャプション⽣成における教師あり⾃動評価尺度 提案⼿法: 画像キャプション⽣成における教師あり⾃動評価尺度

Slide 6

Slide 6 text

- 6 - o 提案⼿法: Polos o 新規性 1. 並列クロスモーダル特徴抽出機構 2. Polosを学習するフレームワーク M2LHF 3. ⼤規模データセットPolarisを構築 • 世界最⼤の標準データセットの約10倍 • 画像キャプション⽣成における教師あり⾃動評価尺度 提案⼿法: 画像キャプション⽣成における教師あり⾃動評価尺度 CLIP/SimCSE [Gao+, EMNLP21]に基づき, ベクトル間の複雑な関係を学習

Slide 7

Slide 7 text

- 7 - o 提案⼿法: Polos o 新規性 1. 並列クロスモーダル特徴抽出機構 2. Polosを学習するフレームワーク M2LHF 3. ⼤規模データセットPolarisを構築 • 世界最⼤の標準データセットの約10倍 • 画像キャプション⽣成における教師あり⾃動評価尺度 提案⼿法: 画像キャプション⽣成における教師あり⾃動評価尺度 人間による評価を直接学習し より人間に近い評価を出力 M2LHF: Multimodal Metric Learning from Human Feedback

Slide 8

Slide 8 text

- 8 - o 提案⼿法: Polos o 新規性 1. 並列クロスモーダル特徴抽出機構 2. Polosを学習するフレームワーク M2LHF 3. ⼤規模データセットPolarisを構築 • 世界最⼤の標準データセットの約10倍 • 画像キャプション⽣成における教師あり⾃動評価尺度 提案⼿法: 画像キャプション⽣成における教師あり⾃動評価尺度 550⼈から収集した13万の ⼈間による評価を含む

Slide 9

Slide 9 text

o CLIPのエンコーダより特徴量を抽出 • 𝑥!"# の画像埋め込み • 𝑥$%&' , 𝑥 ()* (,) の⽂埋め込み o SimCSEで学習されたRoBERTaより抽出 • 𝑥$%&' , 𝑥 ()* (,) の⽂埋め込み - 9 - 提案⼿法: 画像キャプション⽣成における教師あり⾃動評価尺度 • CLIPはウェブから収集したalt-textで事前学習 →⾼品質な⽂埋め込みを⽣成できないことを指摘 先⾏研究: [Sarto+, CVPR23] → SimCSEで事前学習された RoBERTaを使⽤

Slide 10

Slide 10 text

- 10 - アダマール積と要素間の差分を⽤いてベクトル形式の類似度を定式化 o 並列クロスモーダル特徴抽出機構 • アダマール積と要素間の差分により𝑥!"#$ , 𝑥)*+ (-) ,𝑥%&' 間の類似度をベクトル形式で定式化 • 得られた類似度 にMLPを適⽤し,𝑖 番⽬ の参照⽂に対するスコア を得る

Slide 11

Slide 11 text

- 11 - アダマール積と要素間の差分を⽤いてベクトル形式の類似度を定式化 o 並列クロスモーダル特徴抽出機構 • アダマール積と要素間の差分により𝑥!"#$ , 𝑥)*+ (-) ,𝑥%&' 間の類似度をベクトル形式で定式化 • 得られた類似度 にMLPを適⽤し,𝑖 番⽬ の参照⽂に対するスコア を得る 機械翻訳における⾃動評価尺度である COMET [Rei+, EMNLP20] にて有効性が検証

Slide 12

Slide 12 text

- 12 - アダマール積と要素間の差分を⽤いてベクトル形式の類似度を定式化 o 並列クロスモーダル特徴抽出機構 • アダマール積と要素間の差分により𝑥!"#$ , 𝑥)*+ (-) ,𝑥%&' 間の類似度をベクトル形式で定式化 • 得られた類似度 にMLPを適⽤し,𝑖 番⽬ の参照⽂に対するスコア を得る 機械翻訳における⾃動評価尺度である COMET [Rei+, EMNLP20] にて有効性が検証

Slide 13

Slide 13 text

- 13 - アダマール積と要素間の差分を⽤いてベクトル形式の類似度を定式化 o 並列クロスモーダル特徴抽出機構 • アダマール積と要素間の差分により𝑥!"#$ , 𝑥)*+ (-) ,𝑥%&' 間の類似度をベクトル形式で定式化 • 得られた類似度 にMLPを適⽤し,𝑖 番⽬ の参照⽂に対するスコア を得る

Slide 14

Slide 14 text

- 14 - アダマール積と要素間の差分を⽤いてベクトル形式の類似度を定式化 o 並列クロスモーダル特徴抽出機構 • アダマール積と要素間の差分により𝑥!"#$ , 𝑥)*+ (-) ,𝑥%&' 間の類似度をベクトル形式で定式化 • 得られた類似度 にMLPを適⽤し,𝑖 番⽬ の参照⽂に対するスコア を得る

Slide 15

Slide 15 text

- 15 - アダマール積と要素間の差分を⽤いてベクトル形式の類似度を定式化 o 並列クロスモーダル特徴抽出機構 • アダマール積と要素間の差分により𝑥!"#$ , 𝑥)*+ (-) ,𝑥%&' 間の類似度をベクトル形式で定式化 • 得られた類似度 にMLPを適⽤し,𝑖 番⽬ の参照⽂に対するスコア を得る

Slide 16

Slide 16 text

- 16 - アダマール積と要素間の差分を⽤いてベクトル形式の類似度を定式化 o 並列クロスモーダル特徴抽出機構 • アダマール積と要素間の差分により𝑥!"#$ , 𝑥)*+ (-) ,𝑥%&' 間の類似度をベクトル形式で定式化 • 得られた類似度 にMLPを適⽤し,𝑖 番⽬ の参照⽂に対するスコア を得る

Slide 17

Slide 17 text

o 並列クロスモーダル特徴抽出機構 • ⼀般的なデータセット: 複数の参照⽂が付与されている • 𝑖 番⽬の参照⽂に対する をスカラ値 へ変換 • Aggregate関数としてMax関数を採⽤ → Ablation studyを実施 • ⼈間による評価とyから損失を計算し,⼈間に近い評価を学習 - 17 - Aggregate関数により複数の参照⽂に対するスコアを集約

Slide 18

Slide 18 text

- 18 - o クラウドソーシングサービス により評価を収集 • アノテータ : 550⼈ • 131,020 サンプル収集 o 与えられた 1 枚の画像と, 対応するキャプションの組に 対してキャプションの適切さ を 5 段階で評価 o アノテータは以下を考慮 • Fluency • Relevance • Descriptiveness Polaris データセット: アノテータ550⼈から約13万サンプル収集

Slide 19

Slide 19 text

o 18個の⾃動評価尺度・6個のベンチマークにおいて⽐較 (以下⼀部抜粋) J 現時点でのSOTA尺度 RefPAC-S [Sarto+, CVPR23] を上回る良好な結果 - 19 - 定量結果: 提案尺度がComposite, Flickr8K, PolarisにおいてSOTA Composite Flickr8K (Expert) Flickr8K(CF) Polaris MID 55.7 54.9 37.3 51.3 PAC-S 55.7 54.3 36.0 52.5 UMIC 56.1 46.8 30.1 56.0 RefPAC-S 57.3 55.9 37.6 56.0 Polos 57.6 56.4 37.8 57.8 +0.3 +0.5 +0.2 +1.8

Slide 20

Slide 20 text

o ⽣成⽂: “a bunch of bananas are hanging on a tree.” o 参照⽂: ”A framed picture of a bunch of bananas.” - 20 - 定性結果: 既存⼿法と⽐べて良好な結果 • ⼈間による評価: 0.450 • Polos: 0.513 J 提案⼿法は適切に評価 • RefPAC-S: 0.825 L RefPAC-Sは過⼤評価 “hanging on a tree”は画像からは誤り.

Slide 21

Slide 21 text

- 21 - 定性結果: 既存⼿法と⽐べて良好な結果 “cat”, “blue blanket”等の深刻な誤りを含む o ⽣成⽂: “a black and white cat sleeping on a blue blanket.” o 参照⽂: ”A cute little dog biting on something a person is holding.” • ⼈間による評価: 0.071 • Polos: 0.173 J 提案⼿法は⽐較的適切に評価 • RefPAC-S: 0.903 L RefPAC-Sは過⼤評価

Slide 22

Slide 22 text

- 22 - o 𝑃 : 並列クロスモーダル特徴抽出機構の有無 o 𝑥%&' : 画像特徴量の有無 条件 𝑷 𝒙𝐢𝐦𝐠 CLIP Aggregate Composite Flickr8K Polaris (i) ✔ ✔ Max 39.3 41.0 51.4 (ii) ✔ ✔ Max 56.8 55.5 57.1 (iii) ✔ Max 55.0 53.2 55.4 (iv) ✔ ✔ ✔ Mean 55.1 55.4 52.1 提案手法 ✔ ✔ ✔ Max 57.6 56.4 57.8 Ablation Study: 各モジュールおよび⼊⼒の性能への寄与を調査 並列クロスモーダル特徴抽出機構の有無

Slide 23

Slide 23 text

o 条件(i) : 並列クロスモーダル特徴抽出機構を削除 →並列クロスモーダル特徴抽出機構の性能への寄与を確認 条件 𝑷 𝒙𝐢𝐦𝐠 CLIP Aggregate Composite Flickr8K Polaris (i) ✔ ✔ Max 39.3 41.0 51.4 (ii) ✔ ✔ Max 56.8 55.5 57.1 (iii) ✔ Max 55.0 53.2 55.4 (iv) ✔ ✔ ✔ Mean 55.1 55.4 52.1 提案手法 ✔ ✔ ✔ Max 57.6 56.4 57.8 - 23 - +18.3 Ablation Study: 並列クロスモーダル特徴抽出機構の性能への寄与を確認 並列クロスモーダル特徴抽出機構の有無

Slide 24

Slide 24 text

- 24 - o 条件(ii) / (iii): CLIPの削除 および CLIPによる画像埋め込みを削除 → 𝒙𝐢𝐦𝐠 およびCLIPの画像エンコーダの性能への寄与を確認 条件 𝑷 𝒙𝐢𝐦𝐠 CLIP Aggregate Composite Flickr8K Polaris (i) ✔ ✔ Max 39.3 41.0 51.4 (ii) ✔ ✔ Max 56.8 55.5 57.1 (iii) ✔ Max 55.0 53.2 55.4 (iv) ✔ ✔ ✔ Mean 55.1 55.4 52.1 提案手法 ✔ ✔ ✔ Max 57.6 56.4 57.8 Ablation Study: CLIPの画像エンコーダの性能への寄与を確認 +0.8 +3.2

Slide 25

Slide 25 text

- 25 - o 条件(iv) : Aggregate関数をMax関数からMean関数へ変更 → Aggregate関数にはMax関数が最良であることを確認 条件 𝑷 𝒙𝐢𝐦𝐠 CLIP Aggregate Composite Flickr8K Polaris (i) ✔ ✔ Max 39.3 41.0 51.4 (ii) ✔ ✔ Max 56.8 55.5 57.1 (iii) ✔ Max 55.0 53.2 55.4 (iv) ✔ ✔ ✔ Mean 55.1 55.4 52.1 提案手法 ✔ ✔ ✔ Max 57.6 56.4 57.8 Ablation Study: Aggregate関数にはMax関数が最良 +2.5

Slide 26

Slide 26 text

o 画像キャプション⽣成における教師あり⾃動評価尺度 Polos を提案 o 新規性 1. 並列クロスモーダル特徴抽出機構 2. Polosを学習するフレームワーク M2LHF を提案 3. 550⼈から収集した131Kの⼈間による評価を 含む新たなデータセットPolarisを提案 まとめ: 画像キャプション⽣成における教師あり⾃動評価尺度 - 26 - 6つのベンチマークにおいてSOTA • Flickr8K-Expert • Flickr8K-CF • Composite • PASCAL50S • FOIL • Polaris

Slide 27

Slide 27 text

- 27 - Polos: Multimodal Metric Learning from Human Feedback for Image Captioning Project Page: https://yuiga.dev/polos Project Page: Polos CVPR 2024 採択

Slide 28

Slide 28 text

- 28 - 1. [Banerjee+, ACL05] Banerjee, S. and Lavie, A.: METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments, in IEEvaluation@ACL, pp. 65–72 (2005) 2. [Vedantam+, CVPR15] Vedantam, R., Zitnick, L., and Parikh, D.: CIDEr: Consensus-based Image Description Evaluation, in CVPR, pp. 4566–4575 (2015) 3. [Anderson+, ECCV16] Anderson, P., Fernando, B., et al.: SPICE: Se- mantic Propositional Image Caption Evaluation, in ECCV, pp. 382–398 (2016) 4. [Wada+, CoNLL23] Wada, Y., Kaneda, K., and Sugiura, K.: JaSPICE: Automatic Evaluation Metric Using Predicate-Argument Structures for Image Captioning Models, in CoNLL (2023) 5. [Zhang+, ICLR20] Zhang, T., Kishore, V., Wu, F., Weinberger, K. Q., and Artzi, Y.: BERTScore: Evaluating Text Generation with BERT, in ICLR (2020) 6. [Devlin+, NACCL19] Devlin, J., et al.: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, NAACL- HLT, pp. 4171–4186 (2019) 7. [Hessel+, EMNLP21] Hessel, J., et al.: CLIPScore: A Reference-free Evaluation Metric for Image Captioning, in EMNLP, pp. 7514–7528 (2021) 8. [Kim+, NeurIPS22] Kim, J.-H., Kim, Y., Lee, J., Yoo, K. M., and Lee, S.- W.: Mutual information divergence: A unified metric for multimodal generative models, NeurIPS, Vol. 35, pp. 35072–35086 (2022) 9. [Lee+, ACL21] Lee, H., Yoon, S., Dernoncourt, F., and Jung, K.: UMIC: An Unreferenced Metric for Image Captioning via Con- trastive Learning, in ACL, pp. 220–226 (2021) 10. [Sarto+, CVPR23] Sarto, S., Barraco, M., Cornia, M., Baraldi, L., and Cucchiara, R.: Positive-Augmented Contrastive Learning for Image and Video Captioning Evaluation, in CVPR, pp. 6914– 6924 (2023) 11. [Chen+, ECCV20] Chen, Y.-C., Li, L., Yu, L., El Kholy, A., Ahmed, F., Gan, Z., Cheng, Y., and Liu, J.: UNITER: Universal image-text representation learning, in ECCV, pp. 104–120 (2020) 12. [Radford+, PMLR21] Radford, A., Kim, J. W., Hallacy, C., et al.: Learning transferable visual models from natural language supervi- sion, in ICML, pp. 8748–8763 (2021) 13. [Gao+, EMNLP21] Tianyu Gao, Xingcheng Yao, and Danqi Chen. SimCSE: Simple Contrastive Learning of Sentence Embeddings. In 737 EMNLP, pages 6894–6910, 2021. 14. [Rei+, EMNLP20] Rei, R., Stewart, C., Farinha, A. C., and Lavie, A.: COMET: A Neural Framework for MT Evaluation, in EMNLP, pp. 2685–2702 (2020) 15. [Sellam+, ACL20] Sellam, T., Das, D., and Parikh, A.: BLEURT: Learning Robust Metrics for Text Generation, in ACL, pp. 7881–7892 (2020) 参考⽂献

Slide 29

Slide 29 text

29 Appendix

Slide 30

Slide 30 text

実験結果: 提案⼿法は定性・定量ともに良好な結果 - 30 - (a) Human 0.750 PAC-S 0.612 CLIP-S 0.402 Polos (Ours) 0.745 RefPAC-S 0.670 RefCLIP-S 0.703 White plate full of fries next to a sandwich. a close-up of a sandwich and some fries. A cute little dog biting on something a person is holding. A black and white cat sleeping on a blue blanket. Polos (Ours) 0.173 RefPAC-S 0.903 RefCLIP-S 0.343 Human 0.071 PAC-S 0.856 CLIP-S 0.200 (c) (b) (d) Polosは定性・定量ともに良好な結果

Slide 31

Slide 31 text

実験結果: 提案⼿法はPASCAL-50S・FOILともに良好な結果 - 31 -

Slide 32

Slide 32 text

- 32 - ⼿法 概要 BERTScore [Zhang+, ICLR20] BERT [Devlin+, NACCL19]の単語埋め込みからcosine類似 度を計算 CLIPScore [Hessel+, EMNLP21] ⼤規模対照学習により事前学習されたCLIP [Radford+, PMLR21] の埋め込み表現よりcosine類似度を計算 MID [Kim+, NeurIPS22] CLIPの埋め込み表現からNegative Gaussian Cross- Mutual Informationを⽤いて類似度を計算 BERTScore CLIPScore 関連研究(1/2): Similarity-based metrics (埋め込み表現の類似度に基づく)

Slide 33

Slide 33 text

- 33 - ⼿法 概要 BERTScore [Zhang+, ICLR20] BERT [Devlin+, NACCL19]の単語埋め込みからcosine類似 度を計算 CLIPScore [Hessel+, EMNLP21] ⼤規模対照学習により事前学習されたCLIP [Radford+, PMLR21] の埋め込み表現よりcosine類似度を計算 MID [Kim+, NeurIPS22] CLIPの埋め込み表現からNegative Gaussian Cross- Mutual Informationを⽤いて類似度を計算 古典的⼿法(cosine類似度・最適輸送)により 類似度を計算するため,性能に改善の余地あり BERTScore CLIPScore 関連研究(1/2): Similarity-based metrics (埋め込み表現の類似度に基づく)

Slide 34

Slide 34 text

- 34 - UMIC PAC-S ⼿法 概要 UMIC [Lee+, ACL21] UNITER [Chen+, ECCV20]を⽤いてキャプション同⼠を⽐較 できるように学習 PAC-S [Sarto+, CVPR23] CLIPの学習データとimage captioningの評価データと の間のドメインギャップにデータ拡張を⽤いて対処. 関連研究(2/2): Learning-based metrics (学習を⾏う⾃動評価尺度)

Slide 35

Slide 35 text

- 35 - UMIC PAC-S ⼿法 概要 UMIC [Lee+, ACL21] UNITER [Chen+, ECCV20]を⽤いてキャプション同⼠を⽐較 できるように学習 PAC-S [Sarto+, CVPR23] CLIPの学習データとimage captioningの評価データと の間のドメインギャップにデータ拡張を⽤いて対処. 多様な画像およびテキストに対する汎化性能が低い (UMICはopen vocabulary設定に対応できない) 提案尺度Polosはこれらの問題点を解決し 下記ベンチマークにてSOTA性能の結果 • Flickr8K-Expert • Flickr8K-CF • Composite • PASCAL50S • FOIL • Polaris 関連研究(2/2): Learning-based metrics (学習を⾏う⾃動評価尺度)