Supervised Automatic Evaluation for Image Captioning Based on Multimodality

Slide 1

Slide 1 text

齋藤⼤地，和⽥唯我，兼⽥寛⼤，杉浦孔明慶應義塾⼤学マルチモーダル情報に基づく画像説明⽂の教師あり⾃動評価

Slide 2

Slide 2 text

提案：画像キャプション⽣成における⾃動評価尺度 - 2 - ■ ⽇本語の画像キャプション⽣成における⾃動評価尺度 • BLEU [Papineni+, ACL02], CIDEr [Lavie+, ACL05], JaSPICE [Wada+, CoNLL23] → ルールベースであり⼈間による評価と⼀致しない ■ 教師あり学習に基づく⾃動評価尺度SuiSeiを提案 • サンプル数103,170のデータセットで訓練 → 相関係数において既存尺度を上回る性能 CIDEr ＜ JaSPICE ＜＜SuiSei 0.312 0.499 0.672 SuiSeiのモデル図

Slide 3

Slide 3 text

提案：画像キャプション⽣成における⾃動評価尺度 - 3 - ■ ⽇本語の画像キャプション⽣成における⾃動評価尺度 • BLEU [Papineni+, ACL02], CIDEr [Lavie+, ACL05], JaSPICE [Wada+, CoNLL23] → ルールベースであり⼈間による評価と⼀致しない ■ 教師あり学習に基づく⾃動評価尺度SuiSeiを提案 • サンプル数103,170のデータセットで訓練 → 相関係数において既存尺度を上回る性能 CIDEr ＜ JaSPICE ＜＜SuiSei 0.312 0.499 0.672 SuiSeiのモデル図

Slide 4

Slide 4 text

■ 画像キャプション⽣成：画像に対する説明⽂を⽣成するタスク • 視覚障害者⽀援や医療画像解析など幅広い分野に応⽤ Ø 円滑なモデル改良のためにはこれらを適切に評価することが重要背景：画像キャプション⽣成では⽣成⽂の適切な評価が重要 - 4 「⼥の⼦がサッカーボールを蹴っている」「芝⽣で⾦髪の少⼥がボールで遊んでいる」「⼩さい⼦供が野球をしている」

Slide 5

Slide 5 text

■ 画像キャプション⽣成：画像に対する説明⽂を⽣成するタスク • 視覚障害者⽀援や医療画像解析など幅広い分野に応⽤ Ø 円滑なモデル改良のためにはこれらを適切に評価することが重要背景：画像キャプション⽣成では⽣成⽂の適切な評価が重要 - 5 様々な正解⽂が存在するため⾃動評価尺度の構築は困難「⼥の⼦がサッカーボールを蹴っている」「芝⽣で⾦髪の少⼥がボールで遊んでいる」「⼩さい⼦供が野球をしている」

Slide 6

Slide 6 text

問題設定：画像キャプション⽣成に対する⾃動評価 - 6 - ü ⼊⼒：画像，⽣成⽂，正解⽂ ü 出⼒：評価値画像キャプション⽣成モデル正解⽂：「⼦供が芝⽣でサッカーをしている」正解⽂：「⼥の⼦がサッカーボールで遊んでいる」⽣成⽂：「少⼥がサッカーをしている」

Slide 7

Slide 7 text

問題設定：画像キャプション⽣成に対する⾃動評価 - 7 - ü ⼊⼒：画像，⽣成⽂，正解⽂ ü 出⼒：評価値画像キャプション⽣成モデル正解⽂：「⼦供が芝⽣でサッカーをしている」正解⽂：「⼥の⼦がサッカーボールで遊んでいる」⽣成⽂：「少⼥がサッカーをしている」

Slide 8

Slide 8 text

問題設定：画像キャプション⽣成に対する⾃動評価 - 8 - ü ⼊⼒：画像，⽣成⽂，正解⽂ ü 出⼒：評価値画像キャプション⽣成モデル正解⽂：「⼦供が芝⽣でサッカーをしている」正解⽂：「⼥の⼦がサッカーボールで遊んでいる」⽣成⽂：「少⼥がサッカーをしている」

Slide 9

Slide 9 text

問題設定：画像キャプション⽣成に対する⾃動評価 - 9 - ü ⼊⼒：画像，⽣成⽂，正解⽂ ü 出⼒：評価値画像キャプション⽣成モデル正解⽂：「⼦供が芝⽣でサッカーをしている」正解⽂：「⼥の⼦がサッカーボールで遊んでいる」⽣成⽂：「少⼥がサッカーをしている」⾃動評価尺度評価値 ∈ 0, 1 正解⽂正解⽂⽣成⽂画像と正解⽂に対して⽣成⽂がどの程度適切か

Slide 10

Slide 10 text

問題設定：画像キャプション⽣成に対する⾃動評価 - 10 - ü ⼊⼒：画像，⽣成⽂，正解⽂ ü 出⼒：評価値画像キャプション⽣成モデル正解⽂：「⼦供が芝⽣でサッカーをしている」正解⽂：「⼥の⼦がサッカーボールで遊んでいる」⽣成⽂：「少⼥がサッカーをしている」正解⽂正解⽂⽣成⽂⾃動評価尺度評価値⼈間による評価相関係数により性能を検証

Slide 11

Slide 11 text

関連研究：既存の⾃動評価尺度は改善が必要 - 11 - ■ 𝑛-gramに基づく⾃動評価尺度 • BLEU [Papineni+, ACL02] • METEOR [Lavie+, ACL05] Ø ⼈間による評価との相関が不⼗分 ■ シーングラフに基づく⾃動評価尺度 • SPICE [Anderson+, ECCV16] • JaSPICE [Wada+, CoNLL23] Ø 単語同⼠の類似度を考慮できない JaSPICE [Wada+, CoNLL23]

Slide 12

Slide 12 text

SuiSei：教師あり学習に基づく⾃動評価尺度を提案 - 12 - ■ SuiSeiにおける新規性 1. 教師あり学習に基づき⼈間による評価を回帰 2. 画像特徴量と⾔語特徴量を扱うマルチモーダル特徴抽出機構 3. idf (inverse document frequency) を考慮した⽂埋め込み機構

Slide 13

Slide 13 text

提案⼿法 (1/2)：idfを考慮した⽂埋め込みを⽣成 ■ 事前学習済みモデルを使⽤して各特徴量を変換 • XLM-RoBERTa [Conneau+, ACL20] / CLIP [Radford+, ICML21] ■ idfを考慮した⽂埋め込み • トークンに対するidf Ø トークンごとにidfを掛け合わせる - 13 - ：正解⽂の数：⽂書頻度

Slide 14

Slide 14 text

提案⼿法 (1/2)：idfを考慮した⽂埋め込みを⽣成 • トークンに対するidf Ø トークンごとにidfを掛け合わせる - 14 - ：正解⽂の数：⽂書頻度 ■ 事前学習済みモデルを使⽤して各特徴量を変換 • XLM-RoBERTa [Conneau+, ACL20] / CLIP [Radford+, ICML21] ■ idfを考慮した⽂埋め込み

Slide 15

Slide 15 text

■ 事前学習済みモデルを使⽤して各特徴量を変換 • XLM-RoBERTa [Conneau+, ACL20] / CLIP [Radford+, ICML21] ■ idfを考慮した⽂埋め込み提案⼿法 (1/2)：idfを考慮した⽂埋め込みを⽣成 - 15 - ：正解⽂の数：⽂書頻度 • トークンに対するidf Ø トークンごとにidfを掛け合わせる

Slide 16

Slide 16 text

■ 事前学習済みモデルを使⽤して各特徴量を変換 • XLM-RoBERTa [Conneau+, ACL20] / CLIP [Radford+, ICML21] ■ idfを考慮した⽂埋め込み提案⼿法 (1/2)：idfを考慮した⽂埋め込みを⽣成 • トークンに対するidf Ø トークンごとにidfを掛け合わせる - 16 - ：正解⽂の数：⽂書頻度

Slide 17

Slide 17 text

■ 事前学習済みモデルを使⽤して各特徴量を変換 • XLM-RoBERTa [Conneau+, ACL20] / CLIP [Radford+, ICML21] ■ idfを考慮した⽂埋め込み提案⼿法 (1/2)：idfを考慮した⽂埋め込みを⽣成 • トークンに対するidf Ø トークンごとにidfを掛け合わせる - 17 - ：正解⽂の数：⽂書頻度より重要な単語に注⽬して評価値を予測 ü BERTScore [Zhang+, ICLR20]で⾃動評価尺度におけるidfの有⽤性が検証されている

Slide 18

Slide 18 text

■ 事前学習済みモデルを使⽤して各特徴量を変換 • XLM-RoBERTa [Conneau+, ACL20] / CLIP [Radford+, ICML21] ■ idfを考慮した⽂埋め込み提案⼿法 (1/2)：idfを考慮した⽂埋め込みを⽣成 • トークンに対するidf Ø トークンごとにidfを掛け合わせる - 18 - ：正解⽂の数：⽂書頻度

Slide 19

Slide 19 text

提案⼿法 (2/2)：RUSEに基づきマルチモーダルな特徴量を抽出 - 19 - ■ RUSE [Shimanaka+, WMT18]に基づき特徴量を計算類似度を捉えたベクトルを計算 Ø ⽣成⽂の評価に有⽤な特徴量の抽出⽣成⽂と正解⽂における特徴量同⼠のアダマール積と差分

Slide 20

Slide 20 text

提案⼿法 (2/2)：RUSEに基づきマルチモーダルな特徴量を抽出 - 20 - ■ RUSE [Shimanaka+, WMT18]に基づき特徴量を計算類似度を捉えたベクトルを計算 Ø ⽣成⽂の評価に有⽤な特徴量の抽出⽣成⽂と正解⽂における特徴量同⼠のアダマール積と差分

Slide 21

Slide 21 text

提案⼿法 (2/2)：RUSEに基づきマルチモーダルな特徴量を抽出 - 21 - ■ RUSE [Shimanaka+, WMT18]に基づき特徴量を計算類似度を捉えたベクトルを計算 Ø ⽣成⽂の評価に有⽤な特徴量の抽出⽣成⽂と正解⽂における特徴量同⼠のアダマール積と差分⽣成⽂と画像における特徴量同⼠のアダマール積と差分を計算

Slide 22

Slide 22 text

実験設定：2種類のデータセットで評価 - 22 - ■ データセット • [Wada+, CoNLL23]で収集された２つのデータセットを使⽤⽇本語の⾃動評価タスクで最⼤規模サンプル数：103,170 Shichimi データセットロボットに対する指⽰⽂を含むサンプル数：1,920 PFN-PIC-gen 学習，検証およびテストに使⽤テストのみに使⽤・zero-shot性能を評価

Slide 23

Slide 23 text

実験設定：2種類のデータセットで評価 - 23 - ■ データセット • [Wada+, CoNLL23]で収集された２つのデータセットを使⽤⽇本語の⾃動評価タスクで最⼤規模サンプル数：103,170 Shichimi データセットロボットに対する指⽰⽂を含むサンプル数：1,920 PFN-PIC-gen 学習，検証およびテストに使⽤テストのみに使⽤・zero-shot性能を評価

Slide 24

Slide 24 text

実験設定：2種類のデータセットで評価 - 24 - ■ データセット • [Wada+, CoNLL23]で収集された２つのデータセットを使⽤⽇本語の⾃動評価タスクで最⼤規模サンプル数：103,170 Shichimi データセットロボットに対する指⽰⽂を含むサンプル数：1,920 PFN-PIC-gen 学習，検証およびテストに使⽤テストのみに使⽤・zero-shot性能を評価 10個の標準的なモデルで⽣成⽂を作成 SAT [Xu+, ICML15] ORT [Herdade+, NeurIPS19] ℳ!-Transformer [Cornia+, CVPR20] DLCT [Luo+, AAAI21] ER-SAN [Li+, IJCAI22] ClipCapmlp [Mokady+, 21] ClipCaptrm [Mokady+, 21] Transformer𝐿 ∈ 3, 6, 12

Slide 25

Slide 25 text

- 25 - ■ Shichimi データセットにおいて性能を評価 Ø 相関係数において全てのベースライン尺度を上回る性能 Pearson↑ Spearman↑ Kendall↑ BLEU 0.296 0.343 0.260 ROUGE 0.366 0.340 0.258 METEOR 0.345 0.366 0.279 CIDEr 0.312 0.355 0.269 JaSPICE 0.499 0.531 0.413 SuiSei 0.672 0.644 0.504 ⼈間同⼠の相関 0.759 0.750 0.669 定量的結果①：Shichimi データセットでベースライン尺度を上回る

Slide 26

Slide 26 text

- 26 - ■ Shichimi データセットにおいて性能を評価 Ø JaSPICEを全ての相関係数において上回る性能 Pearson↑ Spearman↑ Kendall↑ BLEU 0.296 0.343 0.260 ROUGE 0.366 0.340 0.258 METEOR 0.345 0.366 0.279 CIDEr 0.312 0.355 0.269 JaSPICE 0.499 0.531 0.413 SuiSei 0.672 0.644 0.504 ⼈間同⼠の相関 0.759 0.750 0.669 定量的結果①：Shichimi データセットでベースライン尺度を上回る +0.173 +0.113 +0.091

Slide 27

Slide 27 text

- 27 - ■ Shichimi データセットにおいて性能を評価 Ø ⼈間同⼠の相関係数に最も近い値 Pearson↑ Spearman↑ Kendall↑ BLEU 0.296 0.343 0.260 ROUGE 0.366 0.340 0.258 METEOR 0.345 0.366 0.279 CIDEr 0.312 0.355 0.269 JaSPICE 0.499 0.531 0.413 SuiSei 0.672 0.644 0.504 ⼈間同⼠の相関 0.759 0.750 0.669 定量的結果①：Shichimi データセットでベースライン尺度を上回る ∆=0.087 ∆=0.106 ∆=0.165

Slide 28

Slide 28 text

定量的結果②：PFN-PIC-genでベースライン尺度を上回る - 28 - ■ PFN-PIC-genにおいてzero-shot性能を評価 Ø 相関係数において全てのベースライン尺度を上回る性能 Pearson↑ Spearman↑ Kendall↑ BLEU 0.484 0.466 0.352 ROUGE 0.500 0.474 0.365 METEOR 0.423 0.457 0.352 CIDEr 0.416 0.462 0.353 JaSPICE 0.547 0.573 0.438 SuiSei 0.576 0.590 0.443

Slide 29

Slide 29 text

定量的結果②：PFN-PIC-genでベースライン尺度を上回る - 29 - ■ PFN-PIC-genにおいてzero-shot性能を評価 Ø JaSPICEを全ての相関係数において上回る性能 Pearson↑ Spearman↑ Kendall↑ BLEU 0.484 0.466 0.352 ROUGE 0.500 0.474 0.365 METEOR 0.423 0.457 0.352 CIDEr 0.416 0.462 0.353 JaSPICE 0.547 0.573 0.438 SuiSei 0.576 0.590 0.443 +0.029 +0.017 +0.005

Slide 30

Slide 30 text

定性的結果：⼈間による評価に近い値を出⼒ ■ Shichimi データセットにおける結果「海岸で⼆⼈の⼥性が⾺に乗っている」「⼥性⼆⼈が⾺に乗って海岸沿いを歩いている」正解文「サングラスをかけた⼆⼈の⼥性が⾺に乗っている」生成文 - 30 -

Slide 31

Slide 31 text

定性的結果：⼈間による評価に近い値を出⼒ ■ Shichimi データセットにおける結果「海岸で⼆⼈の⼥性が⾺に乗っている」「⼥性⼆⼈が⾺に乗って海岸沿いを歩いている」正解文「サングラスをかけた⼆⼈の⼥性が⾺に乗っている」生成文⽣成⽂正解⽂① 正解⽂② ⼈間による評価：1.0（とても良い） 0.934 SuiSei - 31 -

Slide 32

Slide 32 text

Slide 33

Slide 33 text

- 33 - ■ PFN-PIC-genにおいてAblation studyを実施 • Model (i)：⼊⼒から画像を削除 • Model (ii)：idfを考慮した⽂埋め込みをFFNの⼊⼒から削除 Ablation Study：およびidfの導⼊が性能向上に寄与 Model 画像 idf Pearson↑ Spearman↑ Kendall↑ (i) ✔ 0.532 0.536 0.402 (ii) ✔ 0.517 0.515 0.386 SuiSei ✔ ✔ 0.576 0.590 0.443

Slide 34

Slide 34 text

- 34 - ■ PFN-PIC-genにおいてAblation studyを実施 • Model (i)：⼊⼒から画像を削除 • Model (ii)：idfを考慮した⽂埋め込みをFFNの⼊⼒から削除 Model 画像 idf Pearson↑ Spearman↑ Kendall↑ (i) ✔ 0.532 0.536 0.402 (ii) ✔ 0.517 0.515 0.386 SuiSei ✔ ✔ 0.576 0.590 0.443 Ablation Study：およびidfの導⼊が性能向上に寄与 +0.044 +0.054 +0.041

Slide 35

Slide 35 text

- 35 - ■ PFN-PIC-genにおいてAblation studyを実施 • Model (i)：⼊⼒から画像を削除 • Model (ii)：idfを考慮した⽂埋め込みをFFNの⼊⼒から削除 Model 画像 idf Pearson↑ Spearman↑ Kendall↑ (i) ✔ 0.532 0.536 0.402 (ii) ✔ 0.517 0.515 0.386 SuiSei ✔ ✔ 0.576 0.590 0.443 Ablation Study：およびidfの導⼊が性能向上に寄与 +0.044 +0.054 +0.041 の導⼊が性能向上に寄与

Slide 36

Slide 36 text

- 36 - ■ PFN-PIC-genにおいてAblation studyを実施 • Model (i)：⼊⼒から画像を削除 • Model (ii)：idfを考慮した⽂埋め込みをFFNの⼊⼒から削除 Ablation Study：およびidfの導⼊が性能向上に寄与 Model 画像 idf Pearson↑ Spearman↑ Kendall↑ (i) ✔ 0.532 0.536 0.402 (ii) ✔ 0.517 0.515 0.386 SuiSei ✔ ✔ 0.576 0.590 0.443 +0.059 +0.075 +0.057

Slide 37

Slide 37 text

- 37 - ■ PFN-PIC-genにおいてAblation studyを実施 • Model (i)：⼊⼒から画像を削除 • Model (ii)：idfを考慮した⽂埋め込みをFFNの⼊⼒から削除 Ablation Study：およびidfの導⼊が性能向上に寄与 Model 画像 idf Pearson↑ Spearman↑ Kendall↑ (i) ✔ 0.532 0.536 0.402 (ii) ✔ 0.517 0.515 0.386 SuiSei ✔ ✔ 0.576 0.590 0.443 +0.059 +0.075 +0.057 idfを考慮した⽂埋め込みの導⼊が性能向上に寄与

Slide 38

Slide 38 text

結論 - 38 - ■ 画像キャプション⽣成における⾃動評価尺度SuiSeiを提案 ■ 新規性 1. 教師あり学習に基づいて⼈間による評価を回帰 2. 画像特徴量と⾔語特徴量を扱うマルチモーダル特徴抽出機構 3. idfを考慮した⽂埋め込み機構 ■ 全てのベースライン尺度を上回る性能