Supervised Automatic Evaluation for Image Captioning Based on Multimodality

齋藤⼤地，和⽥唯我，兼⽥寛⼤，杉浦孔明慶應義塾⼤学マルチモーダル情報に基づく画像説明⽂の教師あり⾃動評価

提案：画像キャプション⽣成における⾃動評価尺度 - 2 - ▪ ⽇本語の画像キャプション⽣成における⾃動評価尺度 • BLEU [Papineni+, ACL02],
CIDEr [Lavie+, ACL05], JaSPICE [Wada+, CoNLL23] → ルールベースであり⼈間による評価と⼀致しない ▪ 教師あり学習に基づく⾃動評価尺度SuiSeiを提案 • サンプル数103,170のデータセットで訓練 → 相関係数において既存尺度を上回る性能 CIDEr ＜ JaSPICE ＜＜SuiSei 0.312 0.499 0.672 SuiSeiのモデル図

提案：画像キャプション⽣成における⾃動評価尺度 - 3 - ▪ ⽇本語の画像キャプション⽣成における⾃動評価尺度 • BLEU [Papineni+, ACL02],
CIDEr [Lavie+, ACL05], JaSPICE [Wada+, CoNLL23] → ルールベースであり⼈間による評価と⼀致しない ▪ 教師あり学習に基づく⾃動評価尺度SuiSeiを提案 • サンプル数103,170のデータセットで訓練 → 相関係数において既存尺度を上回る性能 CIDEr ＜ JaSPICE ＜＜SuiSei 0.312 0.499 0.672 SuiSeiのモデル図

▪ 画像キャプション⽣成：画像に対する説明⽂を⽣成するタスク • 視覚障害者⽀援や医療画像解析など幅広い分野に応⽤ Ø 円滑なモデル改良のためにはこれらを適切に評価することが重要背景：画像キャプション⽣成では⽣成⽂の適切な評価が重要 - 4 「⼥の⼦がサッカーボールを蹴っている」
「芝⽣で⾦髪の少⼥がボールで遊んでいる」「⼩さい⼦供が野球をしている」

▪ 画像キャプション⽣成：画像に対する説明⽂を⽣成するタスク • 視覚障害者⽀援や医療画像解析など幅広い分野に応⽤ Ø 円滑なモデル改良のためにはこれらを適切に評価することが重要背景：画像キャプション⽣成では⽣成⽂の適切な評価が重要 - 5 様々な正解⽂が存在するため⾃動評価尺度の構築は困難
「⼥の⼦がサッカーボールを蹴っている」「芝⽣で⾦髪の少⼥がボールで遊んでいる」「⼩さい⼦供が野球をしている」

問題設定：画像キャプション⽣成に対する⾃動評価 - 6 - ü ⼊⼒：画像，⽣成⽂，正解⽂ ü 出⼒：評価値
画像キャプション⽣成モデル正解⽂：「⼦供が芝⽣でサッカーをしている」正解⽂：「⼥の⼦がサッカーボールで遊んでいる」⽣成⽂：「少⼥がサッカーをしている」

画像キャプション⽣成モデル正解⽂：「⼦供が芝⽣でサッカーをしている」正解⽂：「⼥の⼦がサッカーボールで遊んでいる」⽣成⽂：「少⼥がサッカーをしている」⾃動評価尺度評価値 ∈ 0, 1 正解⽂正解⽂⽣成⽂画像と正解⽂に対して⽣成⽂がどの程度適切か

画像キャプション⽣成モデル正解⽂：「⼦供が芝⽣でサッカーをしている」正解⽂：「⼥の⼦がサッカーボールで遊んでいる」⽣成⽂：「少⼥がサッカーをしている」正解⽂正解⽂⽣成⽂⾃動評価尺度評価値⼈間による評価相関係数により性能を検証

関連研究：既存の⾃動評価尺度は改善が必要 - 11 - ▪ 𝑛-gramに基づく⾃動評価尺度 • BLEU [Papineni+, ACL02]
• METEOR [Lavie+, ACL05] Ø ⼈間による評価との相関が不⼗分 ▪ シーングラフに基づく⾃動評価尺度 • SPICE [Anderson+, ECCV16] • JaSPICE [Wada+, CoNLL23] Ø 単語同⼠の類似度を考慮できない JaSPICE [Wada+, CoNLL23]

SuiSei：教師あり学習に基づく⾃動評価尺度を提案 - 12 - ▪ SuiSeiにおける新規性 1. 教師あり学習に基づき⼈間による評価を回帰 2. 画像特徴量と⾔語特徴量を扱う
マルチモーダル特徴抽出機構 3. idf (inverse document frequency) を考慮した⽂埋め込み機構

提案⼿法 (1/2)：idfを考慮した⽂埋め込みを⽣成 ▪ 事前学習済みモデルを使⽤して各特徴量を変換 • XLM-RoBERTa [Conneau+, ACL20] / CLIP
[Radford+, ICML21] ▪ idfを考慮した⽂埋め込み • トークンに対するidf Ø トークンごとにidfを掛け合わせる - 13 - ：正解⽂の数：⽂書頻度

提案⼿法 (1/2)：idfを考慮した⽂埋め込みを⽣成 • トークンに対するidf Ø トークンごとにidfを掛け合わせる - 14 -
：正解⽂の数：⽂書頻度 ▪ 事前学習済みモデルを使⽤して各特徴量を変換 • XLM-RoBERTa [Conneau+, ACL20] / CLIP [Radford+, ICML21] ▪ idfを考慮した⽂埋め込み

▪ 事前学習済みモデルを使⽤して各特徴量を変換 • XLM-RoBERTa [Conneau+, ACL20] / CLIP [Radford+, ICML21]
▪ idfを考慮した⽂埋め込み提案⼿法 (1/2)：idfを考慮した⽂埋め込みを⽣成 - 15 - ：正解⽂の数：⽂書頻度 • トークンに対するidf Ø トークンごとにidfを掛け合わせる

▪ idfを考慮した⽂埋め込み提案⼿法 (1/2)：idfを考慮した⽂埋め込みを⽣成 • トークンに対するidf Ø トークンごとにidfを掛け合わせる - 16 - ：正解⽂の数：⽂書頻度

▪ idfを考慮した⽂埋め込み提案⼿法 (1/2)：idfを考慮した⽂埋め込みを⽣成 • トークンに対するidf Ø トークンごとにidfを掛け合わせる - 17 - ：正解⽂の数：⽂書頻度より重要な単語に注⽬して評価値を予測 ü BERTScore [Zhang+, ICLR20]で⾃動評価尺度におけるidfの有⽤性が検証されている

▪ idfを考慮した⽂埋め込み提案⼿法 (1/2)：idfを考慮した⽂埋め込みを⽣成 • トークンに対するidf Ø トークンごとにidfを掛け合わせる - 18 - ：正解⽂の数：⽂書頻度

提案⼿法 (2/2)：RUSEに基づきマルチモーダルな特徴量を抽出 - 19 - ▪ RUSE [Shimanaka+, WMT18]に基づき特徴量を計算
類似度を捉えたベクトルを計算 Ø ⽣成⽂の評価に有⽤な特徴量の抽出⽣成⽂と正解⽂における特徴量同⼠のアダマール積と差分

類似度を捉えたベクトルを計算 Ø ⽣成⽂の評価に有⽤な特徴量の抽出⽣成⽂と正解⽂における特徴量同⼠のアダマール積と差分

類似度を捉えたベクトルを計算 Ø ⽣成⽂の評価に有⽤な特徴量の抽出⽣成⽂と正解⽂における特徴量同⼠のアダマール積と差分⽣成⽂と画像における特徴量同⼠のアダマール積と差分を計算

実験設定：2種類のデータセットで評価 - 22 - ▪ データセット • [Wada+, CoNLL23]で収集された２つのデータセットを使⽤⽇本語の⾃動評価タスクで最⼤規模
サンプル数：103,170 Shichimi データセットロボットに対する指⽰⽂を含むサンプル数：1,920 PFN-PIC-gen 学習，検証およびテストに使⽤テストのみに使⽤・zero-shot性能を評価

サンプル数：103,170 Shichimi データセットロボットに対する指⽰⽂を含むサンプル数：1,920 PFN-PIC-gen 学習，検証およびテストに使⽤テストのみに使⽤・zero-shot性能を評価

サンプル数：103,170 Shichimi データセットロボットに対する指⽰⽂を含むサンプル数：1,920 PFN-PIC-gen 学習，検証およびテストに使⽤テストのみに使⽤・zero-shot性能を評価 10個の標準的なモデルで⽣成⽂を作成 SAT [Xu+, ICML15] ORT [Herdade+, NeurIPS19] ℳ!-Transformer [Cornia+, CVPR20] DLCT [Luo+, AAAI21] ER-SAN [Li+, IJCAI22] ClipCapmlp [Mokady+, 21] ClipCaptrm [Mokady+, 21] Transformer𝐿 ∈ 3, 6, 12

- 25 - ▪ Shichimi データセットにおいて性能を評価 Ø 相関係数において全てのベースライン尺度を上回る性能 Pearson↑ Spearman↑
Kendall↑ BLEU 0.296 0.343 0.260 ROUGE 0.366 0.340 0.258 METEOR 0.345 0.366 0.279 CIDEr 0.312 0.355 0.269 JaSPICE 0.499 0.531 0.413 SuiSei 0.672 0.644 0.504 ⼈間同⼠の相関 0.759 0.750 0.669 定量的結果①：Shichimi データセットでベースライン尺度を上回る

- 26 - ▪ Shichimi データセットにおいて性能を評価 Ø JaSPICEを全ての相関係数において上回る性能 Pearson↑ Spearman↑
Kendall↑ BLEU 0.296 0.343 0.260 ROUGE 0.366 0.340 0.258 METEOR 0.345 0.366 0.279 CIDEr 0.312 0.355 0.269 JaSPICE 0.499 0.531 0.413 SuiSei 0.672 0.644 0.504 ⼈間同⼠の相関 0.759 0.750 0.669 定量的結果①：Shichimi データセットでベースライン尺度を上回る +0.173 +0.113 +0.091

- 27 - ▪ Shichimi データセットにおいて性能を評価 Ø ⼈間同⼠の相関係数に最も近い値 Pearson↑ Spearman↑
Kendall↑ BLEU 0.296 0.343 0.260 ROUGE 0.366 0.340 0.258 METEOR 0.345 0.366 0.279 CIDEr 0.312 0.355 0.269 JaSPICE 0.499 0.531 0.413 SuiSei 0.672 0.644 0.504 ⼈間同⼠の相関 0.759 0.750 0.669 定量的結果①：Shichimi データセットでベースライン尺度を上回る ∆=0.087 ∆=0.106 ∆=0.165

定量的結果②：PFN-PIC-genでベースライン尺度を上回る - 28 - ▪ PFN-PIC-genにおいてzero-shot性能を評価 Ø 相関係数において全てのベースライン尺度を上回る性能 Pearson↑ Spearman↑
Kendall↑ BLEU 0.484 0.466 0.352 ROUGE 0.500 0.474 0.365 METEOR 0.423 0.457 0.352 CIDEr 0.416 0.462 0.353 JaSPICE 0.547 0.573 0.438 SuiSei 0.576 0.590 0.443

定量的結果②：PFN-PIC-genでベースライン尺度を上回る - 29 - ▪ PFN-PIC-genにおいてzero-shot性能を評価 Ø JaSPICEを全ての相関係数において上回る性能 Pearson↑ Spearman↑
Kendall↑ BLEU 0.484 0.466 0.352 ROUGE 0.500 0.474 0.365 METEOR 0.423 0.457 0.352 CIDEr 0.416 0.462 0.353 JaSPICE 0.547 0.573 0.438 SuiSei 0.576 0.590 0.443 +0.029 +0.017 +0.005

定性的結果：⼈間による評価に近い値を出⼒ ▪ Shichimi データセットにおける結果「海岸で⼆⼈の⼥性が⾺に乗っている」「⼥性⼆⼈が⾺に乗って海岸沿いを歩いている」正解文「サングラスをかけた⼆⼈の⼥性が⾺に乗っている」生成文
- 30 -

⽣成⽂正解⽂① 正解⽂② ⼈間による評価：1.0（とても良い） 0.934 SuiSei - 31 -

⽣成⽂正解⽂① 正解⽂② ⼈間による評価：1.0（とても良い） 0.934 SuiSei - 32 - テスト集合において上位6%の値 Ø ⼈間による評価に近い値

- 33 - ▪ PFN-PIC-genにおいてAblation studyを実施 • Model (i)：⼊⼒から画像を削除
• Model (ii)：idfを考慮した⽂埋め込みをFFNの⼊⼒から削除 Ablation Study：およびidfの導⼊が性能向上に寄与 Model 画像 idf Pearson↑ Spearman↑ Kendall↑ (i) ✔ 0.532 0.536 0.402 (ii) ✔ 0.517 0.515 0.386 SuiSei ✔ ✔ 0.576 0.590 0.443

• Model (ii)：idfを考慮した⽂埋め込みをFFNの⼊⼒から削除 Model 画像 idf Pearson↑ Spearman↑ Kendall↑ (i) ✔ 0.532 0.536 0.402 (ii) ✔ 0.517 0.515 0.386 SuiSei ✔ ✔ 0.576 0.590 0.443 Ablation Study：およびidfの導⼊が性能向上に寄与 +0.044 +0.054 +0.041

• Model (ii)：idfを考慮した⽂埋め込みをFFNの⼊⼒から削除 Model 画像 idf Pearson↑ Spearman↑ Kendall↑ (i) ✔ 0.532 0.536 0.402 (ii) ✔ 0.517 0.515 0.386 SuiSei ✔ ✔ 0.576 0.590 0.443 Ablation Study：およびidfの導⼊が性能向上に寄与 +0.044 +0.054 +0.041 の導⼊が性能向上に寄与

• Model (ii)：idfを考慮した⽂埋め込みをFFNの⼊⼒から削除 Ablation Study：およびidfの導⼊が性能向上に寄与 Model 画像 idf Pearson↑ Spearman↑ Kendall↑ (i) ✔ 0.532 0.536 0.402 (ii) ✔ 0.517 0.515 0.386 SuiSei ✔ ✔ 0.576 0.590 0.443 +0.059 +0.075 +0.057

• Model (ii)：idfを考慮した⽂埋め込みをFFNの⼊⼒から削除 Ablation Study：およびidfの導⼊が性能向上に寄与 Model 画像 idf Pearson↑ Spearman↑ Kendall↑ (i) ✔ 0.532 0.536 0.402 (ii) ✔ 0.517 0.515 0.386 SuiSei ✔ ✔ 0.576 0.590 0.443 +0.059 +0.075 +0.057 idfを考慮した⽂埋め込みの導⼊が性能向上に寄与

結論 - 38 - ▪ 画像キャプション⽣成における⾃動評価尺度SuiSeiを提案 ▪ 新規性 1. 教師あり学習に基づいて⼈間による評価を回帰
2. 画像特徴量と⾔語特徴量を扱うマルチモーダル特徴抽出機構 3. idfを考慮した⽂埋め込み機構 ▪ 全てのベースライン尺度を上回る性能

Supervised Automatic Evaluation for Image Capti...

Supervised Automatic Evaluation for Image Captioning Based on Multimodality

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

齋藤⼤地，和⽥唯我，兼⽥寛⼤，杉浦孔明慶應義塾⼤学マルチモーダル情報に基づく画像説明⽂の教師あり⾃動評価

提案：画像キャプション⽣成における⾃動評価尺度 - 2 - ▪ ⽇本語の画像キャプション⽣成における⾃動評価尺度 • BLEU [Papineni+, ACL02],

提案：画像キャプション⽣成における⾃動評価尺度 - 3 - ▪ ⽇本語の画像キャプション⽣成における⾃動評価尺度 • BLEU [Papineni+, ACL02],

問題設定：画像キャプション⽣成に対する⾃動評価 - 6 - ü ⼊⼒：画像，⽣成⽂，正解⽂ ü 出⼒：評価値

問題設定：画像キャプション⽣成に対する⾃動評価 - 7 - ü ⼊⼒：画像，⽣成⽂，正解⽂ ü 出⼒：評価値

問題設定：画像キャプション⽣成に対する⾃動評価 - 8 - ü ⼊⼒：画像，⽣成⽂，正解⽂ ü 出⼒：評価値

問題設定：画像キャプション⽣成に対する⾃動評価 - 9 - ü ⼊⼒：画像，⽣成⽂，正解⽂ ü 出⼒：評価値

問題設定：画像キャプション⽣成に対する⾃動評価 - 10 - ü ⼊⼒：画像，⽣成⽂，正解⽂ ü 出⼒：評価値

関連研究：既存の⾃動評価尺度は改善が必要 - 11 - ▪ 𝑛-gramに基づく⾃動評価尺度 • BLEU [Papineni+, ACL02]

SuiSei：教師あり学習に基づく⾃動評価尺度を提案 - 12 - ▪ SuiSeiにおける新規性 1. 教師あり学習に基づき⼈間による評価を回帰 2. 画像特徴量と⾔語特徴量を扱う

提案⼿法 (1/2)：idfを考慮した⽂埋め込みを⽣成 ▪ 事前学習済みモデルを使⽤して各特徴量を変換 • XLM-RoBERTa [Conneau+, ACL20] / CLIP

提案⼿法 (1/2)：idfを考慮した⽂埋め込みを⽣成 • トークンに対するidf Ø トークンごとにidfを掛け合わせる - 14 -

▪ 事前学習済みモデルを使⽤して各特徴量を変換 • XLM-RoBERTa [Conneau+, ACL20] / CLIP [Radford+, ICML21]

▪ 事前学習済みモデルを使⽤して各特徴量を変換 • XLM-RoBERTa [Conneau+, ACL20] / CLIP [Radford+, ICML21]

▪ 事前学習済みモデルを使⽤して各特徴量を変換 • XLM-RoBERTa [Conneau+, ACL20] / CLIP [Radford+, ICML21]

▪ 事前学習済みモデルを使⽤して各特徴量を変換 • XLM-RoBERTa [Conneau+, ACL20] / CLIP [Radford+, ICML21]

提案⼿法 (2/2)：RUSEに基づきマルチモーダルな特徴量を抽出 - 19 - ▪ RUSE [Shimanaka+, WMT18]に基づき特徴量を計算

提案⼿法 (2/2)：RUSEに基づきマルチモーダルな特徴量を抽出 - 20 - ▪ RUSE [Shimanaka+, WMT18]に基づき特徴量を計算

提案⼿法 (2/2)：RUSEに基づきマルチモーダルな特徴量を抽出 - 21 - ▪ RUSE [Shimanaka+, WMT18]に基づき特徴量を計算

実験設定：2種類のデータセットで評価 - 22 - ▪ データセット • [Wada+, CoNLL23]で収集された２つのデータセットを使⽤⽇本語の⾃動評価タスクで最⼤規模

実験設定：2種類のデータセットで評価 - 23 - ▪ データセット • [Wada+, CoNLL23]で収集された２つのデータセットを使⽤⽇本語の⾃動評価タスクで最⼤規模

実験設定：2種類のデータセットで評価 - 24 - ▪ データセット • [Wada+, CoNLL23]で収集された２つのデータセットを使⽤⽇本語の⾃動評価タスクで最⼤規模

- 25 - ▪ Shichimi データセットにおいて性能を評価 Ø 相関係数において全てのベースライン尺度を上回る性能 Pearson↑ Spearman↑

- 26 - ▪ Shichimi データセットにおいて性能を評価 Ø JaSPICEを全ての相関係数において上回る性能 Pearson↑ Spearman↑

- 27 - ▪ Shichimi データセットにおいて性能を評価 Ø ⼈間同⼠の相関係数に最も近い値 Pearson↑ Spearman↑

定量的結果②：PFN-PIC-genでベースライン尺度を上回る - 28 - ▪ PFN-PIC-genにおいてzero-shot性能を評価 Ø 相関係数において全てのベースライン尺度を上回る性能 Pearson↑ Spearman↑

定量的結果②：PFN-PIC-genでベースライン尺度を上回る - 29 - ▪ PFN-PIC-genにおいてzero-shot性能を評価 Ø JaSPICEを全ての相関係数において上回る性能 Pearson↑ Spearman↑

- 33 - ▪ PFN-PIC-genにおいてAblation studyを実施 • Model (i)：⼊⼒から画像を削除

- 34 - ▪ PFN-PIC-genにおいてAblation studyを実施 • Model (i)：⼊⼒から画像を削除

- 35 - ▪ PFN-PIC-genにおいてAblation studyを実施 • Model (i)：⼊⼒から画像を削除

- 36 - ▪ PFN-PIC-genにおいてAblation studyを実施 • Model (i)：⼊⼒から画像を削除

- 37 - ▪ PFN-PIC-genにおいてAblation studyを実施 • Model (i)：⼊⼒から画像を削除

結論 - 38 - ▪ 画像キャプション⽣成における⾃動評価尺度SuiSeiを提案 ▪ 新規性 1. 教師あり学習に基づいて⼈間による評価を回帰