Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Supervised Automatic Evaluation for Image Captioning Based on Multimodality

Supervised Automatic Evaluation for Image Captioning Based on Multimodality

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 提案:画像キャプション⽣成における⾃動評価尺度 - 2 - ▪ ⽇本語の画像キャプション⽣成における⾃動評価尺度 • BLEU [Papineni+, ACL02],

    CIDEr [Lavie+, ACL05], JaSPICE [Wada+, CoNLL23] → ルールベースであり⼈間による評価と⼀致しない ▪ 教師あり学習に基づく⾃動評価尺度SuiSeiを提案 • サンプル数103,170のデータセットで訓練 → 相関係数において既存尺度を上回る性能 CIDEr < JaSPICE <<SuiSei 0.312 0.499 0.672 SuiSeiのモデル図
  2. 提案:画像キャプション⽣成における⾃動評価尺度 - 3 - ▪ ⽇本語の画像キャプション⽣成における⾃動評価尺度 • BLEU [Papineni+, ACL02],

    CIDEr [Lavie+, ACL05], JaSPICE [Wada+, CoNLL23] → ルールベースであり⼈間による評価と⼀致しない ▪ 教師あり学習に基づく⾃動評価尺度SuiSeiを提案 • サンプル数103,170のデータセットで訓練 → 相関係数において既存尺度を上回る性能 CIDEr < JaSPICE <<SuiSei 0.312 0.499 0.672 SuiSeiのモデル図
  3. 問題設定:画像キャプション⽣成に対する⾃動評価 - 6 - ü ⼊⼒:画像 ,⽣成⽂ ,正解⽂ ü 出⼒:評価値

    画像キャプション ⽣成モデル 正解⽂ :「⼦供が芝⽣でサッカーをしている」 正解⽂ :「⼥の⼦がサッカーボールで遊んでいる」 ⽣成⽂ :「少⼥がサッカーをしている」
  4. 問題設定:画像キャプション⽣成に対する⾃動評価 - 7 - ü ⼊⼒:画像 ,⽣成⽂ ,正解⽂ ü 出⼒:評価値

    画像キャプション ⽣成モデル 正解⽂ :「⼦供が芝⽣でサッカーをしている」 正解⽂ :「⼥の⼦がサッカーボールで遊んでいる」 ⽣成⽂ :「少⼥がサッカーをしている」
  5. 問題設定:画像キャプション⽣成に対する⾃動評価 - 8 - ü ⼊⼒:画像 ,⽣成⽂ ,正解⽂ ü 出⼒:評価値

    画像キャプション ⽣成モデル 正解⽂ :「⼦供が芝⽣でサッカーをしている」 正解⽂ :「⼥の⼦がサッカーボールで遊んでいる」 ⽣成⽂ :「少⼥がサッカーをしている」
  6. 問題設定:画像キャプション⽣成に対する⾃動評価 - 9 - ü ⼊⼒:画像 ,⽣成⽂ ,正解⽂ ü 出⼒:評価値

    画像キャプション ⽣成モデル 正解⽂ :「⼦供が芝⽣でサッカーをしている」 正解⽂ :「⼥の⼦がサッカーボールで遊んでいる」 ⽣成⽂ :「少⼥がサッカーをしている」 ⾃動評価尺度 評価値 ∈ 0, 1 正解⽂ 正解⽂ ⽣成⽂ 画像と正解⽂に対して ⽣成⽂がどの程度適切か
  7. 問題設定:画像キャプション⽣成に対する⾃動評価 - 10 - ü ⼊⼒:画像 ,⽣成⽂ ,正解⽂ ü 出⼒:評価値

    画像キャプション ⽣成モデル 正解⽂ :「⼦供が芝⽣でサッカーをしている」 正解⽂ :「⼥の⼦がサッカーボールで遊んでいる」 ⽣成⽂ :「少⼥がサッカーをしている」 正解⽂ 正解⽂ ⽣成⽂ ⾃動評価尺度 評価値 ⼈間による評価 相関係数により性能を検証
  8. 関連研究:既存の⾃動評価尺度は改善が必要 - 11 - ▪ 𝑛-gramに基づく⾃動評価尺度 • BLEU [Papineni+, ACL02]

    • METEOR [Lavie+, ACL05] Ø ⼈間による評価との相関が不⼗分 ▪ シーングラフに基づく⾃動評価尺度 • SPICE [Anderson+, ECCV16] • JaSPICE [Wada+, CoNLL23] Ø 単語同⼠の類似度を考慮できない JaSPICE [Wada+, CoNLL23]
  9. 提案⼿法 (1/2):idfを考慮した⽂埋め込みを⽣成 ▪ 事前学習済みモデルを使⽤して各特徴量を変換 • XLM-RoBERTa [Conneau+, ACL20] / CLIP

    [Radford+, ICML21] ▪ idfを考慮した⽂埋め込み • トークン に対するidf Ø トークンごとにidfを掛け合わせる - 13 - :正解⽂の数 :⽂書頻度
  10. 提案⼿法 (1/2):idfを考慮した⽂埋め込みを⽣成 • トークン に対するidf Ø トークンごとにidfを掛け合わせる - 14 -

    :正解⽂の数 :⽂書頻度 ▪ 事前学習済みモデルを使⽤して各特徴量を変換 • XLM-RoBERTa [Conneau+, ACL20] / CLIP [Radford+, ICML21] ▪ idfを考慮した⽂埋め込み
  11. ▪ 事前学習済みモデルを使⽤して各特徴量を変換 • XLM-RoBERTa [Conneau+, ACL20] / CLIP [Radford+, ICML21]

    ▪ idfを考慮した⽂埋め込み 提案⼿法 (1/2):idfを考慮した⽂埋め込みを⽣成 - 15 - :正解⽂の数 :⽂書頻度 • トークン に対するidf Ø トークンごとにidfを掛け合わせる
  12. ▪ 事前学習済みモデルを使⽤して各特徴量を変換 • XLM-RoBERTa [Conneau+, ACL20] / CLIP [Radford+, ICML21]

    ▪ idfを考慮した⽂埋め込み 提案⼿法 (1/2):idfを考慮した⽂埋め込みを⽣成 • トークン に対するidf Ø トークンごとにidfを掛け合わせる - 16 - :正解⽂の数 :⽂書頻度
  13. ▪ 事前学習済みモデルを使⽤して各特徴量を変換 • XLM-RoBERTa [Conneau+, ACL20] / CLIP [Radford+, ICML21]

    ▪ idfを考慮した⽂埋め込み 提案⼿法 (1/2):idfを考慮した⽂埋め込みを⽣成 • トークン に対するidf Ø トークンごとにidfを掛け合わせる - 17 - :正解⽂の数 :⽂書頻度 より重要な単語に注⽬して評価値を予測 ü BERTScore [Zhang+, ICLR20]で⾃動評価尺度 におけるidfの有⽤性が検証されている
  14. ▪ 事前学習済みモデルを使⽤して各特徴量を変換 • XLM-RoBERTa [Conneau+, ACL20] / CLIP [Radford+, ICML21]

    ▪ idfを考慮した⽂埋め込み 提案⼿法 (1/2):idfを考慮した⽂埋め込みを⽣成 • トークン に対するidf Ø トークンごとにidfを掛け合わせる - 18 - :正解⽂の数 :⽂書頻度
  15. 提案⼿法 (2/2):RUSEに基づきマルチモーダルな特徴量を抽出 - 19 - ▪ RUSE [Shimanaka+, WMT18]に基づき特徴量 を計算

    類似度を捉えたベクトルを計算 Ø ⽣成⽂の評価に有⽤な特徴量の抽出 ⽣成⽂と正解⽂における特徴量 同⼠のアダマール積と差分
  16. 提案⼿法 (2/2):RUSEに基づきマルチモーダルな特徴量を抽出 - 20 - ▪ RUSE [Shimanaka+, WMT18]に基づき特徴量 を計算

    類似度を捉えたベクトルを計算 Ø ⽣成⽂の評価に有⽤な特徴量の抽出 ⽣成⽂と正解⽂における特徴量 同⼠のアダマール積と差分
  17. 提案⼿法 (2/2):RUSEに基づきマルチモーダルな特徴量を抽出 - 21 - ▪ RUSE [Shimanaka+, WMT18]に基づき特徴量 を計算

    類似度を捉えたベクトルを計算 Ø ⽣成⽂の評価に有⽤な特徴量の抽出 ⽣成⽂と正解⽂における特徴量 同⼠のアダマール積と差分 ⽣成⽂と画像における特徴量同⼠ のアダマール積と差分を計算
  18. 実験設定:2種類のデータセットで評価 - 22 - ▪ データセット • [Wada+, CoNLL23]で収集された2つのデータセットを使⽤ ⽇本語の⾃動評価タスクで最⼤規模

    サンプル数:103,170 Shichimi データセット ロボットに対する指⽰⽂を含む サンプル数:1,920 PFN-PIC-gen 学習,検証およびテストに使⽤ テストのみに使⽤・zero-shot性能を評価
  19. 実験設定:2種類のデータセットで評価 - 23 - ▪ データセット • [Wada+, CoNLL23]で収集された2つのデータセットを使⽤ ⽇本語の⾃動評価タスクで最⼤規模

    サンプル数:103,170 Shichimi データセット ロボットに対する指⽰⽂を含む サンプル数:1,920 PFN-PIC-gen 学習,検証およびテストに使⽤ テストのみに使⽤・zero-shot性能を評価
  20. 実験設定:2種類のデータセットで評価 - 24 - ▪ データセット • [Wada+, CoNLL23]で収集された2つのデータセットを使⽤ ⽇本語の⾃動評価タスクで最⼤規模

    サンプル数:103,170 Shichimi データセット ロボットに対する指⽰⽂を含む サンプル数:1,920 PFN-PIC-gen 学習,検証およびテストに使⽤ テストのみに使⽤・zero-shot性能を評価 10個の標準的なモデルで⽣成⽂を作成 SAT [Xu+, ICML15] ORT [Herdade+, NeurIPS19] ℳ!-Transformer [Cornia+, CVPR20] DLCT [Luo+, AAAI21] ER-SAN [Li+, IJCAI22] ClipCapmlp [Mokady+, 21] ClipCaptrm [Mokady+, 21] Transformer𝐿 ∈ 3, 6, 12
  21. - 25 - ▪ Shichimi データセットにおいて性能を評価 Ø 相関係数において全てのベースライン尺度を上回る性能 Pearson↑ Spearman↑

    Kendall↑ BLEU 0.296 0.343 0.260 ROUGE 0.366 0.340 0.258 METEOR 0.345 0.366 0.279 CIDEr 0.312 0.355 0.269 JaSPICE 0.499 0.531 0.413 SuiSei 0.672 0.644 0.504 ⼈間同⼠の相関 0.759 0.750 0.669 定量的結果①:Shichimi データセットでベースライン尺度を上回る
  22. - 26 - ▪ Shichimi データセットにおいて性能を評価 Ø JaSPICEを全ての相関係数において上回る性能 Pearson↑ Spearman↑

    Kendall↑ BLEU 0.296 0.343 0.260 ROUGE 0.366 0.340 0.258 METEOR 0.345 0.366 0.279 CIDEr 0.312 0.355 0.269 JaSPICE 0.499 0.531 0.413 SuiSei 0.672 0.644 0.504 ⼈間同⼠の相関 0.759 0.750 0.669 定量的結果①:Shichimi データセットでベースライン尺度を上回る +0.173 +0.113 +0.091
  23. - 27 - ▪ Shichimi データセットにおいて性能を評価 Ø ⼈間同⼠の相関係数に最も近い値 Pearson↑ Spearman↑

    Kendall↑ BLEU 0.296 0.343 0.260 ROUGE 0.366 0.340 0.258 METEOR 0.345 0.366 0.279 CIDEr 0.312 0.355 0.269 JaSPICE 0.499 0.531 0.413 SuiSei 0.672 0.644 0.504 ⼈間同⼠の相関 0.759 0.750 0.669 定量的結果①:Shichimi データセットでベースライン尺度を上回る ∆=0.087 ∆=0.106 ∆=0.165
  24. 定量的結果②:PFN-PIC-genでベースライン尺度を上回る - 28 - ▪ PFN-PIC-genにおいてzero-shot性能を評価 Ø 相関係数において全てのベースライン尺度を上回る性能 Pearson↑ Spearman↑

    Kendall↑ BLEU 0.484 0.466 0.352 ROUGE 0.500 0.474 0.365 METEOR 0.423 0.457 0.352 CIDEr 0.416 0.462 0.353 JaSPICE 0.547 0.573 0.438 SuiSei 0.576 0.590 0.443
  25. 定量的結果②:PFN-PIC-genでベースライン尺度を上回る - 29 - ▪ PFN-PIC-genにおいてzero-shot性能を評価 Ø JaSPICEを全ての相関係数において上回る性能 Pearson↑ Spearman↑

    Kendall↑ BLEU 0.484 0.466 0.352 ROUGE 0.500 0.474 0.365 METEOR 0.423 0.457 0.352 CIDEr 0.416 0.462 0.353 JaSPICE 0.547 0.573 0.438 SuiSei 0.576 0.590 0.443 +0.029 +0.017 +0.005
  26. - 33 - ▪ PFN-PIC-genにおいてAblation studyを実施 • Model (i):⼊⼒から画像 を削除

    • Model (ii):idfを考慮した⽂埋め込みをFFNの⼊⼒から削除 Ablation Study: およびidfの導⼊が性能向上に寄与 Model 画像 idf Pearson↑ Spearman↑ Kendall↑ (i) ✔ 0.532 0.536 0.402 (ii) ✔ 0.517 0.515 0.386 SuiSei ✔ ✔ 0.576 0.590 0.443
  27. - 34 - ▪ PFN-PIC-genにおいてAblation studyを実施 • Model (i):⼊⼒から画像 を削除

    • Model (ii):idfを考慮した⽂埋め込みをFFNの⼊⼒から削除 Model 画像 idf Pearson↑ Spearman↑ Kendall↑ (i) ✔ 0.532 0.536 0.402 (ii) ✔ 0.517 0.515 0.386 SuiSei ✔ ✔ 0.576 0.590 0.443 Ablation Study: およびidfの導⼊が性能向上に寄与 +0.044 +0.054 +0.041
  28. - 35 - ▪ PFN-PIC-genにおいてAblation studyを実施 • Model (i):⼊⼒から画像 を削除

    • Model (ii):idfを考慮した⽂埋め込みをFFNの⼊⼒から削除 Model 画像 idf Pearson↑ Spearman↑ Kendall↑ (i) ✔ 0.532 0.536 0.402 (ii) ✔ 0.517 0.515 0.386 SuiSei ✔ ✔ 0.576 0.590 0.443 Ablation Study: およびidfの導⼊が性能向上に寄与 +0.044 +0.054 +0.041 の導⼊が性能向上に寄与
  29. - 36 - ▪ PFN-PIC-genにおいてAblation studyを実施 • Model (i):⼊⼒から画像 を削除

    • Model (ii):idfを考慮した⽂埋め込みをFFNの⼊⼒から削除 Ablation Study: およびidfの導⼊が性能向上に寄与 Model 画像 idf Pearson↑ Spearman↑ Kendall↑ (i) ✔ 0.532 0.536 0.402 (ii) ✔ 0.517 0.515 0.386 SuiSei ✔ ✔ 0.576 0.590 0.443 +0.059 +0.075 +0.057
  30. - 37 - ▪ PFN-PIC-genにおいてAblation studyを実施 • Model (i):⼊⼒から画像 を削除

    • Model (ii):idfを考慮した⽂埋め込みをFFNの⼊⼒から削除 Ablation Study: およびidfの導⼊が性能向上に寄与 Model 画像 idf Pearson↑ Spearman↑ Kendall↑ (i) ✔ 0.532 0.536 0.402 (ii) ✔ 0.517 0.515 0.386 SuiSei ✔ ✔ 0.576 0.590 0.443 +0.059 +0.075 +0.057 idfを考慮した⽂埋め込みの導⼊が性能向上に寄与
  31. 結論 - 38 - ▪ 画像キャプション⽣成における⾃動評価尺度SuiSeiを提案 ▪ 新規性 1. 教師あり学習に基づいて⼈間による評価を回帰

    2. 画像特徴量と⾔語特徴量を扱うマルチモーダル特徴抽出機構 3. idfを考慮した⽂埋め込み機構 ▪ 全てのベースライン尺度を上回る性能