Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Supervised Automatic Evaluation for Image Captioning Based on Multimodality

Supervised Automatic Evaluation for Image Captioning Based on Multimodality

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 齋藤⼤地,和⽥唯我,兼⽥寛⼤,杉浦孔明
    慶應義塾⼤学
    マルチモーダル情報に基づく
    画像説明⽂の教師あり⾃動評価

    View full-size slide

  2. 提案:画像キャプション⽣成における⾃動評価尺度
    - 2 -
    ■ ⽇本語の画像キャプション⽣成における⾃動評価尺度
    • BLEU [Papineni+, ACL02], CIDEr [Lavie+, ACL05], JaSPICE [Wada+, CoNLL23]
    → ルールベースであり⼈間による評価と⼀致しない
    ■ 教師あり学習に基づく⾃動評価尺度SuiSeiを提案
    • サンプル数103,170のデータセットで訓練
    → 相関係数において既存尺度を上回る性能
    CIDEr < JaSPICE <<SuiSei
    0.312 0.499 0.672
    SuiSeiのモデル図

    View full-size slide

  3. 提案:画像キャプション⽣成における⾃動評価尺度
    - 3 -
    ■ ⽇本語の画像キャプション⽣成における⾃動評価尺度
    • BLEU [Papineni+, ACL02], CIDEr [Lavie+, ACL05], JaSPICE [Wada+, CoNLL23]
    → ルールベースであり⼈間による評価と⼀致しない
    ■ 教師あり学習に基づく⾃動評価尺度SuiSeiを提案
    • サンプル数103,170のデータセットで訓練
    → 相関係数において既存尺度を上回る性能
    CIDEr < JaSPICE <<SuiSei
    0.312 0.499 0.672
    SuiSeiのモデル図

    View full-size slide

  4. ■ 画像キャプション⽣成:画像に対する説明⽂を⽣成するタスク
    • 視覚障害者⽀援や医療画像解析など幅広い分野に応⽤
    Ø 円滑なモデル改良のためにはこれらを適切に評価することが重要
    背景:画像キャプション⽣成では⽣成⽂の適切な評価が重要
    - 4
    「⼥の⼦がサッカーボールを蹴っている」
    「芝⽣で⾦髪の少⼥がボールで遊んでいる」
    「⼩さい⼦供が野球をしている」

    View full-size slide

  5. ■ 画像キャプション⽣成:画像に対する説明⽂を⽣成するタスク
    • 視覚障害者⽀援や医療画像解析など幅広い分野に応⽤
    Ø 円滑なモデル改良のためにはこれらを適切に評価することが重要
    背景:画像キャプション⽣成では⽣成⽂の適切な評価が重要
    - 5
    様々な正解⽂が存在するため⾃動評価尺度の構築は困難
    「⼥の⼦がサッカーボールを蹴っている」
    「芝⽣で⾦髪の少⼥がボールで遊んでいる」
    「⼩さい⼦供が野球をしている」

    View full-size slide

  6. 問題設定:画像キャプション⽣成に対する⾃動評価
    - 6 -
    ü ⼊⼒:画像 ,⽣成⽂ ,正解⽂
    ü 出⼒:評価値
    画像キャプション
    ⽣成モデル
    正解⽂ :「⼦供が芝⽣でサッカーをしている」
    正解⽂ :「⼥の⼦がサッカーボールで遊んでいる」
    ⽣成⽂ :「少⼥がサッカーをしている」

    View full-size slide

  7. 問題設定:画像キャプション⽣成に対する⾃動評価
    - 7 -
    ü ⼊⼒:画像 ,⽣成⽂ ,正解⽂
    ü 出⼒:評価値
    画像キャプション
    ⽣成モデル
    正解⽂ :「⼦供が芝⽣でサッカーをしている」
    正解⽂ :「⼥の⼦がサッカーボールで遊んでいる」
    ⽣成⽂ :「少⼥がサッカーをしている」

    View full-size slide

  8. 問題設定:画像キャプション⽣成に対する⾃動評価
    - 8 -
    ü ⼊⼒:画像 ,⽣成⽂ ,正解⽂
    ü 出⼒:評価値
    画像キャプション
    ⽣成モデル
    正解⽂ :「⼦供が芝⽣でサッカーをしている」
    正解⽂ :「⼥の⼦がサッカーボールで遊んでいる」
    ⽣成⽂ :「少⼥がサッカーをしている」

    View full-size slide

  9. 問題設定:画像キャプション⽣成に対する⾃動評価
    - 9 -
    ü ⼊⼒:画像 ,⽣成⽂ ,正解⽂
    ü 出⼒:評価値
    画像キャプション
    ⽣成モデル
    正解⽂ :「⼦供が芝⽣でサッカーをしている」
    正解⽂ :「⼥の⼦がサッカーボールで遊んでいる」
    ⽣成⽂ :「少⼥がサッカーをしている」
    ⾃動評価尺度 評価値 ∈ 0, 1
    正解⽂
    正解⽂
    ⽣成⽂
    画像と正解⽂に対して
    ⽣成⽂がどの程度適切か

    View full-size slide

  10. 問題設定:画像キャプション⽣成に対する⾃動評価
    - 10 -
    ü ⼊⼒:画像 ,⽣成⽂ ,正解⽂
    ü 出⼒:評価値
    画像キャプション
    ⽣成モデル
    正解⽂ :「⼦供が芝⽣でサッカーをしている」
    正解⽂ :「⼥の⼦がサッカーボールで遊んでいる」
    ⽣成⽂ :「少⼥がサッカーをしている」
    正解⽂
    正解⽂
    ⽣成⽂
    ⾃動評価尺度 評価値
    ⼈間による評価
    相関係数により性能を検証

    View full-size slide

  11. 関連研究:既存の⾃動評価尺度は改善が必要
    - 11 -
    ■ 𝑛-gramに基づく⾃動評価尺度
    • BLEU [Papineni+, ACL02]
    • METEOR [Lavie+, ACL05]
    Ø ⼈間による評価との相関が不⼗分
    ■ シーングラフに基づく⾃動評価尺度
    • SPICE [Anderson+, ECCV16]
    • JaSPICE [Wada+, CoNLL23]
    Ø 単語同⼠の類似度を考慮できない JaSPICE [Wada+, CoNLL23]

    View full-size slide

  12. SuiSei:教師あり学習に基づく⾃動評価尺度を提案
    - 12 -
    ■ SuiSeiにおける新規性
    1. 教師あり学習に基づき⼈間による評価を回帰
    2. 画像特徴量と⾔語特徴量を扱う
    マルチモーダル特徴抽出機構
    3. idf (inverse document frequency)
    を考慮した⽂埋め込み機構

    View full-size slide

  13. 提案⼿法 (1/2):idfを考慮した⽂埋め込みを⽣成
    ■ 事前学習済みモデルを使⽤して各特徴量を変換
    • XLM-RoBERTa [Conneau+, ACL20] / CLIP [Radford+, ICML21]
    ■ idfを考慮した⽂埋め込み
    • トークン に対するidf
    Ø トークンごとにidfを掛け合わせる
    - 13 -
    :正解⽂の数
    :⽂書頻度

    View full-size slide

  14. 提案⼿法 (1/2):idfを考慮した⽂埋め込みを⽣成
    • トークン に対するidf
    Ø トークンごとにidfを掛け合わせる
    - 14 -
    :正解⽂の数
    :⽂書頻度
    ■ 事前学習済みモデルを使⽤して各特徴量を変換
    • XLM-RoBERTa [Conneau+, ACL20] / CLIP [Radford+, ICML21]
    ■ idfを考慮した⽂埋め込み

    View full-size slide

  15. ■ 事前学習済みモデルを使⽤して各特徴量を変換
    • XLM-RoBERTa [Conneau+, ACL20] / CLIP [Radford+, ICML21]
    ■ idfを考慮した⽂埋め込み
    提案⼿法 (1/2):idfを考慮した⽂埋め込みを⽣成
    - 15 -
    :正解⽂の数
    :⽂書頻度
    • トークン に対するidf
    Ø トークンごとにidfを掛け合わせる

    View full-size slide

  16. ■ 事前学習済みモデルを使⽤して各特徴量を変換
    • XLM-RoBERTa [Conneau+, ACL20] / CLIP [Radford+, ICML21]
    ■ idfを考慮した⽂埋め込み
    提案⼿法 (1/2):idfを考慮した⽂埋め込みを⽣成
    • トークン に対するidf
    Ø トークンごとにidfを掛け合わせる
    - 16 -
    :正解⽂の数
    :⽂書頻度

    View full-size slide

  17. ■ 事前学習済みモデルを使⽤して各特徴量を変換
    • XLM-RoBERTa [Conneau+, ACL20] / CLIP [Radford+, ICML21]
    ■ idfを考慮した⽂埋め込み
    提案⼿法 (1/2):idfを考慮した⽂埋め込みを⽣成
    • トークン に対するidf
    Ø トークンごとにidfを掛け合わせる
    - 17 -
    :正解⽂の数
    :⽂書頻度
    より重要な単語に注⽬して評価値を予測
    ü BERTScore [Zhang+, ICLR20]で⾃動評価尺度
    におけるidfの有⽤性が検証されている

    View full-size slide

  18. ■ 事前学習済みモデルを使⽤して各特徴量を変換
    • XLM-RoBERTa [Conneau+, ACL20] / CLIP [Radford+, ICML21]
    ■ idfを考慮した⽂埋め込み
    提案⼿法 (1/2):idfを考慮した⽂埋め込みを⽣成
    • トークン に対するidf
    Ø トークンごとにidfを掛け合わせる
    - 18 -
    :正解⽂の数
    :⽂書頻度

    View full-size slide

  19. 提案⼿法 (2/2):RUSEに基づきマルチモーダルな特徴量を抽出
    - 19 -
    ■ RUSE [Shimanaka+, WMT18]に基づき特徴量 を計算
    類似度を捉えたベクトルを計算
    Ø ⽣成⽂の評価に有⽤な特徴量の抽出
    ⽣成⽂と正解⽂における特徴量
    同⼠のアダマール積と差分

    View full-size slide

  20. 提案⼿法 (2/2):RUSEに基づきマルチモーダルな特徴量を抽出
    - 20 -
    ■ RUSE [Shimanaka+, WMT18]に基づき特徴量 を計算
    類似度を捉えたベクトルを計算
    Ø ⽣成⽂の評価に有⽤な特徴量の抽出
    ⽣成⽂と正解⽂における特徴量
    同⼠のアダマール積と差分

    View full-size slide

  21. 提案⼿法 (2/2):RUSEに基づきマルチモーダルな特徴量を抽出
    - 21 -
    ■ RUSE [Shimanaka+, WMT18]に基づき特徴量 を計算
    類似度を捉えたベクトルを計算
    Ø ⽣成⽂の評価に有⽤な特徴量の抽出
    ⽣成⽂と正解⽂における特徴量
    同⼠のアダマール積と差分
    ⽣成⽂と画像における特徴量同⼠
    のアダマール積と差分を計算

    View full-size slide

  22. 実験設定:2種類のデータセットで評価
    - 22 -
    ■ データセット
    • [Wada+, CoNLL23]で収集された2つのデータセットを使⽤
    ⽇本語の⾃動評価タスクで最⼤規模
    サンプル数:103,170
    Shichimi データセット
    ロボットに対する指⽰⽂を含む
    サンプル数:1,920
    PFN-PIC-gen
    学習,検証およびテストに使⽤ テストのみに使⽤・zero-shot性能を評価

    View full-size slide

  23. 実験設定:2種類のデータセットで評価
    - 23 -
    ■ データセット
    • [Wada+, CoNLL23]で収集された2つのデータセットを使⽤
    ⽇本語の⾃動評価タスクで最⼤規模
    サンプル数:103,170
    Shichimi データセット
    ロボットに対する指⽰⽂を含む
    サンプル数:1,920
    PFN-PIC-gen
    学習,検証およびテストに使⽤ テストのみに使⽤・zero-shot性能を評価

    View full-size slide

  24. 実験設定:2種類のデータセットで評価
    - 24 -
    ■ データセット
    • [Wada+, CoNLL23]で収集された2つのデータセットを使⽤
    ⽇本語の⾃動評価タスクで最⼤規模
    サンプル数:103,170
    Shichimi データセット
    ロボットに対する指⽰⽂を含む
    サンプル数:1,920
    PFN-PIC-gen
    学習,検証およびテストに使⽤ テストのみに使⽤・zero-shot性能を評価
    10個の標準的なモデルで⽣成⽂を作成
    SAT [Xu+, ICML15]
    ORT [Herdade+, NeurIPS19]
    ℳ!-Transformer [Cornia+, CVPR20]
    DLCT [Luo+, AAAI21]
    ER-SAN [Li+, IJCAI22]
    ClipCapmlp
    [Mokady+, 21]
    ClipCaptrm
    [Mokady+, 21]
    Transformer𝐿 ∈ 3, 6, 12

    View full-size slide

  25. - 25 -
    ■ Shichimi データセットにおいて性能を評価
    Ø 相関係数において全てのベースライン尺度を上回る性能
    Pearson↑ Spearman↑ Kendall↑
    BLEU 0.296 0.343 0.260
    ROUGE 0.366 0.340 0.258
    METEOR 0.345 0.366 0.279
    CIDEr 0.312 0.355 0.269
    JaSPICE 0.499 0.531 0.413
    SuiSei 0.672 0.644 0.504
    ⼈間同⼠の相関 0.759 0.750 0.669
    定量的結果①:Shichimi データセットでベースライン尺度を上回る

    View full-size slide

  26. - 26 -
    ■ Shichimi データセットにおいて性能を評価
    Ø JaSPICEを全ての相関係数において上回る性能
    Pearson↑ Spearman↑ Kendall↑
    BLEU 0.296 0.343 0.260
    ROUGE 0.366 0.340 0.258
    METEOR 0.345 0.366 0.279
    CIDEr 0.312 0.355 0.269
    JaSPICE 0.499 0.531 0.413
    SuiSei 0.672 0.644 0.504
    ⼈間同⼠の相関 0.759 0.750 0.669
    定量的結果①:Shichimi データセットでベースライン尺度を上回る
    +0.173 +0.113 +0.091

    View full-size slide

  27. - 27 -
    ■ Shichimi データセットにおいて性能を評価
    Ø ⼈間同⼠の相関係数に最も近い値
    Pearson↑ Spearman↑ Kendall↑
    BLEU 0.296 0.343 0.260
    ROUGE 0.366 0.340 0.258
    METEOR 0.345 0.366 0.279
    CIDEr 0.312 0.355 0.269
    JaSPICE 0.499 0.531 0.413
    SuiSei 0.672 0.644 0.504
    ⼈間同⼠の相関 0.759 0.750 0.669
    定量的結果①:Shichimi データセットでベースライン尺度を上回る
    ∆=0.087 ∆=0.106 ∆=0.165

    View full-size slide

  28. 定量的結果②:PFN-PIC-genでベースライン尺度を上回る
    - 28 -
    ■ PFN-PIC-genにおいてzero-shot性能を評価
    Ø 相関係数において全てのベースライン尺度を上回る性能
    Pearson↑ Spearman↑ Kendall↑
    BLEU 0.484 0.466 0.352
    ROUGE 0.500 0.474 0.365
    METEOR 0.423 0.457 0.352
    CIDEr 0.416 0.462 0.353
    JaSPICE 0.547 0.573 0.438
    SuiSei 0.576 0.590 0.443

    View full-size slide

  29. 定量的結果②:PFN-PIC-genでベースライン尺度を上回る
    - 29 -
    ■ PFN-PIC-genにおいてzero-shot性能を評価
    Ø JaSPICEを全ての相関係数において上回る性能
    Pearson↑ Spearman↑ Kendall↑
    BLEU 0.484 0.466 0.352
    ROUGE 0.500 0.474 0.365
    METEOR 0.423 0.457 0.352
    CIDEr 0.416 0.462 0.353
    JaSPICE 0.547 0.573 0.438
    SuiSei 0.576 0.590 0.443
    +0.029 +0.017 +0.005

    View full-size slide

  30. 定性的結果:⼈間による評価に近い値を出⼒
    ■ Shichimi データセットにおける結果
    「海岸で⼆⼈の⼥性が⾺に乗っている」
    「⼥性⼆⼈が⾺に乗って海岸沿いを歩いている」
    正解文
    「サングラスをかけた⼆⼈の
    ⼥性が⾺に乗っている」
    生成文
    - 30 -

    View full-size slide

  31. 定性的結果:⼈間による評価に近い値を出⼒
    ■ Shichimi データセットにおける結果
    「海岸で⼆⼈の⼥性が⾺に乗っている」
    「⼥性⼆⼈が⾺に乗って海岸沿いを歩いている」
    正解文
    「サングラスをかけた⼆⼈の
    ⼥性が⾺に乗っている」
    生成文
    ⽣成⽂
    正解⽂①
    正解⽂②
    ⼈間による評価:1.0(とても良い)
    0.934
    SuiSei
    - 31 -

    View full-size slide

  32. 定性的結果:⼈間による評価に近い値を出⼒
    ■ Shichimi データセットにおける結果
    「海岸で⼆⼈の⼥性が⾺に乗っている」
    「⼥性⼆⼈が⾺に乗って海岸沿いを歩いている」
    正解文
    「サングラスをかけた⼆⼈の
    ⼥性が⾺に乗っている」
    生成文
    ⽣成⽂
    正解⽂①
    正解⽂②
    ⼈間による評価:1.0(とても良い)
    0.934
    SuiSei
    - 32 -
    テスト集合において上位6%の値
    Ø ⼈間による評価に近い値

    View full-size slide

  33. - 33 -
    ■ PFN-PIC-genにおいてAblation studyを実施
    • Model (i):⼊⼒から画像 を削除
    • Model (ii):idfを考慮した⽂埋め込みをFFNの⼊⼒から削除
    Ablation Study: およびidfの導⼊が性能向上に寄与
    Model 画像 idf Pearson↑ Spearman↑ Kendall↑
    (i) ✔ 0.532 0.536 0.402
    (ii) ✔ 0.517 0.515 0.386
    SuiSei ✔ ✔ 0.576 0.590 0.443

    View full-size slide

  34. - 34 -
    ■ PFN-PIC-genにおいてAblation studyを実施
    • Model (i):⼊⼒から画像 を削除
    • Model (ii):idfを考慮した⽂埋め込みをFFNの⼊⼒から削除
    Model 画像 idf Pearson↑ Spearman↑ Kendall↑
    (i) ✔ 0.532 0.536 0.402
    (ii) ✔ 0.517 0.515 0.386
    SuiSei ✔ ✔ 0.576 0.590 0.443
    Ablation Study: およびidfの導⼊が性能向上に寄与
    +0.044 +0.054 +0.041

    View full-size slide

  35. - 35 -
    ■ PFN-PIC-genにおいてAblation studyを実施
    • Model (i):⼊⼒から画像 を削除
    • Model (ii):idfを考慮した⽂埋め込みをFFNの⼊⼒から削除
    Model 画像 idf Pearson↑ Spearman↑ Kendall↑
    (i) ✔ 0.532 0.536 0.402
    (ii) ✔ 0.517 0.515 0.386
    SuiSei ✔ ✔ 0.576 0.590 0.443
    Ablation Study: およびidfの導⼊が性能向上に寄与
    +0.044 +0.054 +0.041
    の導⼊が性能向上に寄与

    View full-size slide

  36. - 36 -
    ■ PFN-PIC-genにおいてAblation studyを実施
    • Model (i):⼊⼒から画像 を削除
    • Model (ii):idfを考慮した⽂埋め込みをFFNの⼊⼒から削除
    Ablation Study: およびidfの導⼊が性能向上に寄与
    Model 画像 idf Pearson↑ Spearman↑ Kendall↑
    (i) ✔ 0.532 0.536 0.402
    (ii) ✔ 0.517 0.515 0.386
    SuiSei ✔ ✔ 0.576 0.590 0.443
    +0.059 +0.075 +0.057

    View full-size slide

  37. - 37 -
    ■ PFN-PIC-genにおいてAblation studyを実施
    • Model (i):⼊⼒から画像 を削除
    • Model (ii):idfを考慮した⽂埋め込みをFFNの⼊⼒から削除
    Ablation Study: およびidfの導⼊が性能向上に寄与
    Model 画像 idf Pearson↑ Spearman↑ Kendall↑
    (i) ✔ 0.532 0.536 0.402
    (ii) ✔ 0.517 0.515 0.386
    SuiSei ✔ ✔ 0.576 0.590 0.443
    +0.059 +0.075 +0.057
    idfを考慮した⽂埋め込みの導⼊が性能向上に寄与

    View full-size slide

  38. 結論
    - 38 -
    ■ 画像キャプション⽣成における⾃動評価尺度SuiSeiを提案
    ■ 新規性
    1. 教師あり学習に基づいて⼈間による評価を回帰
    2. 画像特徴量と⾔語特徴量を扱うマルチモーダル特徴抽出機構
    3. idfを考慮した⽂埋め込み機構
    ■ 全てのベースライン尺度を上回る性能

    View full-size slide