Slide 1

Slide 1 text

齋藤⼤地,和⽥唯我,兼⽥寛⼤,杉浦孔明 慶應義塾⼤学 マルチモーダル情報に基づく 画像説明⽂の教師あり⾃動評価

Slide 2

Slide 2 text

提案:画像キャプション⽣成における⾃動評価尺度 - 2 - ■ ⽇本語の画像キャプション⽣成における⾃動評価尺度 • BLEU [Papineni+, ACL02], CIDEr [Lavie+, ACL05], JaSPICE [Wada+, CoNLL23] → ルールベースであり⼈間による評価と⼀致しない ■ 教師あり学習に基づく⾃動評価尺度SuiSeiを提案 • サンプル数103,170のデータセットで訓練 → 相関係数において既存尺度を上回る性能 CIDEr < JaSPICE <<SuiSei 0.312 0.499 0.672 SuiSeiのモデル図

Slide 3

Slide 3 text

提案:画像キャプション⽣成における⾃動評価尺度 - 3 - ■ ⽇本語の画像キャプション⽣成における⾃動評価尺度 • BLEU [Papineni+, ACL02], CIDEr [Lavie+, ACL05], JaSPICE [Wada+, CoNLL23] → ルールベースであり⼈間による評価と⼀致しない ■ 教師あり学習に基づく⾃動評価尺度SuiSeiを提案 • サンプル数103,170のデータセットで訓練 → 相関係数において既存尺度を上回る性能 CIDEr < JaSPICE <<SuiSei 0.312 0.499 0.672 SuiSeiのモデル図

Slide 4

Slide 4 text

■ 画像キャプション⽣成:画像に対する説明⽂を⽣成するタスク • 視覚障害者⽀援や医療画像解析など幅広い分野に応⽤ Ø 円滑なモデル改良のためにはこれらを適切に評価することが重要 背景:画像キャプション⽣成では⽣成⽂の適切な評価が重要 - 4 「⼥の⼦がサッカーボールを蹴っている」 「芝⽣で⾦髪の少⼥がボールで遊んでいる」 「⼩さい⼦供が野球をしている」

Slide 5

Slide 5 text

■ 画像キャプション⽣成:画像に対する説明⽂を⽣成するタスク • 視覚障害者⽀援や医療画像解析など幅広い分野に応⽤ Ø 円滑なモデル改良のためにはこれらを適切に評価することが重要 背景:画像キャプション⽣成では⽣成⽂の適切な評価が重要 - 5 様々な正解⽂が存在するため⾃動評価尺度の構築は困難 「⼥の⼦がサッカーボールを蹴っている」 「芝⽣で⾦髪の少⼥がボールで遊んでいる」 「⼩さい⼦供が野球をしている」

Slide 6

Slide 6 text

問題設定:画像キャプション⽣成に対する⾃動評価 - 6 - ü ⼊⼒:画像 ,⽣成⽂ ,正解⽂ ü 出⼒:評価値 画像キャプション ⽣成モデル 正解⽂ :「⼦供が芝⽣でサッカーをしている」 正解⽂ :「⼥の⼦がサッカーボールで遊んでいる」 ⽣成⽂ :「少⼥がサッカーをしている」

Slide 7

Slide 7 text

問題設定:画像キャプション⽣成に対する⾃動評価 - 7 - ü ⼊⼒:画像 ,⽣成⽂ ,正解⽂ ü 出⼒:評価値 画像キャプション ⽣成モデル 正解⽂ :「⼦供が芝⽣でサッカーをしている」 正解⽂ :「⼥の⼦がサッカーボールで遊んでいる」 ⽣成⽂ :「少⼥がサッカーをしている」

Slide 8

Slide 8 text

問題設定:画像キャプション⽣成に対する⾃動評価 - 8 - ü ⼊⼒:画像 ,⽣成⽂ ,正解⽂ ü 出⼒:評価値 画像キャプション ⽣成モデル 正解⽂ :「⼦供が芝⽣でサッカーをしている」 正解⽂ :「⼥の⼦がサッカーボールで遊んでいる」 ⽣成⽂ :「少⼥がサッカーをしている」

Slide 9

Slide 9 text

問題設定:画像キャプション⽣成に対する⾃動評価 - 9 - ü ⼊⼒:画像 ,⽣成⽂ ,正解⽂ ü 出⼒:評価値 画像キャプション ⽣成モデル 正解⽂ :「⼦供が芝⽣でサッカーをしている」 正解⽂ :「⼥の⼦がサッカーボールで遊んでいる」 ⽣成⽂ :「少⼥がサッカーをしている」 ⾃動評価尺度 評価値 ∈ 0, 1 正解⽂ 正解⽂ ⽣成⽂ 画像と正解⽂に対して ⽣成⽂がどの程度適切か

Slide 10

Slide 10 text

問題設定:画像キャプション⽣成に対する⾃動評価 - 10 - ü ⼊⼒:画像 ,⽣成⽂ ,正解⽂ ü 出⼒:評価値 画像キャプション ⽣成モデル 正解⽂ :「⼦供が芝⽣でサッカーをしている」 正解⽂ :「⼥の⼦がサッカーボールで遊んでいる」 ⽣成⽂ :「少⼥がサッカーをしている」 正解⽂ 正解⽂ ⽣成⽂ ⾃動評価尺度 評価値 ⼈間による評価 相関係数により性能を検証

Slide 11

Slide 11 text

関連研究:既存の⾃動評価尺度は改善が必要 - 11 - ■ 𝑛-gramに基づく⾃動評価尺度 • BLEU [Papineni+, ACL02] • METEOR [Lavie+, ACL05] Ø ⼈間による評価との相関が不⼗分 ■ シーングラフに基づく⾃動評価尺度 • SPICE [Anderson+, ECCV16] • JaSPICE [Wada+, CoNLL23] Ø 単語同⼠の類似度を考慮できない JaSPICE [Wada+, CoNLL23]

Slide 12

Slide 12 text

SuiSei:教師あり学習に基づく⾃動評価尺度を提案 - 12 - ■ SuiSeiにおける新規性 1. 教師あり学習に基づき⼈間による評価を回帰 2. 画像特徴量と⾔語特徴量を扱う マルチモーダル特徴抽出機構 3. idf (inverse document frequency) を考慮した⽂埋め込み機構

Slide 13

Slide 13 text

提案⼿法 (1/2):idfを考慮した⽂埋め込みを⽣成 ■ 事前学習済みモデルを使⽤して各特徴量を変換 • XLM-RoBERTa [Conneau+, ACL20] / CLIP [Radford+, ICML21] ■ idfを考慮した⽂埋め込み • トークン に対するidf Ø トークンごとにidfを掛け合わせる - 13 - :正解⽂の数 :⽂書頻度

Slide 14

Slide 14 text

提案⼿法 (1/2):idfを考慮した⽂埋め込みを⽣成 • トークン に対するidf Ø トークンごとにidfを掛け合わせる - 14 - :正解⽂の数 :⽂書頻度 ■ 事前学習済みモデルを使⽤して各特徴量を変換 • XLM-RoBERTa [Conneau+, ACL20] / CLIP [Radford+, ICML21] ■ idfを考慮した⽂埋め込み

Slide 15

Slide 15 text

■ 事前学習済みモデルを使⽤して各特徴量を変換 • XLM-RoBERTa [Conneau+, ACL20] / CLIP [Radford+, ICML21] ■ idfを考慮した⽂埋め込み 提案⼿法 (1/2):idfを考慮した⽂埋め込みを⽣成 - 15 - :正解⽂の数 :⽂書頻度 • トークン に対するidf Ø トークンごとにidfを掛け合わせる

Slide 16

Slide 16 text

■ 事前学習済みモデルを使⽤して各特徴量を変換 • XLM-RoBERTa [Conneau+, ACL20] / CLIP [Radford+, ICML21] ■ idfを考慮した⽂埋め込み 提案⼿法 (1/2):idfを考慮した⽂埋め込みを⽣成 • トークン に対するidf Ø トークンごとにidfを掛け合わせる - 16 - :正解⽂の数 :⽂書頻度

Slide 17

Slide 17 text

■ 事前学習済みモデルを使⽤して各特徴量を変換 • XLM-RoBERTa [Conneau+, ACL20] / CLIP [Radford+, ICML21] ■ idfを考慮した⽂埋め込み 提案⼿法 (1/2):idfを考慮した⽂埋め込みを⽣成 • トークン に対するidf Ø トークンごとにidfを掛け合わせる - 17 - :正解⽂の数 :⽂書頻度 より重要な単語に注⽬して評価値を予測 ü BERTScore [Zhang+, ICLR20]で⾃動評価尺度 におけるidfの有⽤性が検証されている

Slide 18

Slide 18 text

■ 事前学習済みモデルを使⽤して各特徴量を変換 • XLM-RoBERTa [Conneau+, ACL20] / CLIP [Radford+, ICML21] ■ idfを考慮した⽂埋め込み 提案⼿法 (1/2):idfを考慮した⽂埋め込みを⽣成 • トークン に対するidf Ø トークンごとにidfを掛け合わせる - 18 - :正解⽂の数 :⽂書頻度

Slide 19

Slide 19 text

提案⼿法 (2/2):RUSEに基づきマルチモーダルな特徴量を抽出 - 19 - ■ RUSE [Shimanaka+, WMT18]に基づき特徴量 を計算 類似度を捉えたベクトルを計算 Ø ⽣成⽂の評価に有⽤な特徴量の抽出 ⽣成⽂と正解⽂における特徴量 同⼠のアダマール積と差分

Slide 20

Slide 20 text

提案⼿法 (2/2):RUSEに基づきマルチモーダルな特徴量を抽出 - 20 - ■ RUSE [Shimanaka+, WMT18]に基づき特徴量 を計算 類似度を捉えたベクトルを計算 Ø ⽣成⽂の評価に有⽤な特徴量の抽出 ⽣成⽂と正解⽂における特徴量 同⼠のアダマール積と差分

Slide 21

Slide 21 text

提案⼿法 (2/2):RUSEに基づきマルチモーダルな特徴量を抽出 - 21 - ■ RUSE [Shimanaka+, WMT18]に基づき特徴量 を計算 類似度を捉えたベクトルを計算 Ø ⽣成⽂の評価に有⽤な特徴量の抽出 ⽣成⽂と正解⽂における特徴量 同⼠のアダマール積と差分 ⽣成⽂と画像における特徴量同⼠ のアダマール積と差分を計算

Slide 22

Slide 22 text

実験設定:2種類のデータセットで評価 - 22 - ■ データセット • [Wada+, CoNLL23]で収集された2つのデータセットを使⽤ ⽇本語の⾃動評価タスクで最⼤規模 サンプル数:103,170 Shichimi データセット ロボットに対する指⽰⽂を含む サンプル数:1,920 PFN-PIC-gen 学習,検証およびテストに使⽤ テストのみに使⽤・zero-shot性能を評価

Slide 23

Slide 23 text

実験設定:2種類のデータセットで評価 - 23 - ■ データセット • [Wada+, CoNLL23]で収集された2つのデータセットを使⽤ ⽇本語の⾃動評価タスクで最⼤規模 サンプル数:103,170 Shichimi データセット ロボットに対する指⽰⽂を含む サンプル数:1,920 PFN-PIC-gen 学習,検証およびテストに使⽤ テストのみに使⽤・zero-shot性能を評価

Slide 24

Slide 24 text

実験設定:2種類のデータセットで評価 - 24 - ■ データセット • [Wada+, CoNLL23]で収集された2つのデータセットを使⽤ ⽇本語の⾃動評価タスクで最⼤規模 サンプル数:103,170 Shichimi データセット ロボットに対する指⽰⽂を含む サンプル数:1,920 PFN-PIC-gen 学習,検証およびテストに使⽤ テストのみに使⽤・zero-shot性能を評価 10個の標準的なモデルで⽣成⽂を作成 SAT [Xu+, ICML15] ORT [Herdade+, NeurIPS19] ℳ!-Transformer [Cornia+, CVPR20] DLCT [Luo+, AAAI21] ER-SAN [Li+, IJCAI22] ClipCapmlp [Mokady+, 21] ClipCaptrm [Mokady+, 21] Transformer𝐿 ∈ 3, 6, 12

Slide 25

Slide 25 text

- 25 - ■ Shichimi データセットにおいて性能を評価 Ø 相関係数において全てのベースライン尺度を上回る性能 Pearson↑ Spearman↑ Kendall↑ BLEU 0.296 0.343 0.260 ROUGE 0.366 0.340 0.258 METEOR 0.345 0.366 0.279 CIDEr 0.312 0.355 0.269 JaSPICE 0.499 0.531 0.413 SuiSei 0.672 0.644 0.504 ⼈間同⼠の相関 0.759 0.750 0.669 定量的結果①:Shichimi データセットでベースライン尺度を上回る

Slide 26

Slide 26 text

- 26 - ■ Shichimi データセットにおいて性能を評価 Ø JaSPICEを全ての相関係数において上回る性能 Pearson↑ Spearman↑ Kendall↑ BLEU 0.296 0.343 0.260 ROUGE 0.366 0.340 0.258 METEOR 0.345 0.366 0.279 CIDEr 0.312 0.355 0.269 JaSPICE 0.499 0.531 0.413 SuiSei 0.672 0.644 0.504 ⼈間同⼠の相関 0.759 0.750 0.669 定量的結果①:Shichimi データセットでベースライン尺度を上回る +0.173 +0.113 +0.091

Slide 27

Slide 27 text

- 27 - ■ Shichimi データセットにおいて性能を評価 Ø ⼈間同⼠の相関係数に最も近い値 Pearson↑ Spearman↑ Kendall↑ BLEU 0.296 0.343 0.260 ROUGE 0.366 0.340 0.258 METEOR 0.345 0.366 0.279 CIDEr 0.312 0.355 0.269 JaSPICE 0.499 0.531 0.413 SuiSei 0.672 0.644 0.504 ⼈間同⼠の相関 0.759 0.750 0.669 定量的結果①:Shichimi データセットでベースライン尺度を上回る ∆=0.087 ∆=0.106 ∆=0.165

Slide 28

Slide 28 text

定量的結果②:PFN-PIC-genでベースライン尺度を上回る - 28 - ■ PFN-PIC-genにおいてzero-shot性能を評価 Ø 相関係数において全てのベースライン尺度を上回る性能 Pearson↑ Spearman↑ Kendall↑ BLEU 0.484 0.466 0.352 ROUGE 0.500 0.474 0.365 METEOR 0.423 0.457 0.352 CIDEr 0.416 0.462 0.353 JaSPICE 0.547 0.573 0.438 SuiSei 0.576 0.590 0.443

Slide 29

Slide 29 text

定量的結果②:PFN-PIC-genでベースライン尺度を上回る - 29 - ■ PFN-PIC-genにおいてzero-shot性能を評価 Ø JaSPICEを全ての相関係数において上回る性能 Pearson↑ Spearman↑ Kendall↑ BLEU 0.484 0.466 0.352 ROUGE 0.500 0.474 0.365 METEOR 0.423 0.457 0.352 CIDEr 0.416 0.462 0.353 JaSPICE 0.547 0.573 0.438 SuiSei 0.576 0.590 0.443 +0.029 +0.017 +0.005

Slide 30

Slide 30 text

定性的結果:⼈間による評価に近い値を出⼒ ■ Shichimi データセットにおける結果 「海岸で⼆⼈の⼥性が⾺に乗っている」 「⼥性⼆⼈が⾺に乗って海岸沿いを歩いている」 正解文 「サングラスをかけた⼆⼈の ⼥性が⾺に乗っている」 生成文 - 30 -

Slide 31

Slide 31 text

定性的結果:⼈間による評価に近い値を出⼒ ■ Shichimi データセットにおける結果 「海岸で⼆⼈の⼥性が⾺に乗っている」 「⼥性⼆⼈が⾺に乗って海岸沿いを歩いている」 正解文 「サングラスをかけた⼆⼈の ⼥性が⾺に乗っている」 生成文 ⽣成⽂ 正解⽂① 正解⽂② ⼈間による評価:1.0(とても良い) 0.934 SuiSei - 31 -

Slide 32

Slide 32 text

定性的結果:⼈間による評価に近い値を出⼒ ■ Shichimi データセットにおける結果 「海岸で⼆⼈の⼥性が⾺に乗っている」 「⼥性⼆⼈が⾺に乗って海岸沿いを歩いている」 正解文 「サングラスをかけた⼆⼈の ⼥性が⾺に乗っている」 生成文 ⽣成⽂ 正解⽂① 正解⽂② ⼈間による評価:1.0(とても良い) 0.934 SuiSei - 32 - テスト集合において上位6%の値 Ø ⼈間による評価に近い値

Slide 33

Slide 33 text

- 33 - ■ PFN-PIC-genにおいてAblation studyを実施 • Model (i):⼊⼒から画像 を削除 • Model (ii):idfを考慮した⽂埋め込みをFFNの⼊⼒から削除 Ablation Study: およびidfの導⼊が性能向上に寄与 Model 画像 idf Pearson↑ Spearman↑ Kendall↑ (i) ✔ 0.532 0.536 0.402 (ii) ✔ 0.517 0.515 0.386 SuiSei ✔ ✔ 0.576 0.590 0.443

Slide 34

Slide 34 text

- 34 - ■ PFN-PIC-genにおいてAblation studyを実施 • Model (i):⼊⼒から画像 を削除 • Model (ii):idfを考慮した⽂埋め込みをFFNの⼊⼒から削除 Model 画像 idf Pearson↑ Spearman↑ Kendall↑ (i) ✔ 0.532 0.536 0.402 (ii) ✔ 0.517 0.515 0.386 SuiSei ✔ ✔ 0.576 0.590 0.443 Ablation Study: およびidfの導⼊が性能向上に寄与 +0.044 +0.054 +0.041

Slide 35

Slide 35 text

- 35 - ■ PFN-PIC-genにおいてAblation studyを実施 • Model (i):⼊⼒から画像 を削除 • Model (ii):idfを考慮した⽂埋め込みをFFNの⼊⼒から削除 Model 画像 idf Pearson↑ Spearman↑ Kendall↑ (i) ✔ 0.532 0.536 0.402 (ii) ✔ 0.517 0.515 0.386 SuiSei ✔ ✔ 0.576 0.590 0.443 Ablation Study: およびidfの導⼊が性能向上に寄与 +0.044 +0.054 +0.041 の導⼊が性能向上に寄与

Slide 36

Slide 36 text

- 36 - ■ PFN-PIC-genにおいてAblation studyを実施 • Model (i):⼊⼒から画像 を削除 • Model (ii):idfを考慮した⽂埋め込みをFFNの⼊⼒から削除 Ablation Study: およびidfの導⼊が性能向上に寄与 Model 画像 idf Pearson↑ Spearman↑ Kendall↑ (i) ✔ 0.532 0.536 0.402 (ii) ✔ 0.517 0.515 0.386 SuiSei ✔ ✔ 0.576 0.590 0.443 +0.059 +0.075 +0.057

Slide 37

Slide 37 text

- 37 - ■ PFN-PIC-genにおいてAblation studyを実施 • Model (i):⼊⼒から画像 を削除 • Model (ii):idfを考慮した⽂埋め込みをFFNの⼊⼒から削除 Ablation Study: およびidfの導⼊が性能向上に寄与 Model 画像 idf Pearson↑ Spearman↑ Kendall↑ (i) ✔ 0.532 0.536 0.402 (ii) ✔ 0.517 0.515 0.386 SuiSei ✔ ✔ 0.576 0.590 0.443 +0.059 +0.075 +0.057 idfを考慮した⽂埋め込みの導⼊が性能向上に寄与

Slide 38

Slide 38 text

結論 - 38 - ■ 画像キャプション⽣成における⾃動評価尺度SuiSeiを提案 ■ 新規性 1. 教師あり学習に基づいて⼈間による評価を回帰 2. 画像特徴量と⾔語特徴量を扱うマルチモーダル特徴抽出機構 3. idfを考慮した⽂埋め込み機構 ■ 全てのベースライン尺度を上回る性能