[JSAI23] Analysis of Automatic Evaluation Metric Based on Scene Graphs for Image Captioning Models

Slide 1

Slide 1 text

1 シーングラフに基づく画像キャプション生成モデルの自動評価と解析田中励雄 , 和田唯我 , 杉浦孔明慶應義塾大学

Slide 2

Slide 2 text

⽇常物体のキャプション⽣成タスク物体を説明するキャプションを⽣成社会応⽤が進むキャプション⽣成モデル視覚障害者の補助 [Gurari+, ECCV20] ロボットへの指⽰⽂の⾃動付与 [神原+, IROS21] キャプション⽣成モデル開発 [和⽥+, NLP23] 背景︓⽇常物体のキャプション⽣成モデルは社会応⽤が進んでいる 2 https://youtu.be/gJhdgbRAilw 画像に基づく⽣成⽂の⾃動評価尺度は重要

Slide 3

Slide 3 text

指⽰⽂付与タスク • ⼊⼒: 画像 / ⽬標物体と対象物体の位置 • 出⼒: 対象物体を⽬標領域へと移動させる指⽰⽂問題設定︓⽇本語における指⽰⽂付与タスクに対する⾃動評価を扱う 3 ⽣成⽂指⽰⽂付与モデル参照⽂⾃動評価尺度⽇本語の⽣成⽂を評価する尺度は研究が未だ不⼗分・・・

Slide 4

Slide 4 text

指⽰⽂付与タスク • ⼊⼒: 画像 / ⽬標物体と対象物体の位置 • 出⼒: 対象物体を⽬標領域へと移動させる指⽰⽂問題設定︓⽇本語における指⽰⽂付与タスクに対する⾃動評価を扱う 3 ⽣成⽂指⽰⽂付与モデル参照⽂⾃動評価尺度⽇本語の⽣成⽂を評価する尺度は研究が未だ不⼗分・・・「⽔⾊のカップを右上の箱の中に移動させてください」

Slide 5

Slide 5 text

Slide 6

Slide 6 text

関連研究 : ⽇本語の⽣成⽂を評価する実⽤的で⾼度な尺度は存在しない既存⼿法の問題点 1. 𝑛-gramによる評価⼈間による評価との相関が⾼くない 2. SPICE [Anderson+, ECCV16] 英語の評価尺度であり，⽇本語に直接適⽤することができない JaSPICE [和⽥+, NLP23] • ⽇本語における画像キャプション⽣成のための⾃動評価尺度 • シーングラフに基づいた⾃動評価を⾏うことが可能 4

Slide 7

Slide 7 text

本研究の⽬的︓JaSPICEの実⽤性を向上させる 5 JaSPICEの課題 1. 指⽰⽂付与タスクにおいて JaSPICE を検証 2. STAIR Captions における JaSPICE のエラー分析を⾏う本研究の⽬的 🙁⼀般的な画像キャプション⽣成タスクのみで検証 🙁失敗例についての解析が不⼗分

Slide 8

Slide 8 text

JaSPICE: 2つのモジュールで構成 ①Japanese Scene Graph Parser (JaSGP) ②Graph Analyzer (GA) JaSPICE [和⽥+, NLP23] は２つのモジュールで構成 6 シーングラフをもとに⽇本語の⽣成⽂を[0, 1]の定量的な尺度で評価可能

Slide 9

Slide 9 text

JaSPICE: 2つのモジュールで構成 ①Japanese Scene Graph Parser (JaSGP) ②Graph Analyzer (GA) JaSPICE [和⽥+, NLP23] は２つのモジュールで構成 6 シーングラフをもとに⽇本語の⽣成⽂を[0, 1]の定量的な尺度で評価可能シーングラフ作成

Slide 10

Slide 10 text

JaSPICE: 2つのモジュールで構成 ①Japanese Scene Graph Parser (JaSGP) ②Graph Analyzer (GA) JaSPICE [和⽥+, NLP23] は２つのモジュールで構成 6 シーングラフをもとに⽇本語の⽣成⽂を[0, 1]の定量的な尺度で評価可能シーングラフ作成シーングラフ同⼠で Binary Matching

Slide 11

Slide 11 text

7 • pip install & dockerで簡単に実⾏可能 JaSPICE : ⽇本語における画像キャプション⽣成のための⾃動評価尺度 Project Page: https://yuiga.dev/jaspice

Slide 12

Slide 12 text

オレンジ⾊のヘルメットをかぶり，⻘⾊のズボンをはいた男の⼦が，⼈通りの少ない道路でボードに乗っている JaSPICEのグラフ解析器が⽣成したシーングラフ 8

Slide 13

Slide 13 text

JaSPICEのグラフ解析器が⽣成したシーングラフ 8

Slide 14

Slide 14 text

JaSPICEのグラフ解析器が⽣成したシーングラフ 8

Slide 15

Slide 15 text

実験設定︓ JaSPICE と⼈間による評価との相関係数を⽤いた評価実験 9 1. PFN-PIC [Hatori+, ICRA18］⽇本語による指⽰⽂と画像によるコーパス 2. STAIR Captions [Yoshikawa+, ACL17] MS-COCOに基づいた⽇本語による画像キャプションのコーパス⼈間による評価クラウドソーシングサービスを活⽤ 100⼈の評価者から22,350サンプルを収集データセット信号機が電線にぶら下がっているコップを右上に動かして

Slide 16

Slide 16 text

Slide 17

Slide 17 text

定量的結果: PFN-PICにおいてJaSPICEがベースライン尺度を上回る 10 PFN-PIC における⾃動評価尺度と⼈間による評価との相関係数⾃動評価尺度 Pearson Spearman Kendall BLEU [Papineni+, ACL02] 0.484 0.466 0.352 ROUGE [Lin+, ACL04] 0.500 0.474 0.365 METEOR [Banerjee+, ACL05] 0.423 0.457 0.352 CIDEr [Vedantam+, CVPR15] 0.416 0.462 0.353 JaSPICE 0.572 0.587 0.452

Slide 18

Slide 18 text

定量的結果: PFN-PICにおいてJaSPICEがベースライン尺度を上回る 11 PFN-PIC における⾃動評価尺度と⼈間による評価との相関係数⾃動評価尺度 Pearson Spearman Kendall BLEU [Papineni+, ACL02] 0.484 0.466 0.352 ROUGE [Lin+, ACL04] 0.500 0.474 0.365 METEOR [Banerjee+, ACL05] 0.423 0.457 0.352 CIDEr [Vedantam+, CVPR15] 0.416 0.462 0.353 JaSPICE 0.572 0.587 0.452

Slide 19

Slide 19 text

定量的結果: PFN-PICにおいてJaSPICEがベースライン尺度を上回る 12 PFN-PIC における⾃動評価尺度と⼈間による評価との相関係数⼈間による評価との相関係数において，ベースライン尺度に対して上回った⾃動評価尺度 Pearson Spearman Kendall BLEU [Papineni+, ACL02] 0.484 0.466 0.352 ROUGE [Lin+, ACL04] 0.500 0.474 0.365 METEOR [Banerjee+, ACL05] 0.423 0.457 0.352 CIDEr [Vedantam+, CVPR15] 0.416 0.462 0.353 JaSPICE 0.572 0.587 0.452 ＋0.072 ＋0.113 ＋0.087

Slide 20

Slide 20 text

定量的結果: PFN-PICにおいてJaSPICEがベースライン尺度を上回る 13 PFN-PIC におけるSPICE ・JaSPICEと⼈間による評価との相関係数⾃動評価尺度 Pearson Spearman Kendall SPICEtrm 0.427 0.420 0.317 SPICEservice 0.416 0.418 0.316 JaSPICE 0.572 0.587 0.452 • SPICEservice ︓DeepLの英訳⽂を⽤いて算出した SPICE • SPICEtrm ︓JParaCrawl [Morishita+, LREC20] で訓練した Transformer の出⼒⽂を⽤いて算出した SPICE

Slide 21

Slide 21 text

定量的結果: PFN-PICにおいてJaSPICEがベースライン尺度を上回る 14 PFN-PIC におけるSPICE ・JaSPICEと⼈間による評価との相関係数⾃動評価尺度 Pearson Spearman Kendall SPICEtrm 0.427 0.420 0.317 SPICEservice 0.416 0.418 0.316 JaSPICE 0.572 0.587 0.452 • SPICEservice ︓DeepLの英訳⽂を⽤いて算出した SPICE • SPICEtrm ︓JParaCrawl [Morishita+, LREC20] で訓練した Transformer の出⼒⽂を⽤いて算出した SPICE

Slide 22

Slide 22 text

定量的結果: PFN-PICにおいてJaSPICEがベースライン尺度を上回る 15 PFN-PIC におけるSPICE ・JaSPICEと⼈間による評価との相関係数⾃動評価尺度 Pearson Spearman Kendall SPICEtrm 0.427 0.420 0.317 SPICEservice 0.416 0.418 0.316 JaSPICE 0.572 0.587 0.452 • SPICEservice ︓DeepLの英訳⽂を⽤いて算出した SPICE • SPICEtrm ︓JParaCrawl [Morishita+, LREC20] で訓練した Transformer の出⼒⽂を⽤いて算出した SPICE SPICEに対しても⼈間による評価との相関係数を上回った＋0.145 ＋0.167 ＋0.135

Slide 23

Slide 23 text

成功例︓適切な⽣成⽂に対して，JaSPICEによる評価が⾼くなる 16 • ⽣成⽂: 「右下の箱の中のコーラの⽸を，左上の箱に動かしてください」 • 参照⽂: 「コーラの⽸を，左上のケースに動かしてちょうだい」

Slide 24

Slide 24 text

成功例︓適切な⽣成⽂に対して，JaSPICEによる評価が⾼くなる 16 • ⽣成⽂: 「右下の箱の中のコーラの⽸を，左上の箱に動かしてください」 • 参照⽂: 「コーラの⽸を，左上のケースに動かしてちょうだい」⽣成⽂と参照⽂が同じ指⽰内容（⼈間による評価＝５） JaSPICE = 0.870は上位0.3%の値 JaSPICEは適切な評価ができている

Slide 25

Slide 25 text

失敗例︓⽣成⽂は適切な指⽰⽂であるにも拘らず，JaSPICEによる評価が低い 17 • ⽣成⽂: 左上の箱の中にある⽩くて不透明なボトルを右上の箱に移してください • 参照⽂:⽩い半透明の円筒ボトル容器を，右隣のボックスに動かしてください

Slide 26

Slide 26 text

失敗例︓⽣成⽂は適切な指⽰⽂であるにも拘らず，JaSPICEによる評価が低い 17 • ⽣成⽂: 左上の箱の中にある⽩くて不透明なボトルを右上の箱に移してください • 参照⽂:⽩い半透明の円筒ボトル容器を，右隣のボックスに動かしてください⽣成⽂と参照⽂が同じ指⽰内容（⼈間による評価＝５） JaSPICE = 0.090 本サンプルでは適切な評価が出来ていない

Slide 27

Slide 27 text

PFN-PICにおけるエラー分析: 表層の不⼀致・存在領域を⽰す情報の⽋如 18 「⽩くて不透明なボトルを，右上の箱に移してください」⽣成⽂: 「⽩い半透明の円筒ボトル容器を，右隣のボックスに動かしてください」参照⽂: エラー要因 (JaSPICE = 0.09，⼈間による評価＝５) 左上の箱の中にある

Slide 28

Slide 28 text

Slide 29

Slide 29 text

PFN-PICにおけるエラー分析: 表層の不⼀致・存在領域を⽰す情報の⽋如 18 「⽩くて不透明なボトルを，右上の箱に移してください」⽣成⽂: 「⽩い半透明の円筒ボトル容器を，右隣のボックスに動かしてください」参照⽂: エラー要因 (JaSPICE = 0.09，⼈間による評価＝５) 「⽩い半透明の円筒ボトル容器を，右隣のボックスに動かしてください」左上の箱の中にある

Slide 30

Slide 30 text

Slide 31

Slide 31 text

Slide 32

Slide 32 text

Slide 33

Slide 33 text

JaSPICEの失敗例の定義・ STAIR Captionsにおけるエラー分類表 19 エラー分類説明サンプル数単語の粒度の違い 46 注⽬領域の相違 20 表層の不⼀致 18 評価者による誤り 10 その他 6 失敗例 130 サンプルのうち 100 個を調査 JaSPICEの失敗例の定義

Slide 34

Slide 34 text

JaSPICEの失敗例の定義・ STAIR Captionsにおけるエラー分類表 19 エラー分類説明サンプル数単語の粒度の違い 46 注⽬領域の相違 20 表層の不⼀致 18 評価者による誤り 10 その他 6 失敗例 130 サンプルのうち 100 個を調査 JaSPICEの失敗例の定義正規化された⼈間による評価

Slide 35

Slide 35 text

JaSPICEの失敗例の定義・ STAIR Captionsにおけるエラー分類表 19 エラー分類説明サンプル数単語の粒度の違い 46 注⽬領域の相違 20 表層の不⼀致 18 評価者による誤り 10 その他 6 失敗例 130 サンプルのうち 100 個を調査 JaSPICEの失敗例の定義正規化された⼈間による評価正規化されたJaSPICEによる評価

Slide 36

Slide 36 text

JaSPICEの失敗例の定義・ STAIR Captionsにおけるエラー分類表 19 エラー分類説明サンプル数単語の粒度の違い 46 注⽬領域の相違 20 表層の不⼀致 18 評価者による誤り 10 その他 6 失敗例 130 サンプルのうち 100 個を調査 JaSPICEの失敗例の定義正規化されたJaSPICEによる評価

Slide 37

Slide 37 text

Slide 38

Slide 38 text

STAIR Captionsにおけるエラー分析︓単語の粒度・注⽬領域の違い 20 エラー要因 ①単語の粒度の違い : ⽣成⽂︓「⽫に⾁が盛られている」参照⽂︓「⽫に料理が盛られている」下位語「⾁」上位語「料理」

Slide 39

Slide 39 text

STAIR Captionsにおけるエラー分析︓単語の粒度・注⽬領域の違い 20 エラー要因 ①単語の粒度の違い : ⽣成⽂︓「⽫に⾁が盛られている」参照⽂︓「⽫に料理が盛られている」下位語「⾁」上位語「料理」 ②注⽬領域の相違 : 参照⽂と⽣成⽂が異なる領域を着⽬参照⽂︓「電線にがぶら下がっている」⽣成⽂︓「⻘空の下でが通りを⾛っている」信号機⾞

Slide 40

Slide 40 text

Slide 41

Slide 41 text

STAIR Captionsにおけるエラー分析︓表層の不⼀致・評価者の誤り 21 ③表層の⼀部は⼀致するが，完全⼀致はしない形態素を含む⽂の⽐較 : 参照⽂︓「テニスをする．」⽣成⽂︓「テニスラケットをもっている．」⼀致する単語数が減少エラー要因

Slide 42

Slide 42 text

STAIR Captionsにおけるエラー分析︓表層の不⼀致・評価者の誤り 21 ③表層の⼀部は⼀致するが，完全⼀致はしない形態素を含む⽂の⽐較 : 参照⽂︓「テニスをする．」⽣成⽂︓「テニスラケットをもっている．」⼀致する単語数が減少エラー要因 ④評価者による誤り : ⽣成⽂︓「紙コップの隣にバナが置いてある」⼈間による評価と⽣成⽂の質とが乖離不適切な⽣成⽂に対して，評価者が 5（とても良い）と付与

Slide 43

Slide 43 text

まとめ 22 背景 1. JaSPICE が PFN-PIC において，⼈間による評価との相関係数で，ベースライン尺度に対して上回った 2. STAIR Captions において， JaSPICE のエラー分析を⾏った研究⽬的研究内容キャプション⽣成モデルはロボットへの指⽰⽂付与への応⽤が進む⽇本語の⽣成⽂を評価する⾃動評価尺度の研究は未だ不⼗分 JaSPICE [和⽥+, NLP23] の実⽤性を向上させる https://yuiga.dev/jaspice

Slide 44

Slide 44 text

評価に使⽤したモデル Appendix: JaSPICEの評価に使⽤したモデル 23 Transformer𝐋 ∈ {𝟑, 𝟔, 𝟏𝟐} Bottom-up Feature [Anderson,ECCV16] を⼊⼒に⽤いた 𝐿 層からなるTransformer ClipCapmlp Mapping Network を MLPとしたClipCap ClipCaptrm Mapping Network を Transformerとした ClipCap Model SAT [Xu+, ICML15] ORT [Herdade+, NeurIPS19] ℳ!-Transformer [Cornia+, CVPR20] DLCT [Luo+, AAAI21] ER-SAN [Li+, IJCAI22] ClipCapmlp [Mokady+, 21] ClipCaptrm [Mokady+, 21] Transformer𝐿 ∈ {3,6,12}

Slide 45

Slide 45 text

JaSPICE: Japanese Scene Graph Parser 24 ①Japanese Scene Graph Parser (JaSGP): 1. ⼊⼒されたｙから，述語項構造と係り受け構造を出⼒ 2. 述語項構造と係り受け構造をもとに，シーングラフを⽣成形態素解析→JUMAN 構⽂解析→KNP

Slide 46

Slide 46 text

Appendix: Graph Analyzer 25 Graph Analyzer (GA) 同義語によるグラフ拡張を⾏ったのち，Binary matchingを⾏う適合率再現率

Slide 47

Slide 47 text

Appendix: 定量的結果（STAIR Captions） 26 STAIR Captions における⾃動評価尺度と⼈間による評価との相関係数⾃動評価尺度 Pearson Spearman Kendall BLEU [Papineni+, ACL02] 0.296 0.343 0.260 ROUGE [Lin+, ACL04] 0.366 0.340 0.258 METEOR [Banerjee+, ACL05] 0.345 0.366 0.279 CIDEr [Vedantam+, CVPR15] 0.312 0.355 0.269 JaSPICE 0.501 0.529 0.413 STAIR Captions {訓練集合,検証集合,テスト集合} = {413915, 37269, 35594}

Slide 48

Slide 48 text

Appendix: 定量的結果（STAIR Captions） 27 STAIR Captions におけるSPICE ・JaSPICEと⼈間による評価との相関係数⾃動評価尺度 Pearson Spearman Kendall SPICEservice 0.491 0.516 0.403 SPICEtrm 0.488 0.515 0.402 JaSPICE 0.501 0.529 0.413 • SPICEservice ︓DeepLの英訳⽂を⽤いて算出した SPICE • SPICEtrm ︓JParaCrawl [Morishita+, LREC20] で訓練した Transformer の出⼒⽂を⽤いて算出した SPICE ＋0.010 ＋0.013 ＋0.010