[JSAI24] A Hallucination-Resistant Automatic Evaluation Metric for Image Captioning

松田一起, 和田唯我, 杉浦孔明慶應義塾大学 DENEB: ハルシネーションに頑健な画像キャプション生成の自動評価

画像キャプション生成における自動評価尺度 - - 2 - ハルシネーションに頑健な自動評価尺度DENEBを提案 - Polos[Wada+, CVPR24 Highlights]を上回る
- 複数のベンチマークにおいて世界最高性能 - 30,000以上の人間による評価を含む最大規模のデータセットを公開プロジェクトページ

背景: 画像キャプション生成におけるハルシネーション - - 3 画像キャプション生成: 画像を説明するキャプションを生成するタスク "A black and
white cat looking out a window over another cat." 様々な社会応用 - 視覚障害者の補助 [Gurari+, ECCV20] - LLMに基づく画像の説明生成 [Ge+, CVPR24] → 適切で安全なキャプション生成が望まれる  画像キャプション生成では “ハルシネーション”が度々発生する

背景: ハルシネーションに頑健な自動評価尺度の構築は重要 - - 4 ハルシネーション (Object Hallucination): あ画像内に存在しない単語を出力する現象 →ハルシネーションに頑健な自動評価尺度が
望まれる "a black and white dog sits near a window looking outside."  既存の評価尺度はハルシネーションを含むキャプションに対して不適切に高い評価

問題設定: 画像キャプション生成における自動評価 - - 5 ▪ 入力:画像 𝒙𝒙𝐢𝐢𝐢𝐢𝐢𝐢 ，生成文𝒙𝒙𝐜𝐜𝐜𝐜𝐜𝐜𝐜𝐜 および参照文群
𝒙𝒙 𝐫𝐫𝐫𝐫𝐫𝐫 (𝒊𝒊) 𝒊𝒊=𝟏𝟏 𝑵𝑵 ▪ 出力: 参照文および画像に対して，生成文𝒙𝒙𝐜𝐜𝐜𝐜𝐜𝐜𝐜𝐜 が適切であるかの評価値 𝒙𝒙 ref (𝑖𝑖) 𝑖𝑖=1 𝑁𝑁 𝒙𝒙cand 評価値 � 𝑦𝑦 𝒙𝒙img 画像キャプション生成モデル自動評価尺度  人間による評価に近い  ハルシネーションを含むキャプションに低い評価を割り当てることが望ましい

関連研究: 画像キャプション生成における自動評価尺度 - - 6 手法説明 CLIP-S[Hessel+, EMNLP21] 画像・候補文・参照文群のCLIP特徴量間のコサイン類似度を使用
PAC-S[Sarto+, CVPR23] 生成モデルから得られた画像・テキストデータでCLIP-SをFinetune Polos[Wada+, CVPR24] 人間による評価を用いた教師あり自動評価尺度

関連研究: 画像キャプション生成における自動評価尺度 - - 7 手法説明 CLIP-S[Hessel+, EMNLP21] 画像・候補文・参照文群のCLIP特徴量間のコサイン類似度を使用
PAC-S[Sarto+, CVPR23] 生成モデルから得られた画像・テキストデータでCLIP-SをFinetune Polos[Wada+, CVPR24] 人間による評価を用いた教師あり自動評価尺度

- 既存手法おける複数参照文の処理 - 参照文…通常複数与えられる人間によるキャプション - 各参照文に対する候補文のスコアを独立して計算 - Max関数などAggregate関数を用いて集約既存手法は参照文群を事実上一つのみしか扱えない -
- 8  事実上一つの参照文しか扱えない  Aggregate関数は最適化されない Polos [Wada+, CVPR]

DENEB:ハルシネーションに頑健な自動評価尺度 - - 9 1. 有用な特徴量を抽出するSim-Vec Extraction (SVE) 2. 類似度を扱うSim-Vec
Transformerモジュール 3. 多様な画像を持つ世界最大規模のデータセットNebulaを構築 - 既存の最大データセットに20,000枚以上の画像を追加

提案(1/3): 類似度を抽出するSim-Vec Extraction (SVE) - - 10 - 画像キャプション生成における自動評価 →生成文と参照文群・画像間の類似度を捉えることが重要
- アダマール積と要素間の差分によって𝑥𝑥cand , 𝑥𝑥 ref (𝑖𝑖) ,𝑥𝑥img 間の類似度をベクトル形式で抽出

- CLIP[Radford+, ICML21], RoBERTa[Liu+, 19]の特徴量の - アダマール積 𝒉𝒉clip , 𝒉𝒉rb
- 要素ごとの差分 𝒅𝒅clip , 𝒅𝒅rb を計算し， 𝒈𝒈inter を得る - - 11 アダマール積・要素ごとの差分は COMET[Rei+, EMNLP20] , Polos[Wada+, CVPR24] で有効性が確認提案(1/3): 類似度を抽出するSim-Vec Extraction (SVE)

提案(2/3): 入力間の類似度を扱うSim-Vec Transformer - - 12 - Sim-Vec Transformer -
SVEから得られた𝒈𝒈inter を[CLS]トークンと結合 - Transformerに𝒈𝒈inter を入力 - [CLS]トークンから評価値 � 𝑦𝑦を予測  Aggregate関数を用いない →全ての参照文を学習および推論に使用  Transformer-based →類似度ベクトルをより効果的に学習複数の参照文群を同時に入力するためAggregate関数が不要

提案(3/3)Nebulaデータセット: 画像バリエーションの追加 - - 13 Polarisデータセット[Wada+, CVPR24] - 自動評価尺度の訓練データとして既存最大 -
キャプションに対してその適切さを５段階で評価 - 画像枚数: 約10,000枚 Nebulaデータセット - 画像枚数: 約33,000枚 - アノテータ: 805人  より多様な視覚情報  画像とテキストのデータ数のバランス  画像数がサンプル数に対して1/10程度

定量的結果: 人間による評価と高い相関 - - 14 人間による評価との相関係数(Kendall’s τ)において４つのベンチマーク全てで既存手法を上回る Composite Flickr8K-
Expert Flickr8K-CF Nebula CIDEr [Vedantam+, CVPR15] 37.7 43.9 24.6 48.1 CLIP-S [Hessel+, EMNLP21] 53.8 51.2 34.4 46.9 RefPAC-S [Sarto+, CVPR23] 57.3 50.6 37.6 50.6 Polos [Wada+, CVPR24] 57.6 56.4 37.8 53.9 58.2 56.8 38.3 54.3 +0.6 +0.4 +0.5 +0.4

定量的結果: ハルシネーションへの高い頑健性(FOIL) - - 15  ハルシネーションへの頑健性を測るFOILベンチマークにおいて既存手法を上回る FOIL 1-ref
[%] FOIL 4-ref [%] CIDEr [Vedantam+, CVPR15] 82.5 90.6 CLIP-S [Hessel+, EMNLP21] 87.2 87.2 RefPAC-S [Sarto+, CVPR23] 93.7 94.9 Polos [Wada+, CVPR24] 93.2 95.1 95.4 96.5 +1.4 +1.7

定性的結果-成功例:人間による評価に近い出力(Nebula) - - 16 - キャプション: “a man in a
plaid shirt eating a sandwich” - 人間による評価: 0.0 DENEB: 0.07 →人間による評価と近い CIDEr: 0.46 CLIP-S: 0.43 Polos: 0.49 →既存手法はキーワードを含むが不適切なキャプションを過大評価

正しいキャプション “A woman is on a phone in front of
a fruit stand” DENEB: 0.71 ハルシネーションにを含むキャプション “A woman is on a laptop in front of a fruit stand” DENEB: 0.15 定性的結果-成功例:ハルシネーションへの頑健性(FOIL) - - 17 ハルシネーションを含むキャプションに対して適切に低い評価を割り当て

“A woman is on a phone in front of a
fruit stand” “A woman is on a laptop in front of a fruit stand” 定性的結果-成功例: DENEBのみが低い評価値を割り当て - - 18 0 0.2 0.4 0.6 0.8 1 CIDEr CLIP-S Polos DENEB 0.06↓ 0.16↓ 0.07↓ 0.56↓

Ablation Study: Sim-Vec Transformerの性能への寄与 - - 19 条件(i): Sim-Vec Transformerを削除しMLPに置換
→Sim-Vec Transformerの性能への寄与を確認 Sim-Vec Trm. SVE Non- aggregation FOIL 1-ref [Acc] FOIL 4-ref [Acc] Nebula [Kendall] (i) 76.2 76.5 48.1 (ii) 84.3 89.3 45.2 (iii) 94.4 96.1 53.2 95.4 96.5 54.3 +19.2 +20.0 +6.2

定量的結果: SVEの性能への寄与 - - 20 条件(ii): SVEのみを削除 →SVEが本タスクにおいて有用な特徴量を抽出している Sim-Vec Trm.
SVE Non- aggregation FOIL 1-ref [Acc] FOIL 4-ref [Acc] Nebula [Kendall] (i) 76.2 76.5 48.1 (ii) 84.3 89.3 45.2 (iii) 94.4 96.1 53.2 95.4 96.5 54.3 +11.1 +7.2 +9.1

定量的結果: 全ての参照文群を用いる構造の性能への寄与 - - 21 条件(iii): Aggregation関数を用いて参照文ごとに評価値を計算・集約 →参照文群をすべて活用することによって性能への寄与 Sim-Vec Trm.
SVE Non- aggregation FOIL 1-ref [Acc] FOIL 4-ref [Acc] Nebula [Kendall] (i) 76.2 76.5 48.1 (ii) 84.3 89.3 45.2 (iii) 94.4 96.1 53.2 95.4 96.5 54.3 +1.0 +0.4 +1.1

まとめ: 画像キャプション生成における自動評価尺度 - - 22 - ハルシネーションに頑健な自動評価尺度DENEBを提案 - Polos[Wada+, CVPR24
Highlights]を上回る - 複数のベンチマークにおいて世界最高性能 - 30,000以上の人間による評価を含む最大規模のデータセットを公開プロジェクトページ

Appendix

Appendix: エラー分析 - - 24 - 注目領域の相違 (Focus Area Discrepancy,
FAD) - 参照文と異なる領域に注目した生成文に対し，評価尺度が不適切な評価値を出力した場合 - 生成文の正確性不足 (Caption Accuracy Deficiency, CAD) - 誤った表現を含む生成文に対し，評価尺度が不適切な評価値を出力した場合 - 生成文の詳細性不足 (Caption Detail Insufficiency, CDI) - 詳細を欠く生成文に対し，評価尺度が不適切な評価値を出力した場合エラーの種類 FAD CAD CDI GE AE Others エラー数 40 28 16 8 4 4

Appendix: エラー分析 - - 25 - 文法エラー (Grammatical Error, GE)
- 文法的な誤りを含む生成文に対し，評価尺度が不適切な評価値を出力した場合 - 評価者による誤り (Annotation Error, AE) - 人間による評価が不適切であった場合 - その他 (Others) - 上記のエラーに当てはまらないその他の場合エラーの種類 FAD CAD CDI GE AE Others エラー数 40 28 16 8 4 4

定性的結果 (FOIL) - - 26

[JSAI24] A Hallucination-Resistant Automatic Ev...

[JSAI24] A Hallucination-Resistant Automatic Evaluation Metric for Image Captioning

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

松田一起, 和田唯我, 杉浦孔明慶應義塾大学 DENEB: ハルシネーションに頑健な画像キャプション生成の自動評価

画像キャプション生成における自動評価尺度 - - 2 - ハルシネーションに頑健な自動評価尺度DENEBを提案 - Polos[Wada+, CVPR24 Highlights]を上回る

背景: 画像キャプション生成におけるハルシネーション - - 3 画像キャプション生成: 画像を説明するキャプションを生成するタスク "A black and

背景: ハルシネーションに頑健な自動評価尺度の構築は重要 - - 4 ハルシネーション (Object Hallucination): あ画像内に存在しない単語を出力する現象 →ハルシネーションに頑健な自動評価尺度が

問題設定: 画像キャプション生成における自動評価 - - 5 ▪ 入力:画像 𝒙𝒙𝐢𝐢𝐢𝐢𝐢𝐢 ，生成文𝒙𝒙𝐜𝐜𝐜𝐜𝐜𝐜𝐜𝐜 および参照文群

関連研究: 画像キャプション生成における自動評価尺度 - - 6 手法説明 CLIP-S[Hessel+, EMNLP21] 画像・候補文・参照文群のCLIP特徴量間のコサイン類似度を使用

関連研究: 画像キャプション生成における自動評価尺度 - - 7 手法説明 CLIP-S[Hessel+, EMNLP21] 画像・候補文・参照文群のCLIP特徴量間のコサイン類似度を使用

DENEB:ハルシネーションに頑健な自動評価尺度 - - 9 1. 有用な特徴量を抽出するSim-Vec Extraction (SVE) 2. 類似度を扱うSim-Vec

提案(1/3): 類似度を抽出するSim-Vec Extraction (SVE) - - 10 - 画像キャプション生成における自動評価 →生成文と参照文群・画像間の類似度を捉えることが重要

- CLIP[Radford+, ICML21], RoBERTa[Liu+, 19]の特徴量の - アダマール積 𝒉𝒉clip , 𝒉𝒉rb

提案(2/3): 入力間の類似度を扱うSim-Vec Transformer - - 12 - Sim-Vec Transformer -

提案(3/3)Nebulaデータセット: 画像バリエーションの追加 - - 13 Polarisデータセット[Wada+, CVPR24] - 自動評価尺度の訓練データとして既存最大 -

定量的結果: 人間による評価と高い相関 - - 14 人間による評価との相関係数(Kendall’s τ)において４つのベンチマーク全てで既存手法を上回る Composite Flickr8K-

定量的結果: ハルシネーションへの高い頑健性(FOIL) - - 15  ハルシネーションへの頑健性を測るFOILベンチマークにおいて既存手法を上回る FOIL 1-ref

定性的結果-成功例:人間による評価に近い出力(Nebula) - - 16 - キャプション: “a man in a

正しいキャプション “A woman is on a phone in front of

“A woman is on a phone in front of a

Ablation Study: Sim-Vec Transformerの性能への寄与 - - 19 条件(i): Sim-Vec Transformerを削除しMLPに置換

定量的結果: SVEの性能への寄与 - - 20 条件(ii): SVEのみを削除 →SVEが本タスクにおいて有用な特徴量を抽出している Sim-Vec Trm.

定量的結果: 全ての参照文群を用いる構造の性能への寄与 - - 21 条件(iii): Aggregation関数を用いて参照文ごとに評価値を計算・集約 →参照文群をすべて活用することによって性能への寄与 Sim-Vec Trm.

まとめ: 画像キャプション生成における自動評価尺度 - - 22 - ハルシネーションに頑健な自動評価尺度DENEBを提案 - Polos[Wada+, CVPR24

Appendix

Appendix: エラー分析 - - 24 - 注目領域の相違 (Focus Area Discrepancy,

Appendix: エラー分析 - - 25 - 文法エラー (Grammatical Error, GE)

定性的結果 (FOIL) - - 26