Slide 1

Slide 1 text

PAC-Score: Positive-Augmented Contrastive Learning for Image and Video Captioning Evaluation 1 Sarto, Sara, et al. “PAC-Score: Positive-Augmented Contrastive Learning for Image and Video Captioning Evaluation” CVPR, 2023. Sara Sarto1 Manuele Barraco1 Marcella Cornia1 Lorenzo Baraldi1 Rita Cucchiara1,2 1University of Modena and Reggio Emilia, Modena, Italy 2IIT-CNR, Pisa, Italy

Slide 2

Slide 2 text

概要: 画像キャプション⽣成の⾃動評価 ■ 背景 ■ 既存の画像キャプション⽣成に対する⾃動評価尺度は, ⼈間による評価との相関が不⼗分 ■ ⼤量webデータを⽤いて学習された 特徴量抽出器の限界 ■ 提案⼿法 : PAC-Score ■ データセット内の画像と参照⽂から,⽣成モデルを⽤いて画像とキャプションを⽣成 ■ それらを⽤いた対照学習で,CLIP[Radford+, ICML21]をfine-tuning ■ CLIP特徴量空間内でのコサイン類似度を⽤いて評価 ■ 結論 画像および動画のキャプション⽣成に対する⾃動評価において,⼈間による評価との⾼い相関 2

Slide 3

Slide 3 text

背景: ⼈間による評価との相関が低い ü 画像キャプション⽣成は,視覚障害者の⽀援や マルチモーダルLLMで活⽤ ü モデル改良のために⼈⼿に代替しうる⾼品質な ⾃動評価尺度が不可⽋ Ø ⼈間による評価との⾼い相関が望まれる 既存⼿法は ⼈間による評価との相関が不⼗分 画像キャプション⽣成

Slide 4

Slide 4 text

背景: CLIPは画像キャプションの特徴量抽出に不適 4 CLIP[Radford+, ICML21]を特徴量抽出に⽤いることの限界 l CLIPが学習に⽤いるデータは,webから収集される 多種多様な画像と,その画像に対するalt-textで学習 Ø alt-textは単⽂,画像を詳細に説明しない l 画像キャプション⽣成タスクで⽤いるデータ ⼈間のアノテータによる包括的かつ⽂脈的な画像キャプション Ø 作成コストが⾼く,簡単に拡張できない Webから収集された⼤量のデータ: • クレンジングされていない • キャプションが低品質かつ短⽂ ドメインギャップ

Slide 5

Slide 5 text

関連研究 5 評価⼿法 特徴 ⼊⼒ CIDEr [Vedantam+, CVPR15] !-gramを⽤いたルールベースの評価 ⼈間による評価との相関が著しく低い ⽣成⽂ + 参照⽂ CLIPScore [Hessel+, EMNLP21] CLIPエンコーダーを使⽤ ベクトル空間内でのコサイン類似度で評価 画像 + ⽣成⽂ (+ 参照⽂) EM-Score [Shi+, CVPR22] ビデオフレームとキャプション間の 類似性を評価 動画 + ⽣成⽂ CLIPScore EM-Score

Slide 6

Slide 6 text

提案⼿法: PAC-Score Positive-Augmented Contrastive Learning for Image and Video Captioning Evaluation - 6 - 1. image-to-text, text-to-imageの⽣成モデルを⽤いて新たに画像とキャプションを⽣成 2. それらを⽤いてInfoNCE[Oord+, arXiv18]損失を算出しCLIPをfine-tuning 3. fine-tuningされたCLIPで抽出した特徴量同⼠のコサイン類似度でスコア算出

Slide 7

Slide 7 text

提案⼿法: PAC-Score Positive-Augmented Contrastive Learning for Image and Video Captioning Evaluation - 7 - 1. image-to-text, text-to-imageの⽣成モデルを⽤いて新たに画像とキャプションを⽣成 2. それらを⽤いてInfoNCE[Oord+, arXiv18]損失を算出しCLIPをfine-tuning 3. fine-tuningされたCLIPで抽出した特徴量同⼠のコサイン類似度でスコア算出

Slide 8

Slide 8 text

提案⼿法: PAC-Score Positive-Augmented Contrastive Learning for Image and Video Captioning Evaluation - 8 - 1. image-to-text, text-to-imageの⽣成モデルを⽤いて新たに画像とキャプションを⽣成 2. それらを⽤いてInfoNCE[Oord+, arXiv18]損失を算出しCLIPをfine-tuning 3. fine-tuningされたCLIPで抽出した特徴量同⼠のコサイン類似度でスコア算出

Slide 9

Slide 9 text

提案⼿法: PAC-Score Positive-Augmented Contrastive Learning for Image and Video Captioning Evaluation - 9 - 1. image-to-text, text-to-imageの⽣成モデルを⽤いて新たに画像とキャプションを⽣成 2. それらを⽤いてInfoNCE[Oord+, arXiv18]損失を算出しCLIPをfine-tuning 3. fine-tuningされたCLIPで抽出した特徴量同⼠のコサイン類似度でスコア算出

Slide 10

Slide 10 text

提案⼿法(1/4): データセットの拡張 10 参照⽂"と画像#がある時, ■ ViT-L/14[Radford+, ICML21]を⽤いたBLIP[Li+, PMLR22]で画像#から⽣成⽂"′を⽣成 ■ Stable Diffusion[Rombach+, CVPR22]を使⽤して参照⽂"から⽣成画像#′を⽣成 Ø ⽣成モデルを⽤いることで,⾼コストな⼈間によるアノテーションが不要 ! "′ !′ "

Slide 11

Slide 11 text

提案⼿法(2/4): 対照学習における損失の計算 ■ 画像% = #! , #" , … , ## ■ 参照⽂) = "! , "" , … , "# ■ ⽣成画像%$ = #$ ! , #$ " , … , #$ # ■ ⽣成⽂)′ = ["′! , "′" , … , "′# ] ■ InfoNCE損失 (,%,' , ,%!,' , ,%,'! )を計算 ■ 最終的な損失は-( , -)で重み付けし,次のように定義 11 #*と"*が同じクラスに属 する確率をコサイン類 似度で求める • データセット全体で 正規化 • expを⽤いることで 差異を強調

Slide 12

Slide 12 text

提案⼿法(3/4): 画像キャプション⽣成の⾃動評価(推論) 12 ■ PAC-S: 参照⽂を⽤いない⾃動評価尺度 Score &, ( = * + max(cos &, ( , 0) ■ RefPAC-S : 参照⽂を⽤いる⾃動評価尺度 Ref − Score &, (, 6 = H − Mean(Score &, ( , max .∈0 cos &, : , 0 )) 出⼒範囲のスケーリング項: 1 画像と⽣成⽂のCLIP特徴量{", #} {", #} のコサイン類似度によって評価 PAC−Sにおけるスコアと,画像−参照⽂間のコサイン類似度の調和平均 {", 4} のコサイン類似度によって評価 参照⽂群5 = {4! , 4" , … , 4# }

Slide 13

Slide 13 text

提案⼿法(4/4): 動画キャプション⽣成の⾃動評価(推論) 13 ■ ⽣成⽂"と、ビデオ%の⽐較をする粒度の粗いスコア6789:+ ビデオ;の特徴量: フレーム単位の特徴量を平均値プーリング ■ 単語"と、フレーム%の⽐較をする粒度の細かいスコア6789:, 1. 各単語とフレームの特徴量におけるコサイン類似度を算出 2. コサイン類似度を基に,TF-IDFで重み付けされたF1スコアを算出 ■ PAC-S: 参照⽂を⽤いない⾃動評価尺度 ■ RefPAC-S: 参照⽂を⽤いる⾃動評価尺度 参照⽂群5 = {4! , 4" , … , 4# }

Slide 14

Slide 14 text

実験設定 ■ 特徴量抽出: CLIP ViT-B/32[Radford+, CVPR21] ■ データセット: COCO[Lin+, ECCV14] ■ 画像キャプション⽣成の評価ベンチマーク: ü ⼈間による評価との相関: Flickr8k-Expert, Flickr8k-CF[Hodosh+, IJCAI13] ü ⼈間による評価への精度: Pascal-50S & Abstract-50S[Vedantam+, CVPR15] ü ハルシネーションへの頑健性: FOIL[Shekhar+, ACL17] ■ 動画キャプション⽣成の評価ベンチマーク: ü ⼈間による評価との相関: VATEX-EVAL[Shi+, CVPR22] ü ハルシネーションへの頑健性: ActivityNet-FOIL[Shi+, CVPR22] 14

Slide 15

Slide 15 text

定量的結果: 画像キャプション評価 ⼈間による評価との⾼い相関 ■ モデルの出⼒値と⼈間による評価値の 相関係数(kendallʼs <)を⽤いて評価 ■ 参照⽂群を⽤いないPAC-Sも,参照⽂ 群を⽤いるCIDEr[Vedantam+, CVPR15]や SPICE[Anderson+, ECCV16]を上回る結果 15

Slide 16

Slide 16 text

定量的結果: 動画キャプション評価 ⼈間による評価との⾼い相関 16 ■ 全ての条件において最⾼の相関スコアを達成 ■ 既存⼿法であるEM-Score[Shi+, CVPR22]を上回る結果

Slide 17

Slide 17 text

定量的結果: ⼈間の評価への⾼い精度 17 Pascal-50S[Vedantam+, CVPR15] ■ HC: ⼈間による2つの正しいキャプション ■ HI: ⼈間による正しいキャプション+⼈間による誤り キャプション ■ HM: ⼈間による正しいキャプション+⽣成モデルによ る正しいキャプション ■ MM: ⽣成モデルによる2つの正しいキャプション ü ⼈間による評価が⾼い⽅を選ぶタスク ü ほとんどの既存⼿法より⾼い精度 ü データセット全体ではなく、5つのランダムサンプル で評価するため、他指標と直接⽐較が困難

Slide 18

Slide 18 text

クリップアート 単純な画像 定量的結果: ⼈間の評価への⾼い精度 18 Abstract-50S[Vedantam+, CVPR15] ■ それぞれのクリップアート画像が、以下のいずれかを持つ ■ 2つの正解キャプションのペア ■ 1つの正解キャプションと1つの誤りキャプションのペア ■ ⼈間による判断との精度を測るタスク ■ 参照⽂群を⽤いる⼿法と⽤いない⼿法の両⽅で、PAC-SはCLIPScore[Hessel+, EMNLP21] よりも⾼い精度 ■ クリップアート画像という評価に⽤いる特徴量が少ない環境でもPAC-Sは有効

Slide 19

Slide 19 text

定量的結果: ハルシネーションに頑健 19 ■ 正しいキャプションがハルシネーションを含むキャプションより⾼い スコアを割り当てる精度 ■ 参照⽂群を⽤いる⼿法と⽤いない⼿法の両⽅で、⾼い精度 →ハルシネーションに頑健

Slide 20

Slide 20 text

定性的結果: ⼈間が好む出⼒に⾼いスコアを出⼒ ⼈間による評価が⾼い例(緑⾊)により⾼いスコアを割り当て 20 Human Human Human Human

Slide 21

Slide 21 text

追試およびエラー分析: 中間品質に弱い 21 Human 0.5 RefPAC-S 0.926 $!"#$ “a child is on a slide.” $ %&' ( “A child is sliding down a spiral slide on a playground .” エラー分析: • 対照学習を⽤いる⼿法では, 正例と負例という品質が極端 な⽂を⽤いて学習 • 中間的な品質の⽣成⽂を含む サンプルにおいて,適切な評 価値を出⼒することができな い 不当に⾼い評価

Slide 22

Slide 22 text

まとめ: 画像キャプション⽣成の⾃動評価 ■ 背景 ■ 既存の画像キャプション⽣成に対する⾃動評価尺度は, ⼈間による評価との相関が不⼗分 ■ ⼤量webデータを⽤いて学習された 特徴量抽出器の限界 ■ 提案⼿法 : PAC-Score ■ データセット内の画像と参照⽂から,⽣成モデルを⽤いて画像とキャプションを⽣成 ■ それらを⽤いた対照学習で,CLIP[Radford+, ICML21]をfine-tuning ■ CLIP特徴量空間内でのコサイン類似度を⽤いて評価 ■ 結論 画像および動画のキャプション⽣成に対する⾃動評価において,⼈間による評価との⾼い相関 22

Slide 23

Slide 23 text

Appendix: バックボーンモデルを変更 24 ■ PAC-Sは全てのバックボーンとデータセットの組み合わせにおいて, 他 指標より⾼い結果 ■ ViT-L/14を使⽤した場合が最良

Slide 24

Slide 24 text

Appendix - 26 - ■ TF-IDF ü ⽂書中に含まれる各単語が,⽂書内でどれくらい重要かを⽰す尺度 ü TF= ⽂書における対象単語数 / ⽂書における全単語数 ü IDF = log 全⽂書数 対象単語を含む⽂書数 + 1 ü TF-IDF=TF×IDF ■ F1 score