[Journal club] PAC-Score: Positive-Augmented Contrastive Learning for Image and Video Captioning Evaluation

Slide 1

Slide 1 text

PAC-Score: Positive-Augmented Contrastive Learning for Image and Video Captioning Evaluation 1 Sarto, Sara, et al. “PAC-Score: Positive-Augmented Contrastive Learning for Image and Video Captioning Evaluation” CVPR, 2023. Sara Sarto1 Manuele Barraco1 Marcella Cornia1 Lorenzo Baraldi1 Rita Cucchiara1,2 1University of Modena and Reggio Emilia, Modena, Italy 2IIT-CNR, Pisa, Italy

Slide 2

Slide 2 text

概要: 画像キャプション⽣成の⾃動評価 ■ 背景 ■ 既存の画像キャプション⽣成に対する⾃動評価尺度は，⼈間による評価との相関が不⼗分 ■ ⼤量webデータを⽤いて学習された特徴量抽出器の限界 ■ 提案⼿法 : PAC-Score ■ データセット内の画像と参照⽂から，⽣成モデルを⽤いて画像とキャプションを⽣成 ■ それらを⽤いた対照学習で，CLIP[Radford+, ICML21]をfine-tuning ■ CLIP特徴量空間内でのコサイン類似度を⽤いて評価 ■ 結論画像および動画のキャプション⽣成に対する⾃動評価において，⼈間による評価との⾼い相関 2

Slide 3

Slide 3 text

背景: ⼈間による評価との相関が低い ü 画像キャプション⽣成は，視覚障害者の⽀援やマルチモーダルLLMで活⽤ ü モデル改良のために⼈⼿に代替しうる⾼品質な⾃動評価尺度が不可⽋ Ø ⼈間による評価との⾼い相関が望まれる既存⼿法は⼈間による評価との相関が不⼗分画像キャプション⽣成

Slide 4

Slide 4 text

背景: CLIPは画像キャプションの特徴量抽出に不適 4 CLIP[Radford+, ICML21]を特徴量抽出に⽤いることの限界 l CLIPが学習に⽤いるデータは，webから収集される多種多様な画像と，その画像に対するalt-textで学習 Ø alt-textは単⽂，画像を詳細に説明しない l 画像キャプション⽣成タスクで⽤いるデータ⼈間のアノテータによる包括的かつ⽂脈的な画像キャプション Ø 作成コストが⾼く，簡単に拡張できない Webから収集された⼤量のデータ: • クレンジングされていない • キャプションが低品質かつ短⽂ドメインギャップ

Slide 5

Slide 5 text

関連研究 5 評価⼿法特徴⼊⼒ CIDEr [Vedantam+, CVPR15] !-gramを⽤いたルールベースの評価⼈間による評価との相関が著しく低い⽣成⽂ + 参照⽂ CLIPScore [Hessel+, EMNLP21] CLIPエンコーダーを使⽤ベクトル空間内でのコサイン類似度で評価画像 + ⽣成⽂ (+ 参照⽂) EM-Score [Shi+, CVPR22] ビデオフレームとキャプション間の類似性を評価動画 + ⽣成⽂ CLIPScore EM-Score

Slide 6

Slide 6 text

提案⼿法: PAC-Score Positive-Augmented Contrastive Learning for Image and Video Captioning Evaluation - 6 - 1. image-to-text, text-to-imageの⽣成モデルを⽤いて新たに画像とキャプションを⽣成 2. それらを⽤いてInfoNCE[Oord+, arXiv18]損失を算出しCLIPをfine-tuning 3. fine-tuningされたCLIPで抽出した特徴量同⼠のコサイン類似度でスコア算出

Slide 7

Slide 7 text

提案⼿法: PAC-Score Positive-Augmented Contrastive Learning for Image and Video Captioning Evaluation - 7 - 1. image-to-text, text-to-imageの⽣成モデルを⽤いて新たに画像とキャプションを⽣成 2. それらを⽤いてInfoNCE[Oord+, arXiv18]損失を算出しCLIPをfine-tuning 3. fine-tuningされたCLIPで抽出した特徴量同⼠のコサイン類似度でスコア算出

Slide 8

Slide 8 text

提案⼿法: PAC-Score Positive-Augmented Contrastive Learning for Image and Video Captioning Evaluation - 8 - 1. image-to-text, text-to-imageの⽣成モデルを⽤いて新たに画像とキャプションを⽣成 2. それらを⽤いてInfoNCE[Oord+, arXiv18]損失を算出しCLIPをfine-tuning 3. fine-tuningされたCLIPで抽出した特徴量同⼠のコサイン類似度でスコア算出

Slide 9

Slide 9 text

提案⼿法: PAC-Score Positive-Augmented Contrastive Learning for Image and Video Captioning Evaluation - 9 - 1. image-to-text, text-to-imageの⽣成モデルを⽤いて新たに画像とキャプションを⽣成 2. それらを⽤いてInfoNCE[Oord+, arXiv18]損失を算出しCLIPをfine-tuning 3. fine-tuningされたCLIPで抽出した特徴量同⼠のコサイン類似度でスコア算出

Slide 10

Slide 10 text

提案⼿法(1/4): データセットの拡張 10 参照⽂"と画像#がある時， ■ ViT-L/14[Radford+, ICML21]を⽤いたBLIP[Li+, PMLR22]で画像#から⽣成⽂"′を⽣成 ■ Stable Diffusion[Rombach+, CVPR22]を使⽤して参照⽂"から⽣成画像#′を⽣成 Ø ⽣成モデルを⽤いることで，⾼コストな⼈間によるアノテーションが不要 ! "′ !′ "

Slide 11

Slide 11 text

提案⼿法(2/4): 対照学習における損失の計算 ■ 画像% = #! , #" , … , ## ■ 参照⽂) = "! , "" , … , "# ■ ⽣成画像%$ = #$ ! , #$ " , … , #$ # ■ ⽣成⽂)′ = ["′! , "′" , … , "′# ] ■ InfoNCE損失 (,%,' , ,%!,' , ,%,'! )を計算 ■ 最終的な損失は-( , -)で重み付けし，次のように定義 11 #*と"*が同じクラスに属する確率をコサイン類似度で求める • データセット全体で正規化 • expを⽤いることで差異を強調

Slide 12

Slide 12 text

提案⼿法(3/4): 画像キャプション⽣成の⾃動評価(推論) 12 ■ PAC-S: 参照⽂を⽤いない⾃動評価尺度 Score &, ( = * + max(cos &, ( , 0) ■ RefPAC-S : 参照⽂を⽤いる⾃動評価尺度 Ref − Score &, (, 6 = H − Mean(Score &, ( , max .∈0 cos &, : , 0 )) 出⼒範囲のスケーリング項: 1 画像と⽣成⽂のCLIP特徴量{", #} {", #} のコサイン類似度によって評価 PAC−Sにおけるスコアと，画像−参照⽂間のコサイン類似度の調和平均 {", 4} のコサイン類似度によって評価参照⽂群5 = {4! , 4" , … , 4# }

Slide 13

Slide 13 text

提案⼿法(4/4): 動画キャプション⽣成の⾃動評価(推論) 13 ■ ⽣成⽂"と、ビデオ%の⽐較をする粒度の粗いスコア6789:+ ビデオ;の特徴量: フレーム単位の特徴量を平均値プーリング ■ 単語"と、フレーム%の⽐較をする粒度の細かいスコア6789:, 1. 各単語とフレームの特徴量におけるコサイン類似度を算出 2. コサイン類似度を基に，TF-IDFで重み付けされたF1スコアを算出 ■ PAC-S: 参照⽂を⽤いない⾃動評価尺度 ■ RefPAC-S: 参照⽂を⽤いる⾃動評価尺度参照⽂群5 = {4! , 4" , … , 4# }

Slide 14

Slide 14 text

実験設定 ■ 特徴量抽出: CLIP ViT-B/32[Radford+, CVPR21] ■ データセット: COCO[Lin+, ECCV14] ■ 画像キャプション⽣成の評価ベンチマーク: ü ⼈間による評価との相関: Flickr8k-Expert, Flickr8k-CF[Hodosh+, IJCAI13] ü ⼈間による評価への精度: Pascal-50S & Abstract-50S[Vedantam+, CVPR15] ü ハルシネーションへの頑健性: FOIL[Shekhar+, ACL17] ■ 動画キャプション⽣成の評価ベンチマーク: ü ⼈間による評価との相関: VATEX-EVAL[Shi+, CVPR22] ü ハルシネーションへの頑健性: ActivityNet-FOIL[Shi+, CVPR22] 14

Slide 15

Slide 15 text

定量的結果: 画像キャプション評価⼈間による評価との⾼い相関 ■ モデルの出⼒値と⼈間による評価値の相関係数(kendallʼs <)を⽤いて評価 ■ 参照⽂群を⽤いないPAC-Sも，参照⽂群を⽤いるCIDEr[Vedantam+, CVPR15]や SPICE[Anderson+, ECCV16]を上回る結果 15

Slide 16

Slide 16 text

定量的結果: 動画キャプション評価⼈間による評価との⾼い相関 16 ■ 全ての条件において最⾼の相関スコアを達成 ■ 既存⼿法であるEM-Score[Shi+, CVPR22]を上回る結果

Slide 17

Slide 17 text

定量的結果: ⼈間の評価への⾼い精度 17 Pascal-50S[Vedantam+, CVPR15] ■ HC: ⼈間による２つの正しいキャプション ■ HI: ⼈間による正しいキャプション+⼈間による誤りキャプション ■ HM: ⼈間による正しいキャプション+⽣成モデルによる正しいキャプション ■ MM: ⽣成モデルによる２つの正しいキャプション ü ⼈間による評価が⾼い⽅を選ぶタスク ü ほとんどの既存⼿法より⾼い精度 ü データセット全体ではなく、5つのランダムサンプルで評価するため、他指標と直接⽐較が困難

Slide 18

Slide 18 text

クリップアート単純な画像定量的結果: ⼈間の評価への⾼い精度 18 Abstract-50S[Vedantam+, CVPR15] ■ それぞれのクリップアート画像が、以下のいずれかを持つ ■ 2つの正解キャプションのペア ■ 1つの正解キャプションと1つの誤りキャプションのペア ■ ⼈間による判断との精度を測るタスク ■ 参照⽂群を⽤いる⼿法と⽤いない⼿法の両⽅で、PAC-SはCLIPScore[Hessel+, EMNLP21] よりも⾼い精度 ■ クリップアート画像という評価に⽤いる特徴量が少ない環境でもPAC-Sは有効

Slide 19

Slide 19 text

定量的結果: ハルシネーションに頑健 19 ■ 正しいキャプションがハルシネーションを含むキャプションより⾼いスコアを割り当てる精度 ■ 参照⽂群を⽤いる⼿法と⽤いない⼿法の両⽅で、⾼い精度 →ハルシネーションに頑健

Slide 20

Slide 20 text

定性的結果: ⼈間が好む出⼒に⾼いスコアを出⼒⼈間による評価が⾼い例（緑⾊）により⾼いスコアを割り当て 20 Human Human Human Human

Slide 21

Slide 21 text

追試およびエラー分析: 中間品質に弱い 21 Human 0.5 RefPAC-S 0.926 $!"#$ “a child is on a slide.” $ %&' ( “A child is sliding down a spiral slide on a playground .” エラー分析: • 対照学習を⽤いる⼿法では，正例と負例という品質が極端な⽂を⽤いて学習 • 中間的な品質の⽣成⽂を含むサンプルにおいて，適切な評価値を出⼒することができない不当に⾼い評価

Slide 22

Slide 22 text

まとめ: 画像キャプション⽣成の⾃動評価 ■ 背景 ■ 既存の画像キャプション⽣成に対する⾃動評価尺度は，⼈間による評価との相関が不⼗分 ■ ⼤量webデータを⽤いて学習された特徴量抽出器の限界 ■ 提案⼿法 : PAC-Score ■ データセット内の画像と参照⽂から，⽣成モデルを⽤いて画像とキャプションを⽣成 ■ それらを⽤いた対照学習で，CLIP[Radford+, ICML21]をfine-tuning ■ CLIP特徴量空間内でのコサイン類似度を⽤いて評価 ■ 結論画像および動画のキャプション⽣成に対する⾃動評価において，⼈間による評価との⾼い相関 22

Slide 23

Slide 23 text

Appendix: バックボーンモデルを変更 24 ■ PAC-Sは全てのバックボーンとデータセットの組み合わせにおいて, 他指標より⾼い結果 ■ ViT-L/14を使⽤した場合が最良

Slide 24

Slide 24 text

Appendix - 26 - ■ TF-IDF ü ⽂書中に含まれる各単語が，⽂書内でどれくらい重要かを⽰す尺度 ü TF= ⽂書における対象単語数 / ⽂書における全単語数 ü IDF = log 全⽂書数対象単語を含む⽂書数 + 1 ü TF-IDF=TF×IDF ■ F1 score