Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SNLP2023: When and Why Vision-Language Models Behave like Bags-Of-Words, and What to Do About It?

mmuraoka
August 20, 2023

SNLP2023: When and Why Vision-Language Models Behave like Bags-Of-Words, and What to Do About It?

第15回最先端NLP勉強会の発表資料
https://sites.google.com/view/snlp-jp/home/2023

Mert Yüksekgönül, Federico Bianchi, Pratyusha Kalluri, Dan Jurafsky, and James Zou. When and Why Vision-Language Models Behave like Bags-Of-Words, and What to Do About It? (ICLR2023)

mmuraoka

August 20, 2023
Tweet

Other Decks in Research

Transcript

  1. 第15回最先端NLP勉強会 When and Why Vision-Language Models Behave like Bags-Of-Words, and

    What to Do About It? Mert Yüksekgönül, Federico Bianchi, Pratyusha Kalluri, Dan Jurafsky, James Zou (Stanford University) ICLR 2023 発表者︓村岡 雅康 特に断りがない場合,図表は原論⽂からの引⽤・抜粋(⼀部改変含む)
  2. •Vision and Language Models (VLMs)の視覚的⾔語的構成性 および語順に関する性能分析を⾏なった研究 • 位置付け︓VLMsの視覚的⾔語的な理解能⼒を検証する研究に寄与 • 背景︓構成性および語順の理解能⼒を直接的に測った研究がない

    どんな論⽂︖ 第15回最先端NLP勉強会 (SNLP2023) 2 SOTA VLMsは構成性・語順を 理解しているか︖ なぜ構成性・語順を理解 できていないのか︖ どうすれば構成性・語順を 理解できるか︖ ❌ No (理解してるとは⾔えない) VLMsの事前学習では それらの理解が不要だから hard negativeを⽤いた 対照学習
  3. 分析1︓VLMsの構成性・語順理解能⼒の評価実験 3 • AROベンチマーク︓構成性や語順を理解していないと解けないタスク設定 • 既存のVLデータセットから機械的に作成 物体の属性理解タスク ・テンプレート︓ the [attribute

    𝑖] [object 𝑖] and the [attribute 𝑗] [object 𝑗] 物体間の関係理解タスク ・テンプレート︓the [object 𝑖] is [relation] the [object 𝑗] キャプションの語順理解タスク ・既存⼿法[OʼConnor&Andreasʼ21]を参考に,4種類の摂動を適⽤ 負例は⼊れ替えて作成 Visual Genome (VG) [Hudson&Manningʼ19] node: object, edge: relation other: attribute 第15回最先端NLP勉強会 (SNLP2023) 具体例 作成⽅法 →構成単語は不変 48種類の関係 117種類の属性
  4. 評価モデルとAROベンチマークの解き⽅ 第15回最先端NLP勉強会 (SNLP2023) 4 AROベンチマークの解き⽅ • ⼊⼒画像を最も適切に表している キャプションを選択する選択肢形式タスク • モデルは画像と全キャプションを

    エンコードし,画像特徴量との類似度が 最も⾼い特徴量をもつキャプションを選択 共通点 • 学習データの形式はimage-captionペア • 全てのモデルに対照学習が含まれている CLIP [Radford+ʼ21] ViT the horse is eating the grass Trans former ℒ!"## BLIP [Li+ʼ22] ViT the horse is eating the grass ℒ!"## BERT BERT BERT ×3 ×3 X-VLM [Zeng+ʼ22] ×3 ViT the horse is eating the grass ℒ!"## Trans former BERT ℒ!"## Flava [Singh+ʼ22] ViT the horse is eating the grass ℒ!"## Trans former Trans former ℒ!"## ℒ!"## ℒ!"## ×2 ※モデルの略図.詳細は各原論⽂を参照. Image Encoder ⨀ Text Encoder 内積 cos類似度と等価 ※⼀部⾃作 正規化 正規化
  5. • 性能差はあるものの,どのモデルも苦⼿分野がある • Bag-of-Wordsに近い挙動 結果 → VLMsは構成性・語順を理解してなさそう 第15回最先端NLP勉強会 (SNLP2023) 5

    → 3つのVLMsが7割超え → 3つのVLMsがチャンスレベルか それ以下 → Flavaが特に悪く,CLIPは健闘 --- チャンスレベル
  6. → そもそも事前学習タスクで構成性・ 語順の理解が必要ないのでは︖ • VLMsの事前学習︓image-captionペア の対照学習 • 正例の特徴量は互いに類似し, 負例の特徴量は異なるように学習(下図) →

    正例のペアの検索をしていると⾔える → 検索タスクとみなせる • 事前学習(検索タスク)で構成性と語順 の⼿がかりをなくした状態で評価(右図) 分析2︓VLMsの構成性・語順理解能⼒⽋如の原因究明実験 第15回最先端NLP勉強会 (SNLP2023) 6 Image Negative caption Positive caption Push Pull Negative caption ※⾃作 キャプションの語順をシャッフル 画像をパッチ分割してシャッフル 負例はデータセットから ランダムサンプリング
  7. •ほとんど全ての設定で性能は⼤きく悪化しない • Originalからの性能差が⼩さい 結果 → VLMsは検索タスクで構成性・語順の理解は不要 第15回最先端NLP勉強会 (SNLP2023) 7 Shuffle

    Columns (4): 画像を縦に4分割してシャッフル Shuffle Rows (4): 画像を横に4分割してシャッフル Shuffle Patches (9): 画像を縦横に9分割してシャッフル TextRec@1: Image-to-text Recall@1 ImageRec@1: Text-to-image Recall@1 ↓元のデータセットでの性能
  8. •VLMsの事前学習では,構成性・語順を気にしなくても そこそこ解けてしまう • 理由︓単純に正例・負例間の識別しか求められないから → bag-of-wordsさえ考慮すれば良い → 構成性・語順を気にするような新しい学習⽅法を提案 考察 第15回最先端NLP勉強会

    (SNLP2023) 8 Image Negative caption Positive caption Push Pull Negative caption ※⾃作 負例はデータセットから ランダムサンプリング 1. captionは[CLS]トークン相当の⽂ベクトル 2. データセットが多様であるほど 正例と負例は⼤きく異なるため, タスクとしての難易度は下がる(と考えられる) 【補⾜】
  9. まとめ 第15回最先端NLP勉強会 (SNLP2023) 11 SOTA VLMsは構成性・語順を 理解しているか︖ なぜ構成性・語順を理解 できていないのか︖ どうすれば構成性・語順を

    理解できるか︖ ❌ No (理解してるとは⾔えない) VLMsの事前学習では それらの理解が不要だから hard negativeを⽤いた 対照学習 AROベンチマークを提案 属性理解はそこそこ 関係・語順理解は苦⼿ 構成性・語順情報がなくても ⼤きな性能低下が起きない AROベンチマークで性能向上 既存タスクで性能維持を確認 既存の学習⽅法に改善の余地