SNLP2023: When and Why Vision-Language Models Behave like Bags-Of-Words, and What to Do About It?

第15回最先端NLP勉強会 When and Why Vision-Language Models Behave like Bags-Of-Words, and
What to Do About It? Mert Yüksekgönül, Federico Bianchi, Pratyusha Kalluri, Dan Jurafsky, James Zou (Stanford University) ICLR 2023 発表者︓村岡雅康特に断りがない場合，図表は原論⽂からの引⽤・抜粋(⼀部改変含む)

•Vision and Language Models (VLMs)の視覚的⾔語的構成性および語順に関する性能分析を⾏なった研究 • 位置付け︓VLMsの視覚的⾔語的な理解能⼒を検証する研究に寄与 • 背景︓構成性および語順の理解能⼒を直接的に測った研究がない
どんな論⽂︖ 第15回最先端NLP勉強会 (SNLP2023) 2 SOTA VLMsは構成性・語順を理解しているか︖ なぜ構成性・語順を理解できていないのか︖ どうすれば構成性・語順を理解できるか︖ ❌ No (理解してるとは⾔えない) VLMsの事前学習ではそれらの理解が不要だから hard negativeを⽤いた対照学習

分析1︓VLMsの構成性・語順理解能⼒の評価実験 3 • AROベンチマーク︓構成性や語順を理解していないと解けないタスク設定 • 既存のVLデータセットから機械的に作成物体の属性理解タスク・テンプレート︓ the [attribute
𝑖] [object 𝑖] and the [attribute 𝑗] [object 𝑗] 物体間の関係理解タスク・テンプレート︓the [object 𝑖] is [relation] the [object 𝑗] キャプションの語順理解タスク・既存⼿法[OʼConnor&Andreasʼ21]を参考に，4種類の摂動を適⽤負例は⼊れ替えて作成 Visual Genome (VG) [Hudson&Manningʼ19] node: object, edge: relation other: attribute 第15回最先端NLP勉強会 (SNLP2023) 具体例作成⽅法 →構成単語は不変 48種類の関係 117種類の属性

評価モデルとAROベンチマークの解き⽅第15回最先端NLP勉強会 (SNLP2023) 4 AROベンチマークの解き⽅ • ⼊⼒画像を最も適切に表しているキャプションを選択する選択肢形式タスク • モデルは画像と全キャプションを
エンコードし，画像特徴量との類似度が最も⾼い特徴量をもつキャプションを選択共通点 • 学習データの形式はimage-captionペア • 全てのモデルに対照学習が含まれている CLIP [Radford+ʼ21] ViT the horse is eating the grass Trans former ℒ!"## BLIP [Li+ʼ22] ViT the horse is eating the grass ℒ!"## BERT BERT BERT ×3 ×3 X-VLM [Zeng+ʼ22] ×3 ViT the horse is eating the grass ℒ!"## Trans former BERT ℒ!"## Flava [Singh+ʼ22] ViT the horse is eating the grass ℒ!"## Trans former Trans former ℒ!"## ℒ!"## ℒ!"## ×2 ※モデルの略図．詳細は各原論⽂を参照． Image Encoder ⨀ Text Encoder 内積 cos類似度と等価 ※⼀部⾃作正規化正規化

• 性能差はあるものの，どのモデルも苦⼿分野がある • Bag-of-Wordsに近い挙動結果 → VLMsは構成性・語順を理解してなさそう第15回最先端NLP勉強会 (SNLP2023) 5
→ 3つのVLMsが7割超え → 3つのVLMsがチャンスレベルかそれ以下 → Flavaが特に悪く，CLIPは健闘 --- チャンスレベル

→ そもそも事前学習タスクで構成性・語順の理解が必要ないのでは︖ • VLMsの事前学習︓image-captionペアの対照学習 • 正例の特徴量は互いに類似し，負例の特徴量は異なるように学習(下図) →
正例のペアの検索をしていると⾔える → 検索タスクとみなせる • 事前学習(検索タスク)で構成性と語順の⼿がかりをなくした状態で評価(右図) 分析2︓VLMsの構成性・語順理解能⼒⽋如の原因究明実験第15回最先端NLP勉強会 (SNLP2023) 6 Image Negative caption Positive caption Push Pull Negative caption ※⾃作キャプションの語順をシャッフル画像をパッチ分割してシャッフル負例はデータセットからランダムサンプリング

•ほとんど全ての設定で性能は⼤きく悪化しない • Originalからの性能差が⼩さい結果 → VLMsは検索タスクで構成性・語順の理解は不要第15回最先端NLP勉強会 (SNLP2023) 7 Shuffle
Columns (4): 画像を縦に4分割してシャッフル Shuffle Rows (4): 画像を横に4分割してシャッフル Shuffle Patches (9): 画像を縦横に9分割してシャッフル TextRec@1: Image-to-text Recall@1 ImageRec@1: Text-to-image Recall@1 ↓元のデータセットでの性能

•VLMsの事前学習では，構成性・語順を気にしなくてもそこそこ解けてしまう • 理由︓単純に正例・負例間の識別しか求められないから → bag-of-wordsさえ考慮すれば良い → 構成性・語順を気にするような新しい学習⽅法を提案考察第15回最先端NLP勉強会
(SNLP2023) 8 Image Negative caption Positive caption Push Pull Negative caption ※⾃作負例はデータセットからランダムサンプリング 1. captionは[CLS]トークン相当の⽂ベクトル 2. データセットが多様であるほど正例と負例は⼤きく異なるため，タスクとしての難易度は下がる(と考えられる) 【補⾜】

•構成性・語順を考慮しないと解けない難しい負例を追加提案⼿法︓hard negativeを⽤いた対照学習第15回最先端NLP勉強会 (SNLP2023) 9 キャプション → 正解キャプション中の語順をシャッフル画像
→ 正解画像に似た画像を取得 CLIPのcos類似度を⽤いる提案⼿法の1バッチ従来⼿法の1バッチ

•計算コストの都合上，CLIPのみで実験 •考察 • 既存のVLMsが構成性・語順の理解で成績が悪かったのは，モデルの限界ではなく，学習⽅法が悪かっただけ • 単純な改良でも性能向上したので，より賢い学習⽅法でさらにVLMsの性能向上が期待される(future
work) 結果 → 提案タスクでの性能向上，既存タスクでの性能維持第15回最先端NLP勉強会 (SNLP2023) 10 既存タスク提案タスク (提案⼿法)

まとめ第15回最先端NLP勉強会 (SNLP2023) 11 SOTA VLMsは構成性・語順を理解しているか︖ なぜ構成性・語順を理解できていないのか︖ どうすれば構成性・語順を
理解できるか︖ ❌ No (理解してるとは⾔えない) VLMsの事前学習ではそれらの理解が不要だから hard negativeを⽤いた対照学習 AROベンチマークを提案属性理解はそこそこ関係・語順理解は苦⼿構成性・語順情報がなくても⼤きな性能低下が起きない AROベンチマークで性能向上既存タスクで性能維持を確認既存の学習⽅法に改善の余地

SNLP2023: When and Why Vision-Language Models B...

SNLP2023: When and Why Vision-Language Models Behave like Bags-Of-Words, and What to Do About It?

mmuraoka

Other Decks in Research

Featured

Transcript

第15回最先端NLP勉強会 When and Why Vision-Language Models Behave like Bags-Of-Words, and

分析1︓VLMsの構成性・語順理解能⼒の評価実験 3 • AROベンチマーク︓構成性や語順を理解していないと解けないタスク設定 • 既存のVLデータセットから機械的に作成物体の属性理解タスク・テンプレート︓ the [attribute

評価モデルとAROベンチマークの解き⽅第15回最先端NLP勉強会 (SNLP2023) 4 AROベンチマークの解き⽅ • ⼊⼒画像を最も適切に表しているキャプションを選択する選択肢形式タスク • モデルは画像と全キャプションを

• 性能差はあるものの，どのモデルも苦⼿分野がある • Bag-of-Wordsに近い挙動結果 → VLMsは構成性・語順を理解してなさそう第15回最先端NLP勉強会 (SNLP2023) 5

→ そもそも事前学習タスクで構成性・語順の理解が必要ないのでは︖ • VLMsの事前学習︓image-captionペアの対照学習 • 正例の特徴量は互いに類似し，負例の特徴量は異なるように学習(下図) →

•ほとんど全ての設定で性能は⼤きく悪化しない • Originalからの性能差が⼩さい結果 → VLMsは検索タスクで構成性・語順の理解は不要第15回最先端NLP勉強会 (SNLP2023) 7 Shuffle

•構成性・語順を考慮しないと解けない難しい負例を追加提案⼿法︓hard negativeを⽤いた対照学習第15回最先端NLP勉強会 (SNLP2023) 9 キャプション → 正解キャプション中の語順をシャッフル画像

まとめ第15回最先端NLP勉強会 (SNLP2023) 11 SOTA VLMsは構成性・語順を理解しているか︖ なぜ構成性・語順を理解できていないのか︖ どうすれば構成性・語順を