$30 off During Our Annual Pro Sale. View Details »

SNLP2023: When and Why Vision-Language Models Behave like Bags-Of-Words, and What to Do About It?

mmuraoka
August 20, 2023

SNLP2023: When and Why Vision-Language Models Behave like Bags-Of-Words, and What to Do About It?

第15回最先端NLP勉強会の発表資料
https://sites.google.com/view/snlp-jp/home/2023

Mert Yüksekgönül, Federico Bianchi, Pratyusha Kalluri, Dan Jurafsky, and James Zou. When and Why Vision-Language Models Behave like Bags-Of-Words, and What to Do About It? (ICLR2023)

mmuraoka

August 20, 2023
Tweet

Other Decks in Research

Transcript

  1. 第15回最先端NLP勉強会
    When and Why Vision-Language
    Models Behave like Bags-Of-Words,
    and What to Do About It?
    Mert Yüksekgönül, Federico Bianchi, Pratyusha Kalluri,
    Dan Jurafsky, James Zou (Stanford University)
    ICLR 2023
    発表者︓村岡 雅康
    特に断りがない場合,図表は原論⽂からの引⽤・抜粋(⼀部改変含む)

    View Slide

  2. •Vision and Language Models (VLMs)の視覚的⾔語的構成性
    および語順に関する性能分析を⾏なった研究
    • 位置付け︓VLMsの視覚的⾔語的な理解能⼒を検証する研究に寄与
    • 背景︓構成性および語順の理解能⼒を直接的に測った研究がない
    どんな論⽂︖
    第15回最先端NLP勉強会 (SNLP2023) 2
    SOTA VLMsは構成性・語順を
    理解しているか︖
    なぜ構成性・語順を理解
    できていないのか︖
    どうすれば構成性・語順を
    理解できるか︖
    ❌ No
    (理解してるとは⾔えない)
    VLMsの事前学習では
    それらの理解が不要だから
    hard negativeを⽤いた
    対照学習

    View Slide

  3. 分析1︓VLMsの構成性・語順理解能⼒の評価実験
    3
    • AROベンチマーク︓構成性や語順を理解していないと解けないタスク設定
    • 既存のVLデータセットから機械的に作成
    物体の属性理解タスク
    ・テンプレート︓
    the [attribute 𝑖] [object 𝑖] and the [attribute 𝑗] [object 𝑗]
    物体間の関係理解タスク
    ・テンプレート︓the [object 𝑖] is [relation] the [object 𝑗]
    キャプションの語順理解タスク
    ・既存⼿法[OʼConnor&Andreasʼ21]を参考に,4種類の摂動を適⽤
    負例は⼊れ替えて作成
    Visual Genome (VG)
    [Hudson&Manningʼ19]
    node: object, edge: relation
    other: attribute
    第15回最先端NLP勉強会 (SNLP2023)
    具体例 作成⽅法
    →構成単語は不変
    48種類の関係
    117種類の属性

    View Slide

  4. 評価モデルとAROベンチマークの解き⽅
    第15回最先端NLP勉強会 (SNLP2023) 4
    AROベンチマークの解き⽅
    • ⼊⼒画像を最も適切に表している
    キャプションを選択する選択肢形式タスク
    • モデルは画像と全キャプションを
    エンコードし,画像特徴量との類似度が
    最も⾼い特徴量をもつキャプションを選択
    共通点
    • 学習データの形式はimage-captionペア
    • 全てのモデルに対照学習が含まれている
    CLIP
    [Radford+ʼ21]
    ViT
    the horse
    is eating
    the grass
    Trans
    former
    ℒ!"##
    BLIP
    [Li+ʼ22]
    ViT
    the horse
    is eating
    the grass
    ℒ!"##
    BERT
    BERT
    BERT
    ×3
    ×3
    X-VLM
    [Zeng+ʼ22]
    ×3
    ViT
    the horse
    is eating
    the grass
    ℒ!"##
    Trans
    former
    BERT
    ℒ!"##
    Flava
    [Singh+ʼ22]
    ViT
    the horse
    is eating
    the grass
    ℒ!"##
    Trans
    former
    Trans
    former
    ℒ!"##
    ℒ!"##
    ℒ!"##
    ×2
    ※モデルの略図.詳細は各原論⽂を参照.
    Image
    Encoder

    Text
    Encoder
    内積
    cos類似度と等価
    ※⼀部⾃作
    正規化 正規化

    View Slide

  5. • 性能差はあるものの,どのモデルも苦⼿分野がある
    • Bag-of-Wordsに近い挙動
    結果 → VLMsは構成性・語順を理解してなさそう
    第15回最先端NLP勉強会 (SNLP2023) 5
    → 3つのVLMsが7割超え
    → 3つのVLMsがチャンスレベルか
    それ以下
    → Flavaが特に悪く,CLIPは健闘
    --- チャンスレベル

    View Slide

  6. → そもそも事前学習タスクで構成性・
    語順の理解が必要ないのでは︖
    • VLMsの事前学習︓image-captionペア
    の対照学習
    • 正例の特徴量は互いに類似し,
    負例の特徴量は異なるように学習(下図)
    → 正例のペアの検索をしていると⾔える
    → 検索タスクとみなせる
    • 事前学習(検索タスク)で構成性と語順
    の⼿がかりをなくした状態で評価(右図)
    分析2︓VLMsの構成性・語順理解能⼒⽋如の原因究明実験
    第15回最先端NLP勉強会 (SNLP2023) 6
    Image
    Negative caption
    Positive caption
    Push
    Pull
    Negative caption
    ※⾃作
    キャプションの語順をシャッフル
    画像をパッチ分割してシャッフル
    負例はデータセットから
    ランダムサンプリング

    View Slide

  7. •ほとんど全ての設定で性能は⼤きく悪化しない
    • Originalからの性能差が⼩さい
    結果 → VLMsは検索タスクで構成性・語順の理解は不要
    第15回最先端NLP勉強会 (SNLP2023) 7
    Shuffle Columns (4): 画像を縦に4分割してシャッフル
    Shuffle Rows (4): 画像を横に4分割してシャッフル
    Shuffle Patches (9): 画像を縦横に9分割してシャッフル
    TextRec@1: Image-to-text Recall@1
    ImageRec@1: Text-to-image Recall@1
    ↓元のデータセットでの性能

    View Slide

  8. •VLMsの事前学習では,構成性・語順を気にしなくても
    そこそこ解けてしまう
    • 理由︓単純に正例・負例間の識別しか求められないから
    → bag-of-wordsさえ考慮すれば良い
    → 構成性・語順を気にするような新しい学習⽅法を提案
    考察
    第15回最先端NLP勉強会 (SNLP2023) 8
    Image
    Negative caption
    Positive caption
    Push
    Pull
    Negative caption
    ※⾃作
    負例はデータセットから
    ランダムサンプリング
    1. captionは[CLS]トークン相当の⽂ベクトル
    2. データセットが多様であるほど
    正例と負例は⼤きく異なるため,
    タスクとしての難易度は下がる(と考えられる)
    【補⾜】

    View Slide

  9. •構成性・語順を考慮しないと解けない難しい負例を追加
    提案⼿法︓hard negativeを⽤いた対照学習
    第15回最先端NLP勉強会 (SNLP2023) 9
    キャプション → 正解キャプション中の語順をシャッフル
    画像 → 正解画像に似た画像を取得
    CLIPのcos類似度を⽤いる
    提案⼿法の1バッチ
    従来⼿法の1バッチ

    View Slide

  10. •計算コストの都合上,CLIPのみで実験
    •考察
    • 既存のVLMsが構成性・語順の理解で成績
    が悪かったのは,モデルの限界ではなく,
    学習⽅法が悪かっただけ
    • 単純な改良でも性能向上したので,より
    賢い学習⽅法でさらにVLMsの性能向上が
    期待される(future work)
    結果 → 提案タスクでの性能向上,既存タスクでの性能維持
    第15回最先端NLP勉強会 (SNLP2023) 10
    既存タスク
    提案タスク (提案⼿法)

    View Slide

  11. まとめ
    第15回最先端NLP勉強会 (SNLP2023) 11
    SOTA VLMsは構成性・語順を
    理解しているか︖
    なぜ構成性・語順を理解
    できていないのか︖
    どうすれば構成性・語順を
    理解できるか︖
    ❌ No
    (理解してるとは⾔えない)
    VLMsの事前学習では
    それらの理解が不要だから
    hard negativeを⽤いた
    対照学習
    AROベンチマークを提案
    属性理解はそこそこ
    関係・語順理解は苦⼿
    構成性・語順情報がなくても
    ⼤きな性能低下が起きない
    AROベンチマークで性能向上
    既存タスクで性能維持を確認
    既存の学習⽅法に改善の余地

    View Slide