Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone

[Journal club] Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. Coarse-to-Fine Vision-Language Pre-training
    with Fusion in the Backbone
    Zi-Yi Dou∗‡, Aishwarya Kamath*♮, Zhe Gan*†♠, Pengchuan Zhang §, Jianfeng Wang†, Linjie Li†,
    Zicheng Liu†, Ce Liu†, Yann LeCun♮, Nanyun Peng‡, Jianfeng Gao†, Lijuan Wang†
    †Microsoft ‡University of California, Los Angeles ♮New York University
    *Equal Technical Contribution ♠Project Lead §Work done while at Microsoft
    慶應義塾大学 杉浦孔明研究室 畑中駿平
    Dou, Zi-Yi, et al. "Coarse-to-fine vision-language pre-training with fusion in the backbone." NeurIPS 2022.

    View Slide

  2. ▸ 背景
    ▹ 既存のVision and Language Pretraind (VLP) の多くは、
    画像全体または領域単位のタスクそれぞれを対象としている
    ▸ 提案
    ▹ 両方の種類のタスクをシームレスに処理可能なVLモデル構造
    FIBER (Fusion-In-the-Backbone-based transformER) の提案
    ▸ 結果
    ▹ 様々な種類のタスクにおいて一貫した性能向上を実現
    2
    概要

    View Slide

  3. ▸ 現在VLPで高い性能が報告されているタスク(UNITER [Chen+,
    ECCV20]、LXMERT [Tan+, EMNLP19] など)
    ▹ Visual Question Answering (VQA)
    ▹ Visual reasoning
    ▹ Image captioning
    ▹ Image-text retrieval
    ▸ これらの手法で用いられている事前学習
    ▹ image-text matching
    ▹ image conditioned masked language modeling
    ▹ image-text contrastive learning
    3
    背景:VLPの研究が注目されている
    UNITER [Chen+, ECCV20]
    LXMERT [Tan+, EMNLP19]

    View Slide

  4. ▸ Visualのみのタスクの例:画像分類・物体検出
    ▸ VLタスクとして位置づけることで恩恵を得られることが示されている
    ▹ MDETER [Kamath+, ICCV21]
    ▹ GLIP [Li+, CVPR22]
    ▹ Object Detection (OD) とフレーズ接地を統合した事前学習タスク
    4
    背景:VisualのみのタスクもVLタスクとして
    位置づけることで性能向上を図る
    MDETER [Kamath+, ICCV21] GLIP [Li+, CVPR22]

    View Slide

  5. ▸ 画像レベルのタスク:VQAなど
    ▹ 画像レベルでのマルチモーダルな理解が必要
    ▹ 事前学習は低解像度(384×384)の画像を使用
    ▹ 大きなバッチサイズを用いて学習のスケールアップは可能
    ▸ 領域レベルのタスク:物体検出など
    ▹ 画像中の領域とテキストのフレーズとの間の理解が必要
    ▹ 事前学習には高解像度(800×1333)の画像を使用
    ▹ 正確な矩形領域を予測する必要があるため
    5
    問題点:一般的に既存のマルチモーダル構造は
    画像・領域レベル2種類のタスクに対応していない
     既存手法は画像レベルと領域レベルの両方タスクに対応していない

    View Slide

  6. 6
    関連研究:画像・領域レベルに分類される
    タスク 手法 概要
    画像レベル
    ALBEF [Li+, NeurIPS21] ユニモーダルな表現を融合する前に画像表現とテキスト表現
    を整列させる新しいフレームワークALBEFの提案
    METER [Dou+, CVPR22] transformerベースのVLモデルをEnd-to-Endで事前学習
    SimVLM [Wang+, ICLR22] 大規模な弱教師ありによる最小限な事前学習フレームワーク
    領域レベル
    MDTER [Kamath+, ICCV21] テキストクエリを条件に加えることで、様々な視覚言語
    タスクに応用可能
    GLIP [Li+, CVPR22] 物体検出とフレーズ接地を統合した事前学習タスク
    ALBEF [Li+, NeurIPS21] METER [Dou+, CVPR22] GLIP [Li+, CVPR22]

    View Slide

  7. ▸ Fusion-In-the-Backbone-based transformER ( FIBER )
    ▸ 画像・領域レベル両方のVLタスクに有効かつ効率的なVLPの統一
    フレームワーク
    ▹ 様々なタスクと事前学習に対応した新しいモデル構造
    ▹ 2段階の事前学習パイプライン
    7
    提案手法:新しいフレームワークFIBERの提案
    FIBERのフレームワーク 下流タスクのモジュール構成例

    View Slide

  8. ▸ FIBERの基本的な構造は右図(a)の通り
    ▹ UNITERなどはこの上部に
    融合モジュールを重ねる
    ▸ FIBERはバックボーン内にゲート機構付き
    Cross-Attention層を挿入する
    ▸ 𝛼:学習可能なスカラー値
    ▹ 𝛼 = 0の場合:特徴量は融合されない
    8
    提案手法:バックボーンにて特徴量を融合する

    𝒙 = SELF_ATT 𝒙
    𝒙 = 𝒙 + ෥
    𝒙 + 𝛼 ∗ CROSS_ATT ෥
    𝒙, 𝒚
    𝒙 = 𝒙 + FFN(𝒙)
    (a):FIBERのモデル構造
    (b):バックボーンにおける融合

    View Slide

  9. ▸ バックボーン内にゲート機構付き
    Cross-Attention層を挿入するメリット
    1. タスクに応じて𝛼の値を設定することで
    Cross-Attentionのオン/オフが設定可能
    2. バックボーン上にtransformer層を重ね
    る場合よりも軽量かつメモリ効率が良い
    ▹ METERの半分のFLOP数で済む
    9
    提案手法:バックボーンにて特徴量を融合する

    𝒙 = SELF_ATT 𝒙
    𝒙 = 𝒙 + ෥
    𝒙 + 𝛼 ∗ CROSS_ATT ෥
    𝒙, 𝒚
    𝒙 = 𝒙 + FFN(𝒙)
    (a):FIBERのモデル構造
    (b):バックボーンにおける融合

    View Slide

  10. ▸ 前提:VLタスクは画像レベルか領域レベルかの2つに分類される
    ▸ 仮定:どちらも視覚と言語のモダリティ間の融合が必要であり、
    モデル間でできるだけ多くのパラメータ共有することが有益である
    ▸ 2段階の事前学習
    1. coarse-grained pre-training
    2. fine-grained pre-training
    ▸ バックボーンはどちらも同じモデル構造
    ▹ 視覚:Swin Transformer [Liu+, ICCV21]
    ▹ 言語:RoBERTa [Liu+, 2019]
    10
    提案手法:2段階の事前学習を導入
    FIBERのフレームワーク

    View Slide

  11. ▸ Stage1:coarse-grained pre-training
    ▹ 低解像度 (384×384) で画像レベルのタスクを目的とした事前学習
    ▸ 事前学習は3種類にて実施される
    1. ITC (Image-Text contrastive)
    ▹ Cross-Attention:オフ
    2. MLM (masked language modeling)
    ▹ Cross-Attention:オン
    3. ITM (image-text matching)
    ▹ Cross-Attention:オン
    11
    提案手法:coarse-grained pre-training
    FIBERのフレームワーク

    View Slide

  12. ▸ Stage2:fine-grained pre-training
    ▹ 高解像度 (800×1333) で領域レベルのタスクを目的とした事前学習
    ▹ Stage1で学習されたパラメータで初期化を行う
    ▸ OD HAEDを追加して2種類の事前学習を実施
    ▹ GLIPと同様な事前学習タスク
    ▹ Cross-Attention:オン
    1. Alignment loss
    ▹ 領域群とフレーズ群のペア類似度に関する損失
    2. Localization loss
    ▹ 各領域の位置に関する損失
    12
    提案手法:fine-grained pre-training
    FIBERのフレームワーク

    View Slide

  13. ▸ fine-tuning
    ▹ 各下流タスクに応じた学習
    1. VQAなどのVL分類タスク
    ▹ 融合エンコーダとして使用
    2. Retrievalタスク
    ▹ デュアルエンコーダとして使用
    13
    提案手法:fine-tuning ( 1/2 )
    下流タスクのモジュール構成例
    FIBERのフレームワーク

    View Slide

  14. ▸ fine-tuning
    ▹ 各下流タスクに応じた学習
    3. Captioningタスク
    ▹ 画像からテキストのCross-Attention
    のみを残す
    4. Phrase grounding, object detection,
    RECタスク
    ▹ OD-HEADを使用
    14
    提案手法:fine-tuning ( 2/2 )
    下流タスクのモジュール構成例
    FIBERのフレームワーク

    View Slide

  15. ▸ 事前学習用データセットを各ステージで用意
    ▸ coarse-grained pre-training
    ▹ COCO・Conceptual Captions・SBU Captions・Visual Genome
    ▹ 合計400万の画像
    ▸ fine-grained pre-training
    ▹ COCO画像を除去したMDETRによってキュレーションされた
    データセット
    ▹ Objects365データセット
    ▹ 合計80万画像
    15
    実験設定:データセット

    View Slide

  16. ▸ モデル構造
    ▹ RoBERTa-Base
    ▹ SwinT-Base
    ▸ 学習方法
    ▹ coarse-grained pre-training
    ▹ A100 GPU, 100k step, 4096 batch size
    ▹ fine-grained pre-training
    ▹ V100 GPU, 1k step, 64 batch size
    16
    実験設定:その他

    View Slide

  17. 17
    結果:VL分類タスクにおいて同じ条件設定にて
    SOTAを達成

    View Slide

  18. 18
    結果:RECタスクにおいて同じ条件設定にて
    SOTAを達成

    View Slide

  19. ▸ Ablation Study:物体検出タスクにおいて、1段階目の事前学習
    (coarse-grained pre-training) を実施しない場合の性能の変化を調査
    ▸ coarse-grained pre-trainingありのほうが性能が高い
    ▹ 2段階の事前学習の有効性を確認
    19
    結果:2段階の事前学習の有効性を確認

    View Slide

  20. ▸ 背景
    ▹ 既存のVision and Language Pretraind (VLP) の多くは、
    画像全体または領域単位のタスクそれぞれを対象としている
    ▸ 提案
    ▹ 両方の種類のタスクをシームレスに処理可能なVLモデル構造
    FIBER (Fusion-In-the-Backbone-based transformER) の提案
    ▸ 結果
    ▹ 様々な種類のタスクにおいて一貫した性能向上を実現
    20
    まとめ

    View Slide