Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] Coarse-to-Fine Vision-Language P...

[Journal club] Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone Zi-Yi Dou∗‡,

    Aishwarya Kamath*♮, Zhe Gan*†♠, Pengchuan Zhang §, Jianfeng Wang†, Linjie Li†, Zicheng Liu†, Ce Liu†, Yann LeCun♮, Nanyun Peng‡, Jianfeng Gao†, Lijuan Wang† †Microsoft ‡University of California, Los Angeles ♮New York University *Equal Technical Contribution ♠Project Lead §Work done while at Microsoft 慶應義塾大学 杉浦孔明研究室 畑中駿平 Dou, Zi-Yi, et al. "Coarse-to-fine vision-language pre-training with fusion in the backbone." NeurIPS 2022.
  2. ▸ 背景 ▹ 既存のVision and Language Pretraind (VLP) の多くは、 画像全体または領域単位のタスクそれぞれを対象としている

    ▸ 提案 ▹ 両方の種類のタスクをシームレスに処理可能なVLモデル構造 FIBER (Fusion-In-the-Backbone-based transformER) の提案 ▸ 結果 ▹ 様々な種類のタスクにおいて一貫した性能向上を実現 2 概要
  3. ▸ 現在VLPで高い性能が報告されているタスク(UNITER [Chen+, ECCV20]、LXMERT [Tan+, EMNLP19] など) ▹ Visual Question

    Answering (VQA) ▹ Visual reasoning ▹ Image captioning ▹ Image-text retrieval ▸ これらの手法で用いられている事前学習 ▹ image-text matching ▹ image conditioned masked language modeling ▹ image-text contrastive learning 3 背景:VLPの研究が注目されている UNITER [Chen+, ECCV20] LXMERT [Tan+, EMNLP19]
  4. ▸ Visualのみのタスクの例:画像分類・物体検出 ▸ VLタスクとして位置づけることで恩恵を得られることが示されている ▹ MDETER [Kamath+, ICCV21] ▹ GLIP

    [Li+, CVPR22] ▹ Object Detection (OD) とフレーズ接地を統合した事前学習タスク 4 背景:VisualのみのタスクもVLタスクとして 位置づけることで性能向上を図る MDETER [Kamath+, ICCV21] GLIP [Li+, CVPR22]
  5. ▸ 画像レベルのタスク:VQAなど ▹ 画像レベルでのマルチモーダルな理解が必要 ▹ 事前学習は低解像度(384×384)の画像を使用 ▹ 大きなバッチサイズを用いて学習のスケールアップは可能 ▸ 領域レベルのタスク:物体検出など

    ▹ 画像中の領域とテキストのフレーズとの間の理解が必要 ▹ 事前学習には高解像度(800×1333)の画像を使用 ▹ 正確な矩形領域を予測する必要があるため 5 問題点:一般的に既存のマルチモーダル構造は 画像・領域レベル2種類のタスクに対応していない  既存手法は画像レベルと領域レベルの両方タスクに対応していない
  6. 6 関連研究:画像・領域レベルに分類される タスク 手法 概要 画像レベル ALBEF [Li+, NeurIPS21] ユニモーダルな表現を融合する前に画像表現とテキスト表現

    を整列させる新しいフレームワークALBEFの提案 METER [Dou+, CVPR22] transformerベースのVLモデルをEnd-to-Endで事前学習 SimVLM [Wang+, ICLR22] 大規模な弱教師ありによる最小限な事前学習フレームワーク 領域レベル MDTER [Kamath+, ICCV21] テキストクエリを条件に加えることで、様々な視覚言語 タスクに応用可能 GLIP [Li+, CVPR22] 物体検出とフレーズ接地を統合した事前学習タスク ALBEF [Li+, NeurIPS21] METER [Dou+, CVPR22] GLIP [Li+, CVPR22]
  7. ▸ Fusion-In-the-Backbone-based transformER ( FIBER ) ▸ 画像・領域レベル両方のVLタスクに有効かつ効率的なVLPの統一 フレームワーク ▹

    様々なタスクと事前学習に対応した新しいモデル構造 ▹ 2段階の事前学習パイプライン 7 提案手法:新しいフレームワークFIBERの提案 FIBERのフレームワーク 下流タスクのモジュール構成例
  8. ▸ FIBERの基本的な構造は右図(a)の通り ▹ UNITERなどはこの上部に 融合モジュールを重ねる ▸ FIBERはバックボーン内にゲート機構付き Cross-Attention層を挿入する ▸ 𝛼:学習可能なスカラー値

    ▹ 𝛼 = 0の場合:特徴量は融合されない 8 提案手法:バックボーンにて特徴量を融合する ෥ 𝒙 = SELF_ATT 𝒙 𝒙 = 𝒙 + ෥ 𝒙 + 𝛼 ∗ CROSS_ATT ෥ 𝒙, 𝒚 𝒙 = 𝒙 + FFN(𝒙) (a):FIBERのモデル構造 (b):バックボーンにおける融合
  9. ▸ バックボーン内にゲート機構付き Cross-Attention層を挿入するメリット 1. タスクに応じて𝛼の値を設定することで Cross-Attentionのオン/オフが設定可能 2. バックボーン上にtransformer層を重ね る場合よりも軽量かつメモリ効率が良い ▹

    METERの半分のFLOP数で済む 9 提案手法:バックボーンにて特徴量を融合する ෥ 𝒙 = SELF_ATT 𝒙 𝒙 = 𝒙 + ෥ 𝒙 + 𝛼 ∗ CROSS_ATT ෥ 𝒙, 𝒚 𝒙 = 𝒙 + FFN(𝒙) (a):FIBERのモデル構造 (b):バックボーンにおける融合
  10. ▸ 前提:VLタスクは画像レベルか領域レベルかの2つに分類される ▸ 仮定:どちらも視覚と言語のモダリティ間の融合が必要であり、 モデル間でできるだけ多くのパラメータ共有することが有益である ▸ 2段階の事前学習 1. coarse-grained pre-training

    2. fine-grained pre-training ▸ バックボーンはどちらも同じモデル構造 ▹ 視覚:Swin Transformer [Liu+, ICCV21] ▹ 言語:RoBERTa [Liu+, 2019] 10 提案手法:2段階の事前学習を導入 FIBERのフレームワーク
  11. ▸ Stage1:coarse-grained pre-training ▹ 低解像度 (384×384) で画像レベルのタスクを目的とした事前学習 ▸ 事前学習は3種類にて実施される 1.

    ITC (Image-Text contrastive) ▹ Cross-Attention:オフ 2. MLM (masked language modeling) ▹ Cross-Attention:オン 3. ITM (image-text matching) ▹ Cross-Attention:オン 11 提案手法:coarse-grained pre-training FIBERのフレームワーク
  12. ▸ Stage2:fine-grained pre-training ▹ 高解像度 (800×1333) で領域レベルのタスクを目的とした事前学習 ▹ Stage1で学習されたパラメータで初期化を行う ▸

    OD HAEDを追加して2種類の事前学習を実施 ▹ GLIPと同様な事前学習タスク ▹ Cross-Attention:オン 1. Alignment loss ▹ 領域群とフレーズ群のペア類似度に関する損失 2. Localization loss ▹ 各領域の位置に関する損失 12 提案手法:fine-grained pre-training FIBERのフレームワーク
  13. ▸ fine-tuning ▹ 各下流タスクに応じた学習 1. VQAなどのVL分類タスク ▹ 融合エンコーダとして使用 2. Retrievalタスク

    ▹ デュアルエンコーダとして使用 13 提案手法:fine-tuning ( 1/2 ) 下流タスクのモジュール構成例 FIBERのフレームワーク
  14. ▸ fine-tuning ▹ 各下流タスクに応じた学習 3. Captioningタスク ▹ 画像からテキストのCross-Attention のみを残す 4.

    Phrase grounding, object detection, RECタスク ▹ OD-HEADを使用 14 提案手法:fine-tuning ( 2/2 ) 下流タスクのモジュール構成例 FIBERのフレームワーク
  15. ▸ 事前学習用データセットを各ステージで用意 ▸ coarse-grained pre-training ▹ COCO・Conceptual Captions・SBU Captions・Visual Genome

    ▹ 合計400万の画像 ▸ fine-grained pre-training ▹ COCO画像を除去したMDETRによってキュレーションされた データセット ▹ Objects365データセット ▹ 合計80万画像 15 実験設定:データセット
  16. ▸ モデル構造 ▹ RoBERTa-Base ▹ SwinT-Base ▸ 学習方法 ▹ coarse-grained

    pre-training ▹ A100 GPU, 100k step, 4096 batch size ▹ fine-grained pre-training ▹ V100 GPU, 1k step, 64 batch size 16 実験設定:その他
  17. ▸ 背景 ▹ 既存のVision and Language Pretraind (VLP) の多くは、 画像全体または領域単位のタスクそれぞれを対象としている

    ▸ 提案 ▹ 両方の種類のタスクをシームレスに処理可能なVLモデル構造 FIBER (Fusion-In-the-Backbone-based transformER) の提案 ▸ 結果 ▹ 様々な種類のタスクにおいて一貫した性能向上を実現 20 まとめ