[Journal club] Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone

Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone Zi-Yi Dou∗‡,
Aishwarya Kamath*♮, Zhe Gan*†♠, Pengchuan Zhang §, Jianfeng Wang†, Linjie Li†, Zicheng Liu†, Ce Liu†, Yann LeCun♮, Nanyun Peng‡, Jianfeng Gao†, Lijuan Wang† †Microsoft ‡University of California, Los Angeles ♮New York University *Equal Technical Contribution ♠Project Lead §Work done while at Microsoft 慶應義塾大学杉浦孔明研究室畑中駿平 Dou, Zi-Yi, et al. "Coarse-to-fine vision-language pre-training with fusion in the backbone." NeurIPS 2022.

▸ 背景 ▹ 既存のVision and Language Pretraind (VLP) の多くは、画像全体または領域単位のタスクそれぞれを対象としている
▸ 提案 ▹ 両方の種類のタスクをシームレスに処理可能なVLモデル構造 FIBER (Fusion-In-the-Backbone-based transformER) の提案 ▸ 結果 ▹ 様々な種類のタスクにおいて一貫した性能向上を実現 2 概要

▸ 現在VLPで高い性能が報告されているタスク（UNITER [Chen+, ECCV20]、LXMERT [Tan+, EMNLP19] など） ▹ Visual Question
Answering (VQA) ▹ Visual reasoning ▹ Image captioning ▹ Image-text retrieval ▸ これらの手法で用いられている事前学習 ▹ image-text matching ▹ image conditioned masked language modeling ▹ image-text contrastive learning 3 背景：VLPの研究が注目されている UNITER [Chen+, ECCV20] LXMERT [Tan+, EMNLP19]

▸ Visualのみのタスクの例：画像分類・物体検出 ▸ VLタスクとして位置づけることで恩恵を得られることが示されている ▹ MDETER [Kamath+, ICCV21] ▹ GLIP
[Li+, CVPR22] ▹ Object Detection (OD) とフレーズ接地を統合した事前学習タスク 4 背景：VisualのみのタスクもVLタスクとして位置づけることで性能向上を図る MDETER [Kamath+, ICCV21] GLIP [Li+, CVPR22]

▸ 画像レベルのタスク：VQAなど ▹ 画像レベルでのマルチモーダルな理解が必要 ▹ 事前学習は低解像度（384×384）の画像を使用 ▹ 大きなバッチサイズを用いて学習のスケールアップは可能 ▸ 領域レベルのタスク：物体検出など
▹ 画像中の領域とテキストのフレーズとの間の理解が必要 ▹ 事前学習には高解像度（800×1333）の画像を使用 ▹ 正確な矩形領域を予測する必要があるため 5 問題点：一般的に既存のマルチモーダル構造は画像・領域レベル2種類のタスクに対応していない  既存手法は画像レベルと領域レベルの両方タスクに対応していない

6 関連研究：画像・領域レベルに分類されるタスク手法概要画像レベル ALBEF [Li+, NeurIPS21] ユニモーダルな表現を融合する前に画像表現とテキスト表現
を整列させる新しいフレームワークALBEFの提案 METER [Dou+, CVPR22] transformerベースのVLモデルをEnd-to-Endで事前学習 SimVLM [Wang+, ICLR22] 大規模な弱教師ありによる最小限な事前学習フレームワーク領域レベル MDTER [Kamath+, ICCV21] テキストクエリを条件に加えることで、様々な視覚言語タスクに応用可能 GLIP [Li+, CVPR22] 物体検出とフレーズ接地を統合した事前学習タスク ALBEF [Li+, NeurIPS21] METER [Dou+, CVPR22] GLIP [Li+, CVPR22]

▸ Fusion-In-the-Backbone-based transformER ( FIBER ) ▸ 画像・領域レベル両方のVLタスクに有効かつ効率的なVLPの統一フレームワーク ▹
様々なタスクと事前学習に対応した新しいモデル構造 ▹ 2段階の事前学習パイプライン 7 提案手法：新しいフレームワークFIBERの提案 FIBERのフレームワーク下流タスクのモジュール構成例

▸ FIBERの基本的な構造は右図(a)の通り ▹ UNITERなどはこの上部に融合モジュールを重ねる ▸ FIBERはバックボーン内にゲート機構付き Cross-Attention層を挿入する ▸ 𝛼：学習可能なスカラー値
▹ 𝛼 = 0の場合：特徴量は融合されない 8 提案手法：バックボーンにて特徴量を融合する ෥ 𝒙 = SELF_ATT 𝒙 𝒙 = 𝒙 + ෥ 𝒙 + 𝛼 ∗ CROSS_ATT ෥ 𝒙, 𝒚 𝒙 = 𝒙 + FFN(𝒙) (a)：FIBERのモデル構造 (b)：バックボーンにおける融合

▸ バックボーン内にゲート機構付き Cross-Attention層を挿入するメリット 1. タスクに応じて𝛼の値を設定することで Cross-Attentionのオン/オフが設定可能 2. バックボーン上にtransformer層を重ねる場合よりも軽量かつメモリ効率が良い ▹
METERの半分のFLOP数で済む 9 提案手法：バックボーンにて特徴量を融合する ෥ 𝒙 = SELF_ATT 𝒙 𝒙 = 𝒙 + ෥ 𝒙 + 𝛼 ∗ CROSS_ATT ෥ 𝒙, 𝒚 𝒙 = 𝒙 + FFN(𝒙) (a)：FIBERのモデル構造 (b)：バックボーンにおける融合

▸ 前提：VLタスクは画像レベルか領域レベルかの2つに分類される ▸ 仮定：どちらも視覚と言語のモダリティ間の融合が必要であり、モデル間でできるだけ多くのパラメータ共有することが有益である ▸ 2段階の事前学習 1. coarse-grained pre-training
2. fine-grained pre-training ▸ バックボーンはどちらも同じモデル構造 ▹ 視覚：Swin Transformer [Liu+, ICCV21] ▹ 言語：RoBERTa [Liu+, 2019] 10 提案手法：2段階の事前学習を導入 FIBERのフレームワーク

▸ Stage1：coarse-grained pre-training ▹ 低解像度 (384×384) で画像レベルのタスクを目的とした事前学習 ▸ 事前学習は3種類にて実施される 1.
ITC (Image-Text contrastive) ▹ Cross-Attention：オフ 2. MLM (masked language modeling) ▹ Cross-Attention：オン 3. ITM (image-text matching) ▹ Cross-Attention：オン 11 提案手法：coarse-grained pre-training FIBERのフレームワーク

▸ Stage2：fine-grained pre-training ▹ 高解像度 (800×1333) で領域レベルのタスクを目的とした事前学習 ▹ Stage1で学習されたパラメータで初期化を行う ▸
OD HAEDを追加して2種類の事前学習を実施 ▹ GLIPと同様な事前学習タスク ▹ Cross-Attention：オン 1. Alignment loss ▹ 領域群とフレーズ群のペア類似度に関する損失 2. Localization loss ▹ 各領域の位置に関する損失 12 提案手法：fine-grained pre-training FIBERのフレームワーク

▸ fine-tuning ▹ 各下流タスクに応じた学習 1. VQAなどのVL分類タスク ▹ 融合エンコーダとして使用 2. Retrievalタスク
▹ デュアルエンコーダとして使用 13 提案手法：fine-tuning ( 1/2 ) 下流タスクのモジュール構成例 FIBERのフレームワーク

▸ fine-tuning ▹ 各下流タスクに応じた学習 3. Captioningタスク ▹ 画像からテキストのCross-Attention のみを残す 4.
Phrase grounding, object detection, RECタスク ▹ OD-HEADを使用 14 提案手法：fine-tuning ( 2/2 ) 下流タスクのモジュール構成例 FIBERのフレームワーク

▸ 事前学習用データセットを各ステージで用意 ▸ coarse-grained pre-training ▹ COCO・Conceptual Captions・SBU Captions・Visual Genome
▹ 合計400万の画像 ▸ fine-grained pre-training ▹ COCO画像を除去したMDETRによってキュレーションされたデータセット ▹ Objects365データセット ▹ 合計80万画像 15 実験設定：データセット

▸ モデル構造 ▹ RoBERTa-Base ▹ SwinT-Base ▸ 学習方法 ▹ coarse-grained
pre-training ▹ A100 GPU, 100k step, 4096 batch size ▹ fine-grained pre-training ▹ V100 GPU, 1k step, 64 batch size 16 実験設定：その他

17 結果：VL分類タスクにおいて同じ条件設定にて SOTAを達成

18 結果：RECタスクにおいて同じ条件設定にて SOTAを達成

▸ Ablation Study：物体検出タスクにおいて、1段階目の事前学習 (coarse-grained pre-training) を実施しない場合の性能の変化を調査 ▸ coarse-grained pre-trainingありのほうが性能が高い ▹
2段階の事前学習の有効性を確認 19 結果：2段階の事前学習の有効性を確認

▸ 背景 ▹ 既存のVision and Language Pretraind (VLP) の多くは、画像全体または領域単位のタスクそれぞれを対象としている
▸ 提案 ▹ 両方の種類のタスクをシームレスに処理可能なVLモデル構造 FIBER (Fusion-In-the-Backbone-based transformER) の提案 ▸ 結果 ▹ 様々な種類のタスクにおいて一貫した性能向上を実現 20 まとめ

[Journal club] Coarse-to-Fine Vision-Language P...

[Journal club] Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone

Semantic Machine Intelligence Lab., Keio Univ.
PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone Zi-Yi Dou∗‡,

▸ 背景 ▹ 既存のVision and Language Pretraind (VLP) の多くは、画像全体または領域単位のタスクそれぞれを対象としている

▸ 現在VLPで高い性能が報告されているタスク（UNITER [Chen+, ECCV20]、LXMERT [Tan+, EMNLP19] など） ▹ Visual Question

▸ Visualのみのタスクの例：画像分類・物体検出 ▸ VLタスクとして位置づけることで恩恵を得られることが示されている ▹ MDETER [Kamath+, ICCV21] ▹ GLIP

6 関連研究：画像・領域レベルに分類されるタスク手法概要画像レベル ALBEF [Li+, NeurIPS21] ユニモーダルな表現を融合する前に画像表現とテキスト表現

▸ Fusion-In-the-Backbone-based transformER ( FIBER ) ▸ 画像・領域レベル両方のVLタスクに有効かつ効率的なVLPの統一フレームワーク ▹

▸ FIBERの基本的な構造は右図(a)の通り ▹ UNITERなどはこの上部に融合モジュールを重ねる ▸ FIBERはバックボーン内にゲート機構付き Cross-Attention層を挿入する ▸ 𝛼：学習可能なスカラー値

▸ Stage1：coarse-grained pre-training ▹ 低解像度 (384×384) で画像レベルのタスクを目的とした事前学習 ▸ 事前学習は3種類にて実施される 1.

▸ Stage2：fine-grained pre-training ▹ 高解像度 (800×1333) で領域レベルのタスクを目的とした事前学習 ▹ Stage1で学習されたパラメータで初期化を行う ▸

▸ fine-tuning ▹ 各下流タスクに応じた学習 1. VQAなどのVL分類タスク ▹ 融合エンコーダとして使用 2. Retrievalタスク

▸ fine-tuning ▹ 各下流タスクに応じた学習 3. Captioningタスク ▹ 画像からテキストのCross-Attention のみを残す 4.

▸ 事前学習用データセットを各ステージで用意 ▸ coarse-grained pre-training ▹ COCO・Conceptual Captions・SBU Captions・Visual Genome

▸ モデル構造 ▹ RoBERTa-Base ▹ SwinT-Base ▸ 学習方法 ▹ coarse-grained

17 結果：VL分類タスクにおいて同じ条件設定にて SOTAを達成

18 結果：RECタスクにおいて同じ条件設定にて SOTAを達成

▸ Ablation Study：物体検出タスクにおいて、1段階目の事前学習 (coarse-grained pre-training) を実施しない場合の性能の変化を調査 ▸ coarse-grained pre-trainingありのほうが性能が高い ▹

▸ 背景 ▹ 既存のVision and Language Pretraind (VLP) の多くは、画像全体または領域単位のタスクそれぞれを対象としている