[Journal Club]MultiMAE: Multi-modal Multi-task Masked Autoencoders (ECCV22)

MultiMAE: Multi-modal Multi-task Masked Autoencoders 慶應義塾大学杉浦孔明研究室飯岡雄偉 Roman
Bachmann, David Mizrahi, Andrei Atanov, Amir Zamir, Institute of Technology Lausanne (EPFL) Bachmann, R., Mizrahi, D., Atanov, A., & Zamir, A. (2022). MultiMAE: Multi-modal Multi-task Masked Autoencoders. In ECCV.

概要：MultiMAE 2 • 様々なタスクに遷移しやすい事前学習モデル • 複数モダリティにおける画像を入力 – RGB, Depth, Semantic
Segmentation • 各モダリティごとに出力 – それぞれ疑似的にGTを作成 – タスクごとに損失を算出 https://multimae.epfl.ch/

研究背景：扱いやすい画像特徴量の事前学習モデル • BERT[Jacob+, NAACL19] – 文をマスクして，予測 – 言語特徴量の事前学習モデルとしてbreak through •
Masked Autoencoders（MAE）[He +, CVPR22] – 画像をマスクして，予測 – RGBの画像のみで学習 -> 実際，Depth等が取れる状況は多いはず • MultiMAE – RGB, Depth, Semantic Segmentationにおける画像で学習 – より多様なタスクへの効率的な転移を目指す 3

提案手法：MultiMAE 4 Multi-Modal Multi-Task

構造①：RGB画像から各モダリティの疑似画像を作成 • Depth – Omnidata[Ainaz+, ICCV21] で学習した DPT-Hybrid[Rene, ICCV21] で予測
• Semantic Segmentation – COCO[Tsung, ECCV14] で学習した Mask2Former[Bowen, CVPR22] で予測 5

構造②：全特徴量を一つのEncoderに入力 • 各画像を16×16のパッチに分割 • マスクするパッチを選択 – ディリクレ分布によって，各モダリティから獲得するパッチ数を決定 – 一様分布によって，各画像からパッチ
を選択 • それぞれの特徴量をconcatして入力 – Visible tokens（=マスクされていない）のみ利用 6

構造③：浅いDecoderによって学習 • 浅いDecoderを用いることで，計算量を削減 – トークンを256次元にして，2層のTransformer BlockによりSelf-Attention 7

構造④：3つのタスクにおける損失を計算 • RGB – マスクされたトークンのみでMSE – MAEと同様 • Depth –
L1 loss • Semantic Segmentation – Cross-entropy 8

実験設定：3つの下流タスクで評価 1. Classification • Top-1 accuracyで評価 2. Semantic Segmentation •
mIoUで評価 3. Dense Regression Tasks • NYUv2データセットにおける𝛿1 で評価 • Depth値がthreshouldを下回るピクセルの割合(％) 9 今回は1.25  Fine-tuning用データセット – ImageNet-1K [Jia+, CVPR09] – ADE20K [Bolei+, CVPR17] – Hypersim [Mike+, ICCV21] – NYUv2 [Nathan+, ECCV12] – Taskonomy [Amir+, CVPR18] 事前学習データセット：1.28M ImageNet GPU：8 A100 GPUs 学習時間：6.0 min / epoch

定量結果：既存手法と同等かそれ以上の性能 • RGB画像のみでfine-tuning • • RGBとDepthのGTでfine-tuning 10 C, S, Dは各タスク
の頭文字 MAEはDepthでは事前学習されていない

定量結果：既存手法と同等かそれ以上の性能 • 疑似ラベルの使用により性能上昇 • Taskonomy [Amir+, CVPR18] – 転移学習のしやすさを調べる –
評価は9タスクにおける評価のランキング平均 11

定性結果：各タスクにおいて，高性能な画像生成 • 特にDepth, Semantic Segmentationについて高性能 12

定性結果：単一モーダル画像による入力 13

Demo • URL : https://huggingface.co/spaces/EPFL-VILAB/MultiMAE 14

まとめ： • 背景 – 扱いやすく，様々なタスクに応用できる画像の事前学習モデルを目指す • 提案手法：MultiMAE – Multi-modalな画像を入力し，Multi-taskに学習 –
データセットを疑似的に作成 • 結論 – 各タスクにおいて，MAEと同等，もしくは上回る評価 15

Appendix：ハイパラ設定 • Pre-train 16 • FT on ImageNet-1K

Appendix：ディリクレ分布 17

Appendix：Taskonomyの9タスク • L1 lossで評価 18

[Journal Club]MultiMAE: Multi-modal Multi-task ...

[Journal Club]MultiMAE: Multi-modal Multi-task Masked Autoencoders (ECCV22)

Semantic Machine Intelligence Lab., Keio Univ.
PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

MultiMAE: Multi-modal Multi-task Masked Autoencoders 慶應義塾大学杉浦孔明研究室飯岡雄偉 Roman

概要：MultiMAE 2 • 様々なタスクに遷移しやすい事前学習モデル • 複数モダリティにおける画像を入力 – RGB, Depth, Semantic

研究背景：扱いやすい画像特徴量の事前学習モデル • BERT[Jacob+, NAACL19] – 文をマスクして，予測 – 言語特徴量の事前学習モデルとしてbreak through •

提案手法：MultiMAE 4 Multi-Modal Multi-Task

構造①：RGB画像から各モダリティの疑似画像を作成 • Depth – Omnidata[Ainaz+, ICCV21] で学習した DPT-Hybrid[Rene, ICCV21] で予測

構造②：全特徴量を一つのEncoderに入力 • 各画像を16×16のパッチに分割 • マスクするパッチを選択 – ディリクレ分布によって，各モダリティから獲得するパッチ数を決定 – 一様分布によって，各画像からパッチ

構造③：浅いDecoderによって学習 • 浅いDecoderを用いることで，計算量を削減 – トークンを256次元にして，2層のTransformer BlockによりSelf-Attention 7

構造④：3つのタスクにおける損失を計算 • RGB – マスクされたトークンのみでMSE – MAEと同様 • Depth –

実験設定：3つの下流タスクで評価 1. Classification • Top-1 accuracyで評価 2. Semantic Segmentation •

定量結果：既存手法と同等かそれ以上の性能 • RGB画像のみでfine-tuning • • RGBとDepthのGTでfine-tuning 10 C, S, Dは各タスク

定量結果：既存手法と同等かそれ以上の性能 • 疑似ラベルの使用により性能上昇 • Taskonomy [Amir+, CVPR18] – 転移学習のしやすさを調べる –