Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal Club]MultiMAE: Multi-modal Multi-task Masked Autoencoders (ECCV22)

[Journal Club]MultiMAE: Multi-modal Multi-task Masked Autoencoders (ECCV22)

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. MultiMAE: Multi-modal Multi-task Masked Autoencoders 慶應義塾大学 杉浦孔明研究室 飯岡 雄偉 Roman

    Bachmann, David Mizrahi, Andrei Atanov, Amir Zamir, Institute of Technology Lausanne (EPFL) Bachmann, R., Mizrahi, D., Atanov, A., & Zamir, A. (2022). MultiMAE: Multi-modal Multi-task Masked Autoencoders. In ECCV.
  2. 概要:MultiMAE 2 • 様々なタスクに遷移しやすい事前学習モデル • 複数モダリティにおける画像を入力 – RGB, Depth, Semantic

    Segmentation • 各モダリティごとに出力 – それぞれ疑似的にGTを作成 – タスクごとに損失を算出 https://multimae.epfl.ch/
  3. 研究背景:扱いやすい画像特徴量の事前学習モデル • BERT[Jacob+, NAACL19] – 文をマスクして,予測 – 言語特徴量の事前学習モデルとしてbreak through •

    Masked Autoencoders(MAE)[He +, CVPR22] – 画像をマスクして,予測 – RGBの画像のみで学習 -> 実際,Depth等が取れる状況は多いはず • MultiMAE – RGB, Depth, Semantic Segmentationにおける画像で学習 – より多様なタスクへの効率的な転移を目指す 3
  4. 提案手法:MultiMAE 4 Multi-Modal Multi-Task

  5. 構造①:RGB画像から各モダリティの疑似画像を作成 • Depth – Omnidata[Ainaz+, ICCV21] で学習した DPT-Hybrid[Rene, ICCV21] で予測

    • Semantic Segmentation – COCO[Tsung, ECCV14] で学習した Mask2Former[Bowen, CVPR22] で予測 5
  6. 構造②:全特徴量を一つのEncoderに入力 • 各画像を16×16のパッチに分割 • マスクするパッチを選択 – ディリクレ分布によって,各モダリ ティから獲得するパッチ数を決定 – 一様分布によって,各画像からパッチ

    を選択 • それぞれの特徴量をconcatして入力 – Visible tokens(=マスクされていない) のみ利用 6
  7. 構造③:浅いDecoderによって学習 • 浅いDecoderを用いることで,計算量を削減 – トークンを256次元にして,2層のTransformer BlockによりSelf-Attention 7

  8. 構造④:3つのタスクにおける損失を計算 • RGB – マスクされたトークンのみでMSE – MAEと同様 • Depth –

    L1 loss • Semantic Segmentation – Cross-entropy 8
  9. 実験設定:3つの下流タスクで評価 1. Classification • Top-1 accuracyで評価 2. Semantic Segmentation •

    mIoUで評価 3. Dense Regression Tasks • NYUv2データセットにおける𝛿1 で評価 • Depth値がthreshouldを下回るピクセル の割合(%) 9 今回は1.25  Fine-tuning用データセット – ImageNet-1K [Jia+, CVPR09] – ADE20K [Bolei+, CVPR17] – Hypersim [Mike+, ICCV21] – NYUv2 [Nathan+, ECCV12] – Taskonomy [Amir+, CVPR18] 事前学習 データセット:1.28M ImageNet GPU:8 A100 GPUs 学習時間:6.0 min / epoch
  10. 定量結果:既存手法と同等かそれ以上の性能 • RGB画像のみでfine-tuning • • RGBとDepthのGTでfine-tuning 10 C, S, Dは各タスク

    の頭文字 MAEはDepthでは 事前学習されていない
  11. 定量結果:既存手法と同等かそれ以上の性能 • 疑似ラベルの使用により性能上昇 • Taskonomy [Amir+, CVPR18] – 転移学習のしやすさを調べる –

    評価は9タスクにおける評価のランキング 平均 11
  12. 定性結果:各タスクにおいて,高性能な画像生成 • 特にDepth, Semantic Segmentationについて高性能 12

  13. 定性結果:単一モーダル画像による入力 13

  14. Demo • URL : https://huggingface.co/spaces/EPFL-VILAB/MultiMAE 14

  15. まとめ: • 背景 – 扱いやすく,様々なタスクに応用できる画像の事前学習モデルを目指す • 提案手法:MultiMAE – Multi-modalな画像を入力し,Multi-taskに学習 –

    データセットを疑似的に作成 • 結論 – 各タスクにおいて,MAEと同等,もしくは上回る評価 15
  16. Appendix:ハイパラ設定 • Pre-train 16 • FT on ImageNet-1K

  17. Appendix:ディリクレ分布 17

  18. Appendix:Taskonomyの9タスク • L1 lossで評価 18