Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal Club]MultiMAE: Multi-modal Multi-task Masked Autoencoders (ECCV22)

[Journal Club]MultiMAE: Multi-modal Multi-task Masked Autoencoders (ECCV22)

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. MultiMAE:
    Multi-modal Multi-task Masked Autoencoders
    慶應義塾大学 杉浦孔明研究室
    飯岡 雄偉
    Roman Bachmann, David Mizrahi, Andrei Atanov, Amir Zamir,
    Institute of Technology Lausanne (EPFL)
    Bachmann, R., Mizrahi, D., Atanov, A., & Zamir, A. (2022). MultiMAE: Multi-modal Multi-task Masked Autoencoders. In ECCV.

    View full-size slide

  2. 概要:MultiMAE 2
    • 様々なタスクに遷移しやすい事前学習モデル
    • 複数モダリティにおける画像を入力
    – RGB, Depth, Semantic Segmentation
    • 各モダリティごとに出力
    – それぞれ疑似的にGTを作成
    – タスクごとに損失を算出
    https://multimae.epfl.ch/

    View full-size slide

  3. 研究背景:扱いやすい画像特徴量の事前学習モデル
    • BERT[Jacob+, NAACL19]
    – 文をマスクして,予測
    – 言語特徴量の事前学習モデルとしてbreak through
    • Masked Autoencoders(MAE)[He +, CVPR22]
    – 画像をマスクして,予測
    – RGBの画像のみで学習 -> 実際,Depth等が取れる状況は多いはず
    • MultiMAE
    – RGB, Depth, Semantic Segmentationにおける画像で学習
    – より多様なタスクへの効率的な転移を目指す
    3

    View full-size slide

  4. 提案手法:MultiMAE 4
    Multi-Modal Multi-Task

    View full-size slide

  5. 構造①:RGB画像から各モダリティの疑似画像を作成
    • Depth
    – Omnidata[Ainaz+, ICCV21]
    で学習した
    DPT-Hybrid[Rene, ICCV21]
    で予測
    • Semantic Segmentation
    – COCO[Tsung, ECCV14]
    で学習した
    Mask2Former[Bowen, CVPR22]
    で予測
    5

    View full-size slide

  6. 構造②:全特徴量を一つのEncoderに入力
    • 各画像を16×16のパッチに分割
    • マスクするパッチを選択
    – ディリクレ分布によって,各モダリ
    ティから獲得するパッチ数を決定
    – 一様分布によって,各画像からパッチ
    を選択
    • それぞれの特徴量をconcatして入力
    – Visible tokens(=マスクされていない)
    のみ利用
    6

    View full-size slide

  7. 構造③:浅いDecoderによって学習
    • 浅いDecoderを用いることで,計算量を削減
    – トークンを256次元にして,2層のTransformer BlockによりSelf-Attention
    7

    View full-size slide

  8. 構造④:3つのタスクにおける損失を計算
    • RGB
    – マスクされたトークンのみでMSE
    – MAEと同様
    • Depth
    – L1 loss
    • Semantic Segmentation
    – Cross-entropy
    8

    View full-size slide

  9. 実験設定:3つの下流タスクで評価
    1. Classification
    • Top-1 accuracyで評価
    2. Semantic Segmentation
    • mIoUで評価
    3. Dense Regression Tasks
    • NYUv2データセットにおける𝛿1
    で評価
    • Depth値がthreshouldを下回るピクセル
    の割合(%)
    9
    今回は1.25
     Fine-tuning用データセット
    – ImageNet-1K [Jia+, CVPR09]
    – ADE20K [Bolei+, CVPR17]
    – Hypersim [Mike+, ICCV21]
    – NYUv2 [Nathan+, ECCV12]
    – Taskonomy [Amir+, CVPR18]
    事前学習
    データセット:1.28M ImageNet
    GPU:8 A100 GPUs
    学習時間:6.0 min / epoch

    View full-size slide

  10. 定量結果:既存手法と同等かそれ以上の性能
    • RGB画像のみでfine-tuning

    • RGBとDepthのGTでfine-tuning
    10
    C, S, Dは各タスク
    の頭文字
    MAEはDepthでは
    事前学習されていない

    View full-size slide

  11. 定量結果:既存手法と同等かそれ以上の性能
    • 疑似ラベルの使用により性能上昇
    • Taskonomy [Amir+, CVPR18]
    – 転移学習のしやすさを調べる
    – 評価は9タスクにおける評価のランキング
    平均
    11

    View full-size slide

  12. 定性結果:各タスクにおいて,高性能な画像生成
    • 特にDepth, Semantic Segmentationについて高性能
    12

    View full-size slide

  13. 定性結果:単一モーダル画像による入力 13

    View full-size slide

  14. Demo
    • URL : https://huggingface.co/spaces/EPFL-VILAB/MultiMAE
    14

    View full-size slide

  15. まとめ:
    • 背景
    – 扱いやすく,様々なタスクに応用できる画像の事前学習モデルを目指す
    • 提案手法:MultiMAE
    – Multi-modalな画像を入力し,Multi-taskに学習
    – データセットを疑似的に作成
    • 結論
    – 各タスクにおいて,MAEと同等,もしくは上回る評価
    15

    View full-size slide

  16. Appendix:ハイパラ設定
    • Pre-train
    16
    • FT on ImageNet-1K

    View full-size slide

  17. Appendix:ディリクレ分布 17

    View full-size slide

  18. Appendix:Taskonomyの9タスク
    • L1 lossで評価
    18

    View full-size slide