Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Speaker Deck
PRO
Sign in
Sign up for free
[Journal Club]MultiMAE: Multi-modal Multi-task Masked Autoencoders (ECCV22)
Semantic Machine Intelligence Lab., Keio Univ.
PRO
October 31, 2022
Technology
0
78
[Journal Club]MultiMAE: Multi-modal Multi-task Masked Autoencoders (ECCV22)
Semantic Machine Intelligence Lab., Keio Univ.
PRO
October 31, 2022
Tweet
Share
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[Journal club] Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone
keio_smilab
PRO
0
10
[Journal Club] Swin Transformer Hierarchical Vision Transformer using Shifted Windows
keio_smilab
PRO
0
46
[Journal club] On the Versatile Uses of Partial Distance Correlation in Deep Learning
keio_smilab
PRO
0
140
[Journal Club]Label-efficient semantic segmentation with diffusion models
keio_smilab
PRO
0
33
[ACCV22] Visual Explanation Generation Based on Lambda Attention Branch Networks
keio_smilab
PRO
0
28
[ACCV22] Flare Transformer Solar Flare Prediction using Magnetograms and Sunspot Physical Features
keio_smilab
PRO
0
43
[FIT22] Flareformer: Large-scale Solar Flare Prediction by Integrating Magnetograms and Sunspot Physical Features
keio_smilab
PRO
0
830
[Journal club] Pix2seq: A Language Modeling Framework for Object Detection
keio_smilab
PRO
0
42
[Journal club] Data Efficient Language-Supervised Zero-Shot Recognition with Optimal Transport Distillation
keio_smilab
PRO
0
38
Other Decks in Technology
See All in Technology
CEXやDEXに依存しないブロックチェーン取引について考える
sbtechnight
0
310
ひとりで書ける! 日英文章作成のコツ / Do-it-yourself! - Tips for writing in Japanese-English
line_developers
PRO
1
390
Kaggleシミュレーションコンペの動向
nagiss
0
160
re:Invent re:Cap / AWS Lambda Updates
bulbulpaul
1
140
【Λ(らむだ)】いつのまにリスキリング / RPALT20230117
lambda
0
370
Kubernetes Pod Probes
thockin
5
2.2k
Kubernetes_EKSに入門してみる
toru_kubota
0
220
OCIコンテナサービス関連の技術詳細 /oke-ocir-details
oracle4engineer
PRO
0
740
MoT/コネヒト/Kanmu が語るプロダクト開発xデータ分析 - 分析から機械学習システムの開発まで一人で複数ロールを担う大変さ
masatakashiwagi
2
490
データエンジニアを助けてくれるFivetranとSnowflakeの仕様&機能のご紹介
sagara
0
410
成長が鈍化したチームを変えるためにやったこと / #RSGT2023
mongolyy
2
2.8k
RDS/Aurora バージョンアップのポイント
hmatsu47
PRO
8
1.6k
Featured
See All Featured
GraphQLとの向き合い方2022年版
quramy
20
9.8k
The Invisible Side of Design
smashingmag
292
48k
A better future with KSS
kneath
230
16k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
38
3.6k
Design by the Numbers
sachag
271
18k
Unsuck your backbone
ammeep
659
56k
Scaling GitHub
holman
453
140k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
270
12k
GitHub's CSS Performance
jonrohan
1020
430k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
217
21k
Music & Morning Musume
bryan
36
4.6k
Build The Right Thing And Hit Your Dates
maggiecrowley
22
1.4k
Transcript
MultiMAE: Multi-modal Multi-task Masked Autoencoders 慶應義塾大学 杉浦孔明研究室 飯岡 雄偉 Roman
Bachmann, David Mizrahi, Andrei Atanov, Amir Zamir, Institute of Technology Lausanne (EPFL) Bachmann, R., Mizrahi, D., Atanov, A., & Zamir, A. (2022). MultiMAE: Multi-modal Multi-task Masked Autoencoders. In ECCV.
概要:MultiMAE 2 • 様々なタスクに遷移しやすい事前学習モデル • 複数モダリティにおける画像を入力 – RGB, Depth, Semantic
Segmentation • 各モダリティごとに出力 – それぞれ疑似的にGTを作成 – タスクごとに損失を算出 https://multimae.epfl.ch/
研究背景:扱いやすい画像特徴量の事前学習モデル • BERT[Jacob+, NAACL19] – 文をマスクして,予測 – 言語特徴量の事前学習モデルとしてbreak through •
Masked Autoencoders(MAE)[He +, CVPR22] – 画像をマスクして,予測 – RGBの画像のみで学習 -> 実際,Depth等が取れる状況は多いはず • MultiMAE – RGB, Depth, Semantic Segmentationにおける画像で学習 – より多様なタスクへの効率的な転移を目指す 3
提案手法:MultiMAE 4 Multi-Modal Multi-Task
構造①:RGB画像から各モダリティの疑似画像を作成 • Depth – Omnidata[Ainaz+, ICCV21] で学習した DPT-Hybrid[Rene, ICCV21] で予測
• Semantic Segmentation – COCO[Tsung, ECCV14] で学習した Mask2Former[Bowen, CVPR22] で予測 5
構造②:全特徴量を一つのEncoderに入力 • 各画像を16×16のパッチに分割 • マスクするパッチを選択 – ディリクレ分布によって,各モダリ ティから獲得するパッチ数を決定 – 一様分布によって,各画像からパッチ
を選択 • それぞれの特徴量をconcatして入力 – Visible tokens(=マスクされていない) のみ利用 6
構造③:浅いDecoderによって学習 • 浅いDecoderを用いることで,計算量を削減 – トークンを256次元にして,2層のTransformer BlockによりSelf-Attention 7
構造④:3つのタスクにおける損失を計算 • RGB – マスクされたトークンのみでMSE – MAEと同様 • Depth –
L1 loss • Semantic Segmentation – Cross-entropy 8
実験設定:3つの下流タスクで評価 1. Classification • Top-1 accuracyで評価 2. Semantic Segmentation •
mIoUで評価 3. Dense Regression Tasks • NYUv2データセットにおける𝛿1 で評価 • Depth値がthreshouldを下回るピクセル の割合(%) 9 今回は1.25 Fine-tuning用データセット – ImageNet-1K [Jia+, CVPR09] – ADE20K [Bolei+, CVPR17] – Hypersim [Mike+, ICCV21] – NYUv2 [Nathan+, ECCV12] – Taskonomy [Amir+, CVPR18] 事前学習 データセット:1.28M ImageNet GPU:8 A100 GPUs 学習時間:6.0 min / epoch
定量結果:既存手法と同等かそれ以上の性能 • RGB画像のみでfine-tuning • • RGBとDepthのGTでfine-tuning 10 C, S, Dは各タスク
の頭文字 MAEはDepthでは 事前学習されていない
定量結果:既存手法と同等かそれ以上の性能 • 疑似ラベルの使用により性能上昇 • Taskonomy [Amir+, CVPR18] – 転移学習のしやすさを調べる –
評価は9タスクにおける評価のランキング 平均 11
定性結果:各タスクにおいて,高性能な画像生成 • 特にDepth, Semantic Segmentationについて高性能 12
定性結果:単一モーダル画像による入力 13
Demo • URL : https://huggingface.co/spaces/EPFL-VILAB/MultiMAE 14
まとめ: • 背景 – 扱いやすく,様々なタスクに応用できる画像の事前学習モデルを目指す • 提案手法:MultiMAE – Multi-modalな画像を入力し,Multi-taskに学習 –
データセットを疑似的に作成 • 結論 – 各タスクにおいて,MAEと同等,もしくは上回る評価 15
Appendix:ハイパラ設定 • Pre-train 16 • FT on ImageNet-1K
Appendix:ディリクレ分布 17
Appendix:Taskonomyの9タスク • L1 lossで評価 18