Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[Journal Club]MultiMAE: Multi-modal Multi-task ...
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
Semantic Machine Intelligence Lab., Keio Univ.
PRO
October 31, 2022
Technology
440
0
Share
[Journal Club]MultiMAE: Multi-modal Multi-task Masked Autoencoders (ECCV22)
Semantic Machine Intelligence Lab., Keio Univ.
PRO
October 31, 2022
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[Journal club] ReMEmbR: Building and Reasoning Over Long-Horizon Spatio-Temporal Memory for Robot Navigation
keio_smilab
PRO
0
76
[Journal club] ReLaGS: Relational Language Gaussian Splatting
keio_smilab
PRO
0
71
[Journal club] Flow as the Cross-Domain Manipulation Interface
keio_smilab
PRO
0
74
Mobi-𝜋: Mobilizing Your Robot Learning Policy
keio_smilab
PRO
0
140
A Gentle Introduction to Transformers
keio_smilab
PRO
12
5.9k
FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching
keio_smilab
PRO
0
51
[Journal club] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model
keio_smilab
PRO
0
130
[Journal club] Improved Mean Flows: On the Challenges of Fastforward Generative Models
keio_smilab
PRO
0
180
[Journal club] MemER: Scaling Up Memory for Robot Control via Experience Retrieval
keio_smilab
PRO
0
130
Other Decks in Technology
See All in Technology
[みん強]AIの価値を最大化するデータ基盤戦略:Self-Service型Data Meshへの転換とAgentic AI Meshに向けた取り組み with Snowflake他
y_matsubara
1
160
React Compiler導入から21ヶ月、いま始めるならこうやる
astatsuya
2
290
論文紹介:Pixal3D (SIGGRAPH 2026)
tenten0727
0
660
AsyncStreamでマルチブロードキャストを実装する
1mash0
1
180
Agent Development Kit (ADK)で学ぶ実践Context Engineeringと社内での応用例
lycorptech_jp
PRO
0
130
【新卒研修】ライブデモ + compose.yaml読解_講義資料
dip_tech
PRO
0
120
Directions Asia 2026 | Beyond Buildable AI Agents: Let’s Visualize Partner Value in the AI Era
ryoheig0405
0
140
TSKaigi 2026 - 型プラグインシステムの実装に使われるテクニック
teamlab
PRO
1
120
LookerとADKで作る社内AIエージェント
chanyou0311
0
290
TypeScriptとAngular Signal で実現する保守性の高いアプリケーション設計 - 3層アーキテクチャによる責務分離の実践(たつかわ) https://2026.tskaigi.org/talks/10
nealle
1
140
AIコーディングエージェントの活用で、コードは静かに肥大化した
yosukeshinoda
1
140
ラズパイ & Picoで入門:Zephyr(RTOS)の環境構築からビルドまでの紹介
iotengineer22
0
170
Featured
See All Featured
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.6k
A Guide to Academic Writing Using Generative AI - A Workshop
ks91
PRO
1
300
Building a Scalable Design System with Sketch
lauravandoore
463
34k
Balancing Empowerment & Direction
lara
6
1.1k
How to Talk to Developers About Accessibility
jct
2
200
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.3k
Breaking role norms: Why Content Design is so much more than writing copy - Taylor Woolridge
uxyall
0
290
Applied NLP in the Age of Generative AI
inesmontani
PRO
4
2.3k
How to build an LLM SEO readiness audit: a practical framework
nmsamuel
1
740
Learning to Love Humans: Emotional Interface Design
aarron
275
41k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.7k
Why Our Code Smells
bkeepers
PRO
340
58k
Transcript
MultiMAE: Multi-modal Multi-task Masked Autoencoders 慶應義塾大学 杉浦孔明研究室 飯岡 雄偉 Roman
Bachmann, David Mizrahi, Andrei Atanov, Amir Zamir, Institute of Technology Lausanne (EPFL) Bachmann, R., Mizrahi, D., Atanov, A., & Zamir, A. (2022). MultiMAE: Multi-modal Multi-task Masked Autoencoders. In ECCV.
概要:MultiMAE 2 • 様々なタスクに遷移しやすい事前学習モデル • 複数モダリティにおける画像を入力 – RGB, Depth, Semantic
Segmentation • 各モダリティごとに出力 – それぞれ疑似的にGTを作成 – タスクごとに損失を算出 https://multimae.epfl.ch/
研究背景:扱いやすい画像特徴量の事前学習モデル • BERT[Jacob+, NAACL19] – 文をマスクして,予測 – 言語特徴量の事前学習モデルとしてbreak through •
Masked Autoencoders(MAE)[He +, CVPR22] – 画像をマスクして,予測 – RGBの画像のみで学習 -> 実際,Depth等が取れる状況は多いはず • MultiMAE – RGB, Depth, Semantic Segmentationにおける画像で学習 – より多様なタスクへの効率的な転移を目指す 3
提案手法:MultiMAE 4 Multi-Modal Multi-Task
構造①:RGB画像から各モダリティの疑似画像を作成 • Depth – Omnidata[Ainaz+, ICCV21] で学習した DPT-Hybrid[Rene, ICCV21] で予測
• Semantic Segmentation – COCO[Tsung, ECCV14] で学習した Mask2Former[Bowen, CVPR22] で予測 5
構造②:全特徴量を一つのEncoderに入力 • 各画像を16×16のパッチに分割 • マスクするパッチを選択 – ディリクレ分布によって,各モダリ ティから獲得するパッチ数を決定 – 一様分布によって,各画像からパッチ
を選択 • それぞれの特徴量をconcatして入力 – Visible tokens(=マスクされていない) のみ利用 6
構造③:浅いDecoderによって学習 • 浅いDecoderを用いることで,計算量を削減 – トークンを256次元にして,2層のTransformer BlockによりSelf-Attention 7
構造④:3つのタスクにおける損失を計算 • RGB – マスクされたトークンのみでMSE – MAEと同様 • Depth –
L1 loss • Semantic Segmentation – Cross-entropy 8
実験設定:3つの下流タスクで評価 1. Classification • Top-1 accuracyで評価 2. Semantic Segmentation •
mIoUで評価 3. Dense Regression Tasks • NYUv2データセットにおける𝛿1 で評価 • Depth値がthreshouldを下回るピクセル の割合(%) 9 今回は1.25 Fine-tuning用データセット – ImageNet-1K [Jia+, CVPR09] – ADE20K [Bolei+, CVPR17] – Hypersim [Mike+, ICCV21] – NYUv2 [Nathan+, ECCV12] – Taskonomy [Amir+, CVPR18] 事前学習 データセット:1.28M ImageNet GPU:8 A100 GPUs 学習時間:6.0 min / epoch
定量結果:既存手法と同等かそれ以上の性能 • RGB画像のみでfine-tuning • • RGBとDepthのGTでfine-tuning 10 C, S, Dは各タスク
の頭文字 MAEはDepthでは 事前学習されていない
定量結果:既存手法と同等かそれ以上の性能 • 疑似ラベルの使用により性能上昇 • Taskonomy [Amir+, CVPR18] – 転移学習のしやすさを調べる –
評価は9タスクにおける評価のランキング 平均 11
定性結果:各タスクにおいて,高性能な画像生成 • 特にDepth, Semantic Segmentationについて高性能 12
定性結果:単一モーダル画像による入力 13
Demo • URL : https://huggingface.co/spaces/EPFL-VILAB/MultiMAE 14
まとめ: • 背景 – 扱いやすく,様々なタスクに応用できる画像の事前学習モデルを目指す • 提案手法:MultiMAE – Multi-modalな画像を入力し,Multi-taskに学習 –
データセットを疑似的に作成 • 結論 – 各タスクにおいて,MAEと同等,もしくは上回る評価 15
Appendix:ハイパラ設定 • Pre-train 16 • FT on ImageNet-1K
Appendix:ディリクレ分布 17
Appendix:Taskonomyの9タスク • L1 lossで評価 18