Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[Journal Club]MultiMAE: Multi-modal Multi-task Masked Autoencoders (ECCV22)
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
October 31, 2022
Technology
0
280
[Journal Club]MultiMAE: Multi-modal Multi-task Masked Autoencoders (ECCV22)
Semantic Machine Intelligence Lab., Keio Univ.
PRO
October 31, 2022
Tweet
Share
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[Journal club] GRIT: Faster and Better Image Captioning Transformer Using Dual Visual Features
keio_smilab
PRO
0
5
[Journal club] PAC-Score: Positive-Augmented Contrastive Learning for Image and Video Captioning Evaluation
keio_smilab
PRO
0
4
[Journal club] CLIP4IDC: CLIP for Image Difference Captioning
keio_smilab
PRO
0
5
[Journal club] Scalable Diffusion Models with Transformers
keio_smilab
PRO
0
7
[Journal club] Open3DIS: Open-Vocabulary 3D Instance Segmentation with 2D Mask Guidance
keio_smilab
PRO
0
4
[Journal club] LISA: Reasoning Segmentation via Large Language Model
keio_smilab
PRO
0
5
[JSAI24] A Hallucination-Resistant Automatic Evaluation Metric for Image Captioning
keio_smilab
PRO
0
140
Multimodal LLMs and foundation models in robotics
keio_smilab
PRO
3
1.2k
[JSAI24] Attention Lattice Adapter: Visual Explanation for Vision-Language Foundation Models
keio_smilab
PRO
0
260
Other Decks in Technology
See All in Technology
GoとアクターモデルでES+CQRSを実践! / proto_actor_es_cqrs
ytake
1
150
Docker互換のセキュアなコンテナ実行環境「Podman」超入門
devops_vtj
6
3.2k
Luupの開発組織におけるインシデントマネジメントの変遷 ver.RoadtoSRENEXT2024
grimoh
1
270
頼られるのが大好きな 皆さんへ - 支援相手との期待の合わせ方、突き放し方 -/For_people_who_like_to_be_relied_on
naitosatoshi
1
290
コミュニティサービスに「あなたへ」フィードを リリースするまでの試行錯誤
takapy
1
140
データベース研修 DB基礎【MIXI 24新卒技術研修】
mixi_engineers
PRO
0
210
Classmethod Odyssey 登壇資料
yamahiro
0
390
How to Think Like a Performance Engineer
csswizardry
4
590
年間一億円削減した時系列データベースのアーキテクチャ改善~不確実性の高いプロジェクトへの挑戦~
lycorptech_jp
PRO
3
2.9k
「単なる OAuth 2.0 を認証に使うと、車が通れるほどのどでかいセキュリティー・ホールができる」のか検証してみた
terara
0
380
ABEMAにおけるLLMを用いたコンテンツベース推薦システム導入と効果検証
cyberagentdevelopers
PRO
1
700
What is DRE? - Road to SRE NEXT@広島
chanyou0311
3
620
Featured
See All Featured
The MySQL Ecosystem @ GitHub 2015
samlambert
248
12k
Art, The Web, and Tiny UX
lynnandtonic
291
20k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
26
2.1k
Designing the Hi-DPI Web
ddemaree
276
34k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
26
1.8k
Intergalactic Javascript Robots from Outer Space
tanoku
266
26k
Stop Working from a Prison Cell
hatefulcrawdad
266
20k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
325
21k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
90
47k
Documentation Writing (for coders)
carmenintech
63
4.2k
Navigating Team Friction
lara
181
13k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
34
1.9k
Transcript
MultiMAE: Multi-modal Multi-task Masked Autoencoders 慶應義塾大学 杉浦孔明研究室 飯岡 雄偉 Roman
Bachmann, David Mizrahi, Andrei Atanov, Amir Zamir, Institute of Technology Lausanne (EPFL) Bachmann, R., Mizrahi, D., Atanov, A., & Zamir, A. (2022). MultiMAE: Multi-modal Multi-task Masked Autoencoders. In ECCV.
概要:MultiMAE 2 • 様々なタスクに遷移しやすい事前学習モデル • 複数モダリティにおける画像を入力 – RGB, Depth, Semantic
Segmentation • 各モダリティごとに出力 – それぞれ疑似的にGTを作成 – タスクごとに損失を算出 https://multimae.epfl.ch/
研究背景:扱いやすい画像特徴量の事前学習モデル • BERT[Jacob+, NAACL19] – 文をマスクして,予測 – 言語特徴量の事前学習モデルとしてbreak through •
Masked Autoencoders(MAE)[He +, CVPR22] – 画像をマスクして,予測 – RGBの画像のみで学習 -> 実際,Depth等が取れる状況は多いはず • MultiMAE – RGB, Depth, Semantic Segmentationにおける画像で学習 – より多様なタスクへの効率的な転移を目指す 3
提案手法:MultiMAE 4 Multi-Modal Multi-Task
構造①:RGB画像から各モダリティの疑似画像を作成 • Depth – Omnidata[Ainaz+, ICCV21] で学習した DPT-Hybrid[Rene, ICCV21] で予測
• Semantic Segmentation – COCO[Tsung, ECCV14] で学習した Mask2Former[Bowen, CVPR22] で予測 5
構造②:全特徴量を一つのEncoderに入力 • 各画像を16×16のパッチに分割 • マスクするパッチを選択 – ディリクレ分布によって,各モダリ ティから獲得するパッチ数を決定 – 一様分布によって,各画像からパッチ
を選択 • それぞれの特徴量をconcatして入力 – Visible tokens(=マスクされていない) のみ利用 6
構造③:浅いDecoderによって学習 • 浅いDecoderを用いることで,計算量を削減 – トークンを256次元にして,2層のTransformer BlockによりSelf-Attention 7
構造④:3つのタスクにおける損失を計算 • RGB – マスクされたトークンのみでMSE – MAEと同様 • Depth –
L1 loss • Semantic Segmentation – Cross-entropy 8
実験設定:3つの下流タスクで評価 1. Classification • Top-1 accuracyで評価 2. Semantic Segmentation •
mIoUで評価 3. Dense Regression Tasks • NYUv2データセットにおける𝛿1 で評価 • Depth値がthreshouldを下回るピクセル の割合(%) 9 今回は1.25 Fine-tuning用データセット – ImageNet-1K [Jia+, CVPR09] – ADE20K [Bolei+, CVPR17] – Hypersim [Mike+, ICCV21] – NYUv2 [Nathan+, ECCV12] – Taskonomy [Amir+, CVPR18] 事前学習 データセット:1.28M ImageNet GPU:8 A100 GPUs 学習時間:6.0 min / epoch
定量結果:既存手法と同等かそれ以上の性能 • RGB画像のみでfine-tuning • • RGBとDepthのGTでfine-tuning 10 C, S, Dは各タスク
の頭文字 MAEはDepthでは 事前学習されていない
定量結果:既存手法と同等かそれ以上の性能 • 疑似ラベルの使用により性能上昇 • Taskonomy [Amir+, CVPR18] – 転移学習のしやすさを調べる –
評価は9タスクにおける評価のランキング 平均 11
定性結果:各タスクにおいて,高性能な画像生成 • 特にDepth, Semantic Segmentationについて高性能 12
定性結果:単一モーダル画像による入力 13
Demo • URL : https://huggingface.co/spaces/EPFL-VILAB/MultiMAE 14
まとめ: • 背景 – 扱いやすく,様々なタスクに応用できる画像の事前学習モデルを目指す • 提案手法:MultiMAE – Multi-modalな画像を入力し,Multi-taskに学習 –
データセットを疑似的に作成 • 結論 – 各タスクにおいて,MAEと同等,もしくは上回る評価 15
Appendix:ハイパラ設定 • Pre-train 16 • FT on ImageNet-1K
Appendix:ディリクレ分布 17
Appendix:Taskonomyの9タスク • L1 lossで評価 18