Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
VideoMAE V2: Scaling Video Masked Autoencoders ...
Search
Jundai Inoue
December 21, 2024
0
400
VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking
Jundai Inoue
December 21, 2024
Tweet
Share
More Decks by Jundai Inoue
See All by Jundai Inoue
500xCompressor: Generalized Prompt Compression for Large Language Models
jkmt
0
66
輪講資料:UNI-SIGN: TOWARD UNIFIED SIGN LANGUAGE UN- DERSTANDING AT SCALE
jkmt
0
9
T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text
jkmt
0
74
Featured
See All Featured
Navigating the Design Leadership Dip - Product Design Week Design Leaders+ Conference 2024
apolaine
0
110
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.8k
Tell your own story through comics
letsgokoyo
0
750
The innovator’s Mindset - Leading Through an Era of Exponential Change - McGill University 2025
jdejongh
PRO
1
67
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
65
35k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.6k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.6k
Everyday Curiosity
cassininazir
0
110
So, you think you're a good person
axbom
PRO
0
1.8k
Jamie Indigo - Trashchat’s Guide to Black Boxes: Technical SEO Tactics for LLMs
techseoconnect
PRO
0
29
Why Mistakes Are the Best Teachers: Turning Failure into a Pathway for Growth
auna
0
26
16th Malabo Montpellier Forum Presentation
akademiya2063
PRO
0
25
Transcript
e 井上 純大
論文概要 • 動機:下流タスクや小規模な動画データで高い性能を発揮する ためには,大規模な動画データでの事前学習が必要 →自己教師あり動画事前学習手法を提案(VideoMAE) →数十億パラメタを学習するために手法を拡張(VideoMAEV2)
(Image)Masked Autoencoder(MAE) • 入力を一部マスクし,それを再構成する自己教師あり学習手法 • 周囲から簡単に補完できないようにする→高いマスク率(75 %) • デコーダはエンコーダよりも小→学習時間の短縮 入力:
ランダムマスクされた画像 予測: マスクした箇所のピクセル値 Encoder: Transformer ・マスクされた箇所を除く画像 Decoder: Transformer ・画像の潜在表現とマスクトークン 損失: MSE (以降のスライドでも同じ設定)
Video MAE • MAEを動画に拡張した自己教師あり学習手法 • 周囲から簡単に保管できない & 情報漏洩を防ぐ →高いマスク率(90 %)
& 全フレームに対して同じ箇所をマスク
Video MAE V2(1/2) • 数十億パラメタを効率的に学習するため,VideoMAEを拡張 • VideoMAEでは,数十億パラメタの学習にA100-64枚で2週間かかる →計算コストやメモリ消費量をさらに削減するには? エンコーダの入力 可視トークン
デコーダの入力(全箇所を予測) 可視トークン+マスクトークン VideoMAE再掲
Video MAE V2(with dual masking) (2/2) • デコーダで全箇所予測するのではなく,一部分だけ予測 • エンコーダマスクとは独立にデコーダマスクを作成(50
%) • マスクされていない箇所だけを予測
実験|VideoMAE • 既存の自己教師あり学習手法よりも高い性能 データ数が少なくても学習可能(ViT-B) 下流タスクにおいても高い性能 正解率と学習スピードの向上(ViT-B)
実験|VideoMAE-V2 • VideoMAEより高速 & モデルサイズを大きくすると性能が向上 マスキング率50%が性能と計算効率の バランスが取れている
まとめ • 自己教師あり動画事前学習手法を提案(VideoMAE) • Image MAEを拡張 • 大規模なモデルで学習するために効率化(VideoMAE-V2) • デコーダで全箇所予測するのではなく,一部分だけ予測
• 結果 • 既存手法よりも高い性能 • 下流タスクでも性能を発揮