Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
VideoMAE V2: Scaling Video Masked Autoencoders ...
Search
Jundai Inoue
December 21, 2024
0
10
VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking
Jundai Inoue
December 21, 2024
Tweet
Share
More Decks by Jundai Inoue
See All by Jundai Inoue
T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text
jkmt
0
42
Featured
See All Featured
KATA
mclloyd
29
14k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
3
370
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.2k
RailsConf 2023
tenderlove
29
980
Being A Developer After 40
akosma
89
590k
Designing Experiences People Love
moore
139
23k
Rails Girls Zürich Keynote
gr2m
94
13k
Building Flexible Design Systems
yeseniaperezcruz
328
38k
VelocityConf: Rendering Performance Case Studies
addyosmani
327
24k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
11
890
Side Projects
sachag
452
42k
Designing on Purpose - Digital PM Summit 2013
jponch
117
7.1k
Transcript
e 井上 純大
論文概要 • 動機:下流タスクや小規模な動画データで高い性能を発揮する ためには,大規模な動画データでの事前学習が必要 →自己教師あり動画事前学習手法を提案(VideoMAE) →数十億パラメタを学習するために手法を拡張(VideoMAEV2)
(Image)Masked Autoencoder(MAE) • 入力を一部マスクし,それを再構成する自己教師あり学習手法 • 周囲から簡単に補完できないようにする→高いマスク率(75 %) • デコーダはエンコーダよりも小→学習時間の短縮 入力:
ランダムマスクされた画像 予測: マスクした箇所のピクセル値 Encoder: Transformer ・マスクされた箇所を除く画像 Decoder: Transformer ・画像の潜在表現とマスクトークン 損失: MSE (以降のスライドでも同じ設定)
Video MAE • MAEを動画に拡張した自己教師あり学習手法 • 周囲から簡単に保管できない & 情報漏洩を防ぐ →高いマスク率(90 %)
& 全フレームに対して同じ箇所をマスク
Video MAE V2(1/2) • 数十億パラメタを効率的に学習するため,VideoMAEを拡張 • VideoMAEでは,数十億パラメタの学習にA100-64枚で2週間かかる →計算コストやメモリ消費量をさらに削減するには? エンコーダの入力 可視トークン
デコーダの入力(全箇所を予測) 可視トークン+マスクトークン VideoMAE再掲
Video MAE V2(with dual masking) (2/2) • デコーダで全箇所予測するのではなく,一部分だけ予測 • エンコーダマスクとは独立にデコーダマスクを作成(50
%) • マスクされていない箇所だけを予測
実験|VideoMAE • 既存の自己教師あり学習手法よりも高い性能 データ数が少なくても学習可能(ViT-B) 下流タスクにおいても高い性能 正解率と学習スピードの向上(ViT-B)
実験|VideoMAE-V2 • VideoMAEより高速 & モデルサイズを大きくすると性能が向上 マスキング率50%が性能と計算効率の バランスが取れている
まとめ • 自己教師あり動画事前学習手法を提案(VideoMAE) • Image MAEを拡張 • 大規模なモデルで学習するために効率化(VideoMAE-V2) • デコーダで全箇所予測するのではなく,一部分だけ予測
• 結果 • 既存手法よりも高い性能 • 下流タスクでも性能を発揮