VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking

e 井上純大

論文概要 • 動機：下流タスクや小規模な動画データで高い性能を発揮するためには，大規模な動画データでの事前学習が必要 →自己教師あり動画事前学習手法を提案（VideoMAE） →数十億パラメタを学習するために手法を拡張（VideoMAEV2）

（Image）Masked Autoencoder（MAE） • 入力を一部マスクし，それを再構成する自己教師あり学習手法 • 周囲から簡単に補完できないようにする→高いマスク率（75 %) • デコーダはエンコーダよりも小→学習時間の短縮入力:
ランダムマスクされた画像予測: マスクした箇所のピクセル値 Encoder: Transformer ・マスクされた箇所を除く画像 Decoder: Transformer ・画像の潜在表現とマスクトークン損失: MSE （以降のスライドでも同じ設定）

Video MAE • MAEを動画に拡張した自己教師あり学習手法 • 周囲から簡単に保管できない & 情報漏洩を防ぐ →高いマスク率（90 %)
& 全フレームに対して同じ箇所をマスク

Video MAE V2（1/2） • 数十億パラメタを効率的に学習するため，VideoMAEを拡張 • VideoMAEでは，数十億パラメタの学習にA100-64枚で2週間かかる →計算コストやメモリ消費量をさらに削減するには？エンコーダの入力可視トークン
デコーダの入力（全箇所を予測）可視トークン＋マスクトークン VideoMAE再掲

Video MAE V2（with dual masking）（2/2） • デコーダで全箇所予測するのではなく，一部分だけ予測 • エンコーダマスクとは独立にデコーダマスクを作成（50
%） • マスクされていない箇所だけを予測

実験｜VideoMAE • 既存の自己教師あり学習手法よりも高い性能データ数が少なくても学習可能（ViT-B）下流タスクにおいても高い性能正解率と学習スピードの向上（ViT-B）

実験｜VideoMAE-V2 • VideoMAEより高速 & モデルサイズを大きくすると性能が向上マスキング率50%が性能と計算効率のバランスが取れている

まとめ • 自己教師あり動画事前学習手法を提案（VideoMAE） • Image MAEを拡張 • 大規模なモデルで学習するために効率化（VideoMAE-V2） • デコーダで全箇所予測するのではなく，一部分だけ予測
• 結果 • 既存手法よりも高い性能 • 下流タスクでも性能を発揮

VideoMAE V2: Scaling Video Masked Autoencoders ...

VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking

Jundai Inoue

More Decks by Jundai Inoue

Featured

Transcript

e 井上純大

（Image）Masked Autoencoder（MAE） • 入力を一部マスクし，それを再構成する自己教師あり学習手法 • 周囲から簡単に補完できないようにする→高いマスク率（75 %) • デコーダはエンコーダよりも小→学習時間の短縮入力:

Video MAE • MAEを動画に拡張した自己教師あり学習手法 • 周囲から簡単に保管できない & 情報漏洩を防ぐ →高いマスク率（90 %)

Video MAE V2（1/2） • 数十億パラメタを効率的に学習するため，VideoMAEを拡張 • VideoMAEでは，数十億パラメタの学習にA100-64枚で2週間かかる →計算コストやメモリ消費量をさらに削減するには？エンコーダの入力可視トークン

Video MAE V2（with dual masking）（2/2） • デコーダで全箇所予測するのではなく，一部分だけ予測 • エンコーダマスクとは独立にデコーダマスクを作成（50

実験｜VideoMAE • 既存の自己教師あり学習手法よりも高い性能データ数が少なくても学習可能（ViT-B）下流タスクにおいても高い性能正解率と学習スピードの向上（ViT-B）

実験｜VideoMAE-V2 • VideoMAEより高速 & モデルサイズを大きくすると性能が向上マスキング率50%が性能と計算効率のバランスが取れている

まとめ • 自己教師あり動画事前学習手法を提案（VideoMAE） • Image MAEを拡張 • 大規模なモデルで学習するために効率化（VideoMAE-V2） • デコーダで全箇所予測するのではなく，一部分だけ予測