Upgrade to Pro — share decks privately, control downloads, hide ads and more …

VideoMAE V2: Scaling Video Masked Autoencoders ...

Jundai Inoue
December 21, 2024
10

VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking

Jundai Inoue

December 21, 2024
Tweet

Transcript

  1. (Image)Masked Autoencoder(MAE) • 入力を一部マスクし,それを再構成する自己教師あり学習手法 • 周囲から簡単に補完できないようにする→高いマスク率(75 %) • デコーダはエンコーダよりも小→学習時間の短縮 入力:

    ランダムマスクされた画像 予測: マスクした箇所のピクセル値 Encoder: Transformer ・マスクされた箇所を除く画像 Decoder: Transformer ・画像の潜在表現とマスクトークン 損失: MSE (以降のスライドでも同じ設定)