VideoMamba: State Space Model for Efficient Video Understanding

1 第62回コンピュータビジョン勉強会＠関東 VideoMamba: State Space Model for Efficient Video
Understanding 2024/11/16 周玲 (@ZLing500) セーフィー株式会社

2 • 周玲 (@ZLing500) ◦ セーフィー株式会社 ▪ 開発本部第3開発部 Ai
Vision G グループ ▪ クラウドカメラ向けの画像認識のプロダクト開発 • 略歴 ◦ キオクシア（1社目） ▪ SSDのプリント配線板の要素技術の開発自己紹介

3 今回紹介する論文論文リンク：https://arxiv.org/pdf/2403.06977

4 この論文での問い 2023年12月に、Albert Guらが新しいネットワークアーキテクチャMamba [25]を発表した特徴： • 高速な推論性能（Transformerの約5倍） • 言語、音声など複数の分野において、Transformerに匹敵する性能
Can Mamba work well for video understanding? 　　　　　⇒　VideoMamba [25] Gu, A., Dao, T.: Mamba: Linear-time sequence modeling with selective state spaces. ArXiv abs/2312.00752 (2023)

5 Transformerの二次的な複雑さ       研究者たちは、Transformerの代替アーキテクチャを模索しており、  SSM（State Space Model）もその候補の一つである Mamba
は、よりシンプルな SSM アーキテクチャを採用し、ハードウェア認識アルゴリズムと入力情報の選択的処理メカニズムを追加したモデルである Mambaが生まれた背景

6 課題： • 短いビデオクリップ内の大きな時空間冗長性 • 長いコンテキスト間の複雑な時空間依存関係 3D畳み込みニューラルネットワーク（CNN）やvideo transformerは、局所的な畳み込みや長距離のアテンションを活用することで、上記の課題の一方には効果的に対処しているが、両方を同時に解決することには限界がある。また、計算コストが高い。
Video Understandingにおける課題

7 Mamba をビデオドメインに適応させた結果、優れた性能を示していることがわかった Video Mambaによる改善結果 ※ TimeSformer [4] が2021年にFacebook
AIによって提案され、ビデオ理解タスク向けに設計されたトランスフォーマーベースのモデル [4] Bertasius, G., Wang, H., Torresani, L.: Is space-time attention all you need for video understanding? In: ICML (2021)

8 これまでの研究

9 SSM Image from A Visual Guide to Mamba and
State Space Models SSM（State Space Model）は、時系列データの解析や予測のために提案された数学的モデルである。観測データと潜在変数の関係を状態空間上で表現し、複雑な動的システムの内部状態をモデル化することができる。

State Space Models

11 SSM skip connection Image from A Visual Guide to
Mamba and State Space Models

State Space Models

13 SSMの改良としてのMamba • 離散化 ◦ SSMは入力と出力を連続信号として扱っているが、言語や画像などでは離散化された値を扱う必要がある ◦ zero-order hold
(ZOH) method • Selective Scan Mechanism ◦ 行列B, C, 及びΔの値を動的に変化させ、異なる入力データに応じて自動的に調整され、異なる重みを持つようになる ◦ 入力データの重要な情報に選択的に注目できる Image from A Visual Guide to Mamba and State Space Models

14 Mamba block 最も有名なSSMを用いたアーキテクチャH3をゲート付きMLPと組み合わせ、 Mambaブロックを構成する Image from A Visual Guide
to Mamba and State Space Models

15 Bidirectional Mamba block 画像ドメインにおいて、VisionMamba [91]は双方向Mamba（B-Mamba）ブロックを導入した。視覚データが空間的に複雑な情報を含んでいるため、前後両方向の情報を統合する必要がある。このブロックは、視覚シーケンスを前方および後方のSSMを同時に使用して処理し、空間的に意識した処理能力を向上させる。 [91]
Zhu, L., Liao, B., Zhang, Q., Wang, X., Liu, W., Wang, X.: Vision mamba: Efficient visual representation learning with bidirectional state space model. ArXiv abs/2401.09417 (2024)

16 Video Mamba

17 VideoMamba Overview vanilla ViT [15]のアーキテクチャを利用し、B-Mamba blockを3D video sequencesに適応させる [15]
Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., Houlsby, N.: An image is worth 16x16 words: Transformers for image recognition at scale. In: ICLR (2021)

18 VideoMamba Overview • 3D convolutionを使用して、入力されたビデオを非重複の空間的・時間的パッチに変換する • 学習可能な分類トークン、空間的な位置埋め込みと時間的な埋め込みをビデオMambaエンコーダーへのトークンのシーケンスとして入力する •
トークンはL層のB-Mambaブロックを通過し、最終層で得られる分類トークンの表現が正規化と線形層を経て、分類に使用される

19 Spatiotemporal Scan 元々の2Dスキャンを双方向3Dスキャンに拡張する： (a) 空間優先（Spatial-First）：位置ごとに空間トークンを整理し、フレームごとにスタック (b) 時間優先（Temporal-First）：フレームごとに時間トークンを配置し、空間次元に沿ってスタック (c) 空間時間的（Spatiotemporal）：空間優先と時間優先のハイブリッド（v1が半分、v2が2倍の計算量で全実
行）実験結果から、空間優先の双方向スキャンが最も効果的であり、かつ簡単であることが示されている 👍

20 Architecture ViTに従い、depthとembedding dimensionを調整し、VideoMamba-Ti、VideoMamba-S、および VideoMamba-Mを構築した 💔しかし、大きな VideoMamba は過学習しやすい傾向がある
😄Self-Distillation strategyを導入し、過学習を抑える（後ほど紹介）

21 Masked Modeling UTM (Unmasked Teacher Model) [43] [43] Li,
K., Wang, Y., Li, Y., Wang, Y., He, Y., Wang, L., Qiao, Y.: Unmasked teacher: Towards training-efficient video foundation models. In: ICCV (2023) UMTに着想を得て、マスク付きのアライメント手法を採用する

22 Masked Modeling しかし、UMTとは異なり、UMTでは生徒モデルと教師モデルの間で複数層のアライメントを採用しているのに対し、VideoMambaの独自のアーキテクチャにより、最終出力のみをアライメントしている。また、B-Mambaブロックの特性に合わせた複数のマスキング手法を試した結果、Attention maskingが一番良い。 👍

23 実験

24 Image tasks（実験条件） • データセット：ImageNet-1K ◦ training images:1.28M, validation images:
50K • 学習手法 ◦ stochastic depth ratio ▪ VideoMamba-Ti/S/M => 0/0.15/0.5 ◦ self-distillation ▪ VideoMamba-Mモデルは、事前学習済みのVideoMamba-Sモデルを「教師」として使用し、最終的な特徴マップをL2損失を通じて整列させることでトレーニングされる

25 Image tasks（実験結果） • 大きなVideoMambaモデルがoverfitting発生した • self-distillationを利用し、overfittingを改善できた • early stoppingは効果なかった

26 Image tasks（実験結果） VideoMambaはisotropicアーキテクチャなので、他の同等のisotropicアーキテクチャのモデルと比較した結果、優れた性能を示す。 🏆 🏆

27 Short-term Video Understanding（実験条件） • データセット： • 学習手法 ◦ supervised
training ▪ ImageNet-1Kで事前学習させたモデルをVideoMAE [74]と同じトレーニング戦略で学習する ◦ self-supervised training ▪ UMTと同様のトレーニングレシピを採用し、CLIP-ViT-B [60]を使用してVideoMamba-Mを800エポックで蒸留する dataset average video length train valuation Kinetics-400 10s 234619 19761 Something-SomethingV2 4s 168913 24777 [74] Tong, Z., Song, Y., Wang, J., Wang, L.: VideoMAE: Masked autoencoders are data-efficient learners for self-supervised video pre-training. In: NeurIPS (2022) [60] Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., Sutskever, I.: Learning transferable visual models from natural language supervision. In: ICML (2021)

28 Short-term Video Understanding（実験結果） Something-SomethingV2の結果は省略する • Supervised ◦ SOTAの性能 •
Self-supervised ◦ supervisedのより優れた ◦ Masked Modeling有効💯

29 Long-term Video Understanding（実験条件） • データセット： ◦ Breakfast：1,712本の動画、10種類の複雑な調理活動、総再生時間77時間 ◦ COIN：11,827本の動画、180種類の独自の手順タスク、平均再生時間2.36分
◦ LVU：約30,000本の映画クリップ、再生時間1～3分、9つのタスク、3つの主要カテゴリ（コンテンツ理解、メタデータ予測、ユーザーエンゲージメント）を含む • 学習手法 ◦ エンドツーエンドの訓練 (short-term video understandingのと同様) ▪ Kinetics-600で訓練されたSwin-B [51]のような事前訓練済みビデオモデルを使用しない [51] Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., Lin, S., Guo, B.: Swin transformer: Hierarchical vision transformer using shifted windows. In: ICCV (2021)

30 Long-term Video Understanding （実験結果） BreakfastとCOINの結果は省略する現在のSOTA手法と比較して、優れたまたは同等の結果を示す

31 Multi-modality Video Understanding（実験条件） • データセット： ◦ 学習 ▪ WebVid-2M
videotextpairs、CC3M image-textpairs ◦ 評価 ▪ MSRVTT、DiDeMo、ActivityNet、LSMDC、MSVD • 学習手法 ▪ 事前学習 • 画像トークンの50%とビデオトークンの80%をマスクし、8フレームで10エポックにわたって行う ▪ unmasked tuning • 1エポック

32 Multi-modality Video Understanding（実験結果） UMT（ViTベース）より優れた性能を示す

33 まとめ

34 VideoMamba 効率的なビデオ理解を実現する純SSMベースモデルの提案広範な実験により、以下の特性が実証されている： • 視覚領域でのスケーラビリティ • 短期間の動作認識に対する敏感性 • 長期間のビデオ理解における優位性
• 他のモダリティとの互換性まだ完全に行われていない検証： • より大規模なモデルへの拡張（例：VideoMamba-g） • 追加のモダリティの統合（例：音声） • 数時間のビデオ理解のための大規模言語モデルとの統合

VideoMamba: State Space Model for Efficient Vid...

VideoMamba: State Space Model for Efficient Video Understanding

CHOU

Other Decks in Technology

Featured

Transcript

1 第62回コンピュータビジョン勉強会＠関東 VideoMamba: State Space Model for Efficient Video

2 • 周玲 (@ZLing500) ◦ セーフィー株式会社 ▪ 開発本部第3開発部 Ai

3 今回紹介する論文論文リンク：https://arxiv.org/pdf/2403.06977

4 この論文での問い 2023年12月に、Albert Guらが新しいネットワークアーキテクチャMamba [25]を発表した特徴： • 高速な推論性能（Transformerの約5倍） • 言語、音声など複数の分野において、Transformerに匹敵する性能

5 Transformerの二次的な複雑さ       研究者たちは、Transformerの代替アーキテクチャを模索しており、  SSM（State Space Model）もその候補の一つである Mamba

7 Mamba をビデオドメインに適応させた結果、優れた性能を示していることがわかった Video Mambaによる改善結果 ※ TimeSformer [4] が2021年にFacebook

8 これまでの研究

9 SSM Image from A Visual Guide to Mamba and

10 SSM Image from A Visual Guide to Mamba and

11 SSM skip connection Image from A Visual Guide to

12 SSM Image from A Visual Guide to Mamba and

13 SSMの改良としてのMamba • 離散化 ◦ SSMは入力と出力を連続信号として扱っているが、言語や画像などでは離散化された値を扱う必要がある ◦ zero-order hold

14 Mamba block 最も有名なSSMを用いたアーキテクチャH3をゲート付きMLPと組み合わせ、 Mambaブロックを構成する Image from A Visual Guide

16 Video Mamba

17 VideoMamba Overview vanilla ViT [15]のアーキテクチャを利用し、B-Mamba blockを3D video sequencesに適応させる [15]

20 Architecture ViTに従い、depthとembedding dimensionを調整し、VideoMamba-Ti、VideoMamba-S、および VideoMamba-Mを構築した 💔しかし、大きな VideoMamba は過学習しやすい傾向がある

21 Masked Modeling UTM (Unmasked Teacher Model) [43] [43] Li,

23 実験

24 Image tasks（実験条件） • データセット：ImageNet-1K ◦ training images:1.28M, validation images:

25 Image tasks（実験結果） • 大きなVideoMambaモデルがoverfitting発生した • self-distillationを利用し、overfittingを改善できた • early stoppingは効果なかった

26 Image tasks（実験結果） VideoMambaはisotropicアーキテクチャなので、他の同等のisotropicアーキテクチャのモデルと比較した結果、優れた性能を示す。 🏆 🏆

27 Short-term Video Understanding（実験条件） • データセット： • 学習手法 ◦ supervised

28 Short-term Video Understanding（実験結果） Something-SomethingV2の結果は省略する • Supervised ◦ SOTAの性能 •

29 Long-term Video Understanding（実験条件） • データセット： ◦ Breakfast：1,712本の動画、10種類の複雑な調理活動、総再生時間77時間 ◦ COIN：11,827本の動画、180種類の独自の手順タスク、平均再生時間2.36分

30 Long-term Video Understanding （実験結果） BreakfastとCOINの結果は省略する現在のSOTA手法と比較して、優れたまたは同等の結果を示す

31 Multi-modality Video Understanding（実験条件） • データセット： ◦ 学習 ▪ WebVid-2M

32 Multi-modality Video Understanding（実験結果） UMT（ViTベース）より優れた性能を示す

33 まとめ