Slide 1

Slide 1 text

1 第62回 コンピュータビジョン勉強会@関東 VideoMamba: State Space Model for Efficient Video Understanding 2024/11/16 周 玲 (@ZLing500) セーフィー株式会社

Slide 2

Slide 2 text

2 ● 周 玲 (@ZLing500) ○ セーフィー株式会社 ■ 開発本部第3開発部 Ai Vision G グループ ■ クラウドカメラ向けの画像認識のプロダクト開発 ● 略歴 ○ キオクシア(1社目) ■ SSDのプリント配線板の要素技術の開発 自己紹介

Slide 3

Slide 3 text

3 今回紹介する論文 論文リンク:https://arxiv.org/pdf/2403.06977

Slide 4

Slide 4 text

4 この論文での問い 2023年12月に、Albert Guらが新しいネットワークアーキテクチャMamba [25]を発表した 特徴: ● 高速な推論性能(Transformerの約5倍) ● 言語、音声など複数の分野において、Transformerに匹敵する性能 Can Mamba work well for video understanding?      ⇒ VideoMamba [25] Gu, A., Dao, T.: Mamba: Linear-time sequence modeling with selective state spaces. ArXiv abs/2312.00752 (2023)

Slide 5

Slide 5 text

5 Transformerの二次的な複雑さ 
 
 
 研究者たちは、Transformerの代替アーキテクチャを模索しており、
 SSM(State Space Model)もその候補の一つである Mamba は、よりシンプルな SSM アーキテクチャを採用し、ハードウェア認識アルゴリズムと 入力情報の選択的処理メカニズムを追加したモデルである Mambaが生まれた背景

Slide 6

Slide 6 text

6 課題: ● 短いビデオクリップ内の大きな時空間冗長性 ● 長いコンテキスト間の複雑な時空間依存関係 3D畳み込みニューラルネットワーク(CNN)やvideo transformerは、局所的な畳み込みや長距離の アテンションを活用することで、上記の課題の一方には効果的に対処しているが、両方を同時に解決 することには限界がある。また、計算コストが高い。 Video Understandingにおける課題

Slide 7

Slide 7 text

7 Mamba をビデオドメインに適応させた結果、 優れた性能を示していることがわかった Video Mambaによる改善結果 ※ TimeSformer [4] が2021年にFacebook AIによって提案され、ビデオ理解タス ク向けに設計されたトランスフォーマーベースのモデル [4] Bertasius, G., Wang, H., Torresani, L.: Is space-time attention all you need for video understanding? In: ICML (2021)

Slide 8

Slide 8 text

8 これまでの研究

Slide 9

Slide 9 text

9 SSM Image from A Visual Guide to Mamba and State Space Models SSM(State Space Model)は、時系列データの解析や予測のために提案された数学 的モデルである。観測データと潜在変数の関係を状態空間上で表現し、複雑な動的シ ステムの内部状態をモデル化することができる。

Slide 10

Slide 10 text

10 SSM Image from A Visual Guide to Mamba and State Space Models

Slide 11

Slide 11 text

11 SSM skip connection Image from A Visual Guide to Mamba and State Space Models

Slide 12

Slide 12 text

12 SSM Image from A Visual Guide to Mamba and State Space Models

Slide 13

Slide 13 text

13 SSMの改良としてのMamba ● 離散化 ○ SSMは入力と出力を連続信号として扱っているが、言語や画像などでは離 散化された値を扱う必要がある ○ zero-order hold (ZOH) method ● Selective Scan Mechanism ○ 行列B, C, 及びΔの値を動的に変化させ、異なる入力データに応じて自動的 に調整され、異なる重みを持つようになる ○ 入力データの重要な情報に選択的に注目できる Image from A Visual Guide to Mamba and State Space Models

Slide 14

Slide 14 text

14 Mamba block 最も有名なSSMを用いたアーキテクチャH3をゲート付きMLPと組み合わせ、 Mambaブロックを構成する Image from A Visual Guide to Mamba and State Space Models

Slide 15

Slide 15 text

15 Bidirectional Mamba block 画像ドメインにおいて、VisionMamba [91]は双方向Mamba(B-Mamba)ブロックを導入した。 視覚データが空間的に複雑な情報を含んでいるため、前後両方向の情報を統合する必要が ある。このブロックは、視覚シーケンスを前方および後方のSSMを同時に使用して処理し、空 間的に意識した処理能力を向上させる。 [91] Zhu, L., Liao, B., Zhang, Q., Wang, X., Liu, W., Wang, X.: Vision mamba: Efficient visual representation learning with bidirectional state space model. ArXiv abs/2401.09417 (2024)

Slide 16

Slide 16 text

16 Video Mamba

Slide 17

Slide 17 text

17 VideoMamba Overview vanilla ViT [15]のアーキテクチャを利用し、B-Mamba blockを3D video sequencesに適応させる [15] Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., Houlsby, N.: An image is worth 16x16 words: Transformers for image recognition at scale. In: ICLR (2021)

Slide 18

Slide 18 text

18 VideoMamba Overview ● 3D convolutionを使用して、入力されたビデオを非重複の空間的・時間的パッチに変換する ● 学習可能な分類トークン、空間的な位置埋め込みと時間的な埋め込みをビデオMambaエンコー ダーへのトークンのシーケンスとして入力する ● トークンはL層のB-Mambaブロックを通過し、最終層で得られる分類トークンの表現が正規化と線 形層を経て、分類に使用される

Slide 19

Slide 19 text

19 Spatiotemporal Scan 元々の2Dスキャンを双方向3Dスキャンに拡張する: (a) 空間優先(Spatial-First):位置ごとに空間トークンを整理し、フレームごとにスタック (b) 時間優先(Temporal-First):フレームごとに時間トークンを配置し、空間次元に沿ってスタック (c) 空間時間的(Spatiotemporal):空間優先と時間優先のハイブリッド(v1が半分、v2が2倍の計算量で全実 行) 実験結果から、空間優先の双方向スキャンが最も効果的であり、かつ簡単であることが示されている 👍

Slide 20

Slide 20 text

20 Architecture ViTに従い、depthとembedding dimensionを調 整し、VideoMamba-Ti、VideoMamba-S、および VideoMamba-Mを構築した 💔しかし、大きな VideoMamba は過学習しやす い傾向がある 😄Self-Distillation strategyを導入し、過学習を 抑える(後ほど紹介)

Slide 21

Slide 21 text

21 Masked Modeling UTM (Unmasked Teacher Model) [43] [43] Li, K., Wang, Y., Li, Y., Wang, Y., He, Y., Wang, L., Qiao, Y.: Unmasked teacher: Towards training-efficient video foundation models. In: ICCV (2023) UMTに着想を得て、マスク付きのアライメント手法を採用する

Slide 22

Slide 22 text

22 Masked Modeling しかし、UMTとは異なり、UMTでは生徒モデルと教師モデルの間で複数層のアライメントを採 用しているのに対し、VideoMambaの独自のアーキテクチャにより、最終出力のみをアライメ ントしている。 また、B-Mambaブロックの特性に合わせた複数のマスキング手法を試した結果、Attention maskingが一番良い。 👍

Slide 23

Slide 23 text

23 実験

Slide 24

Slide 24 text

24 Image tasks(実験条件) ● データセット:ImageNet-1K ○ training images:1.28M, validation images: 50K ● 学習手法 ○ stochastic depth ratio ■ VideoMamba-Ti/S/M => 0/0.15/0.5 ○ self-distillation ■ VideoMamba-Mモデルは、事前学習済みのVideoMamba-Sモデルを「教 師」として使用し、最終的な特徴マップをL2損失を通じて整列させることでト レーニングされる

Slide 25

Slide 25 text

25 Image tasks(実験結果) ● 大きなVideoMambaモデルがoverfitting発生した ● self-distillationを利用し、overfittingを改善できた ● early stoppingは効果なかった

Slide 26

Slide 26 text

26 Image tasks(実験結果) VideoMambaはisotropicアーキテクチャ なので、他の同等のisotropicアーキテク チャのモデルと比較した結果、優れた性 能を示す。 🏆 🏆

Slide 27

Slide 27 text

27 Short-term Video Understanding(実験条件) ● データセット: ● 学習手法 ○ supervised training ■ ImageNet-1Kで事前学習させたモデルをVideoMAE [74]と同じトレーニング戦略で学習する ○ self-supervised training ■ UMTと同様のトレーニングレシピを採用し、CLIP-ViT-B [60]を使用してVideoMamba-Mを800エ ポックで蒸留する dataset average video length train valuation Kinetics-400 10s 234619 19761 Something-SomethingV2 4s 168913 24777 [74] Tong, Z., Song, Y., Wang, J., Wang, L.: VideoMAE: Masked autoencoders are data-efficient learners for self-supervised video pre-training. In: NeurIPS (2022) [60] Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., Sutskever, I.: Learning transferable visual models from natural language supervision. In: ICML (2021)

Slide 28

Slide 28 text

28 Short-term Video Understanding(実験結果) Something-SomethingV2の結果は省略する ● Supervised ○ SOTAの性能 ● Self-supervised ○ supervisedのより優れた ○ Masked Modeling有効💯

Slide 29

Slide 29 text

29 Long-term Video Understanding(実験条件) ● データセット: ○ Breakfast:1,712本の動画、10種類の複雑な調理活動、総再生時間77時間 ○ COIN:11,827本の動画、180種類の独自の手順タスク、平均再生時間2.36分 ○ LVU:約30,000本の映画クリップ、再生時間1~3分、9つのタスク、3つの主要カテゴリ(コ ンテンツ理解、メタデータ予測、ユーザーエンゲージメント)を含む ● 学習手法 ○ エンドツーエンドの訓練 (short-term video understandingのと同様) ■ Kinetics-600で訓練されたSwin-B [51]のような事前訓練済みビデオモデルを使用し ない [51] Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., Lin, S., Guo, B.: Swin transformer: Hierarchical vision transformer using shifted windows. In: ICCV (2021)

Slide 30

Slide 30 text

30 Long-term Video Understanding (実験結果) BreakfastとCOINの結果は省略する 現在のSOTA手法と比較して、優れたまたは同等の結果を示す

Slide 31

Slide 31 text

31 Multi-modality Video Understanding(実験条件) ● データセット: ○ 学習 ■ WebVid-2M videotextpairs、CC3M image-textpairs ○ 評価 ■ MSRVTT、DiDeMo、ActivityNet、LSMDC、MSVD ● 学習手法 ■ 事前学習 ● 画像トークンの50%とビデオトークンの80%をマスクし、8フレームで10エポックに わたって行う ■ unmasked tuning ● 1エポック

Slide 32

Slide 32 text

32 Multi-modality Video Understanding(実験結果) UMT(ViTベース)より優れた性能を示す

Slide 33

Slide 33 text

33 まとめ

Slide 34

Slide 34 text

34 VideoMamba 効率的なビデオ理解を実現する純SSMベースモデルの提案 広範な実験により、以下の特性が実証されている: ● 視覚領域でのスケーラビリティ ● 短期間の動作認識に対する敏感性 ● 長期間のビデオ理解における優位性 ● 他のモダリティとの互換性 まだ完全に行われていない検証: ● より大規模なモデルへの拡張(例:VideoMamba-g) ● 追加のモダリティの統合(例:音声) ● 数時間のビデオ理解のための大規模言語モデルとの統合