論文解説：Snakes and Ladders: Two Steps Up for VideoMamba 【ICCV2025】

Slide 1

Slide 1 text

Snakes and Ladders: Two Steps Up for VideoMamba Hui Lu*, Albert Ali Salah, Ronald Poppe Utrecht University 論文解説者：晴雨（sunshower）

Slide 2

Slide 2 text

はじめに 注意書き ✓Mambaを全く知らない人はおそらく理解不能 ✓理論に命を懸けた論文 ✓数式多用 読んだ理由 ✓TransformerとMambaの違いを分析，Mambaの欠点を改善 ➢ 知らなかったモデルの特性を知れる可能性 →モデル改良の案に繋がる ✓VideoMambaを呼んだことがあるので楽できると思った

Slide 3

Slide 3 text

Introduction

Slide 4

Slide 4 text

タスク Video Understanding ✓動画をモデルに入力して分類 ✓ラベルは「物体」ではなく「動作」 →動作の分類には複数フレームの情報が必要

Slide 5

Slide 5 text

タスク Action detection ✓人間の行動をフレームごとにバウンディングボックスで囲む ✓その人が度の動作をしているかをあてる

Slide 6

Slide 6 text

背景：最近のVideo Understanding Transformer系統 ○Self-Attentionによるトークン間の自己整合性を学習 ○離れた距離のトークンの関係を見ることが可能 ×計算コスト過多 VideoMamba ○軽量な計算コスト ○離れた距離のトークンの依存関係をRNN的に学習 ×従来Transformer系よりは精度↓

Slide 7

Slide 7 text

本論文での功績 TransformerとMambaの特徴抽出能力の違いを分析 MambaをCV分野で扱うときの欠点を特定 1. historical decay（歴史的減衰） →マスク付き逆方向計算で対処 2. element contradiction（要素的矛盾） →Mambaの行列要素に残差接続を追加 ➢オリジナルを超えるVideoMambaProを提案

Slide 8

Slide 8 text

Related Work

Slide 9

Slide 9 text

Transformer 類似度行列から依存関係を学習する計算機構 ✓self-attentionでトークン同士の類似度を計算 →フレーム間の離れた画素も直接計算 ✓計算コストはトークン長の2乗 →映像分野ではトークンがF×H×W Transformer Block self-attention

Slide 10

Slide 10 text

状態空間モデル (SSM : State Space Model) 制御工学で用いられていた解析方法 →NLPでSSMを用いた学習モデルが登場 ✓過去の情報を用いて現在のトークンの特徴を抽出 • NLP：文字 • CV ：画素 ℎ′ 𝑡 = 𝐴ℎ 𝑡 + 𝐵𝑥 𝑡 𝑦 𝑡 = 𝐶ℎ 𝑡 + 𝐷𝑥(𝑡) SSM … A 𝑥 B C D ℎ 𝑦 ℎ′ ：次のトークン

Slide 11

Slide 11 text

余談：SSMのイメージ この式何してんねん→ ✓ℎ 𝑡 − 1 ：前時刻までの圧縮情報 ✓𝑥 𝑡 ：現時刻の情報 ✓𝐴, 𝐵：パラメータ ➢ 今までと現在の情報の重みづけ和で圧縮された情報ℎ(𝑡)を取得 ➢圧縮情報ℎ(𝑡)を𝐶で重みづけして出力特徴𝑦(𝑡)を得る ℎ 𝑡 = 𝐴ℎ 𝑡 − 1 + 𝐵𝑥 𝑡 𝑦 𝑡 = 𝐶ℎ(𝑡) 𝑥(𝑡) ℎ(𝑡 − 1) ℎ(𝑡) 𝑦(𝑡)

Slide 12

Slide 12 text

余談：パラメータDについて 現在はDは不要である説が主力 ✓制御工学ではDは直達項（入力を出力に反映させる項） ✓深層学習では“skip connectionで代用可能”や“入力依存の重みで十分表現できる”などの理由で用いられない ℎ′ 𝑡 = 𝐴ℎ 𝑡 + 𝐵𝑥 𝑡 𝑦 𝑡 = 𝐶ℎ 𝑡 SSM … A 𝑥 B C ℎ 𝑦 ℎ′ ：次のトークン

Slide 13

Slide 13 text

SSMの変遷 NLP分野 1. S4：SSMのパラメータAの初期値を高次多項式射影演算子行列（HiPPO行列）として学習させるモデル．畳み込みも並列化し，処理を高速化． 2. Mamba：A,B,Cを入力依存の重みになるようにした CV分野 1. Vision Mamba：2次元情報の処理のためにSSMのScanを双方向にした 2. VMamba：Scanの方向をさらに増やした 3. VideoMamba：1回で全フレームをScan ✓CV分野では既存モデルを凌駕するほどではない ✓その原因は明らかにされていない →欠点を明らかにし，既存モデルとの精度のギャップを埋める

Slide 14

Slide 14 text

Vision Mamba（Vim） ViTのような構造で画像処理 双方向のscan ✓処理方向に依存しない特徴を得ることができる Forward SSM Backward SSM ℎ𝑡 = ҧ 𝐴ℎ𝑡−1 + ത 𝐵𝑥𝑡 𝑦𝑡 = 𝐶ℎ𝑡

Slide 15

Slide 15 text

Theoretical Analysis

Slide 16

Slide 16 text

self-attentionとmambaの分析 計算の要素 ✓入力を𝑋 = 𝑥1 , … , 𝑥𝑁 ∈ ℝ𝑁×𝐷𝑥，出力を𝑌としたときの各アーキテクチャでのふるまいを分析 ※ 𝑁：トークン，𝐷𝑥 ：特徴ベクトル 要約 ✓self-attentionとmambaの幾何学的な意味は同じ ➢ 理由：両者ともに出力は入力の線形変換で表せられるから 𝑌 = 𝐴𝑋 ✓mambaの問題１：Historical decay（過去のトークンの影響が薄れていく現象） ➢ 理由：mambaは新しい入力に多くの係数がかかるため ✓mambaの問題２：Element contradiction（無関係な特徴も強調される現象） ➢ 理由：過去のトークンの係数が現在のトークンにも必ずかかるため

Slide 17

Slide 17 text

Self-Attentionの数式的アーキテクチャ 1. 類似度計算 a. 入力を3つの異なるトークンに変形 𝑋 ∈ ℝ𝑁×𝐷, 𝑄, 𝐾 ∈ ℝ𝑁×𝐷, 𝑉 ∈ ℝ𝑁×𝐷𝑉 𝑊𝐾 ∈ ℝ𝐷×𝐷𝑥, 𝑊𝑉 ∈ ℝ𝐷𝑣×𝐷𝑥 b. QとKの内積をとる ※𝑠𝑖𝑗 𝑖, 𝑗 = 1, ⋯ , 𝑁 はqueryとkeyの類似度 2. 出力計算 a. 出力𝑌 = [𝑦1 , ⋯ , ⋯ , 𝑦𝑁 ]と各ベクトル𝑦𝑖 を定式化する 𝑌 = 𝑆𝑉, 𝑦𝑖 = ෍ 𝑗=1 𝑁 𝑠𝑖𝑗 𝑣𝑖 linear input key query value linear linear Atten tion Map / 𝐷 + 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 output 𝑄 = 𝑋𝑊𝑄 𝑇, 𝐾 = 𝑋𝑊𝐾 𝑇, 𝑉 = 𝑋𝑊𝑉 𝑇 𝑆 = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥 𝑄𝐾𝑇 𝐷 出力𝑦𝑖 は𝑠𝑖𝑗 を係数とした𝑣𝑗 の加重和（＝線形変換） self-attention

Slide 18

Slide 18 text

Mambaの数式的アーキテクチャ 1. 連続系のSSM ✓ 入力𝑥 𝑡 ∈ ℝ𝐿，隠れ状態ℎ 𝑡 ∈ ℝ𝑁，出力 𝑦 𝑡 ∈ ℝ𝐿のSSMの式は以下 𝐴 ∈ ℝ𝑁×𝑁, 𝐵 ∈ ℝ𝑁×1, 𝐶 ∈ ℝ𝑁×1 2. 離散化したSSM ✓零次ホールド（ZoH）で離散化 ✓離散化パラメータを∆として， ※∆はS4 ：学習可能パラメータ Mamba：入力を線形変換した行列 ℎ 𝑡 = 𝐴ℎ 𝑡 − 1 + 𝐵𝑥 𝑡 𝑦 𝑡 = 𝐶ℎ(𝑡) ҧ 𝐴 = exp ∆𝐴 ത 𝐵 = ∆𝐴 −1 exp ∆𝐴 − 𝐼 ⋅ ∆𝐵 ℎ𝑡 = ҧ 𝐴ℎ𝑡−1 + ത 𝐵𝑥𝑡 𝑦𝑡 = 𝐶ℎ𝑡

Slide 19

Slide 19 text

Mambaの数式的アーキテクチャ 入力𝑋 ≔ 𝑥1 , ⋯ , 𝑥𝑁 として式を展開 ℎ1 = ҧ 𝐴1 ⋅ 0 + ത 𝐵𝑥1 = ത 𝐵1 𝑥1 , ℎ2 = ҧ 𝐴2 ℎ1 + ത 𝐵2 𝑥2 = ҧ 𝐴2 ത 𝐵1 𝑥1 + ത 𝐵2 𝑥2 , ⋯ ℎ𝑁 = ҧ 𝐴𝑁 ℎ𝑁−1 + ത 𝐵𝑁 𝑥𝑁 = ҧ 𝐴𝑁 ҧ 𝐴𝑁−1 ⋯ ҧ 𝐴2 ത 𝐵1 𝑥1 + ҧ 𝐴𝑁 ҧ 𝐴𝑁−1 ⋯ ത 𝐵2 𝑥2 + ҧ 𝐴𝑁 ത 𝐵𝑁−1 𝑥𝑁−1 + ത 𝐵𝑁 𝑥𝑁 ℎ𝑡 = ҧ 𝐴ℎ𝑡−1 + ത 𝐵𝑥𝑡 𝑦𝑡 = 𝐶ℎ𝑡 この式を行列で記述する 𝐻 = ℎ1 , ℎ2 , ⋯ , ℎ𝑁 𝑇 = ത 𝐵1 0 0 ⋯ 0 ҧ 𝐴2 ത 𝐵1 ത 𝐵2 0 ⋯ 0 ҧ 𝐴3 ҧ 𝐴2 ത 𝐵1 ҧ 𝐴3 ത 𝐵2 ത 𝐵3 ⋯ 0 ⋮ ⋮ ⋮ ⋱ ⋮ ෑ 𝑗=𝑁 2 ҧ 𝐴𝑗 ത 𝐵1 ෑ 𝑗=𝑁 3 ҧ 𝐴𝑗 ത 𝐵2 ෑ 𝑗=𝑁 4 ҧ 𝐴𝑗 ത 𝐵3 ⋯ ത 𝐵𝑁 𝑥1 𝑥2 𝑥3 ⋮ 𝑥𝑁

Slide 20

Slide 20 text

Mambaの数式的アーキテクチャ 出力𝑌 ≔ 𝑦1 , ⋯ , 𝑦𝑁 𝑇を数式で表す 𝑌 = ҧ 𝐶1 0 0 ⋯ 0 0 ҧ 𝐶2 0 ⋯ 0 0 0 ҧ 𝐶3 ⋯ 0 ⋮ ⋮ ⋮ ⋱ ⋮ 0 0 0 ⋯ ҧ 𝐶𝑁 ℎ1 ℎ2 ℎ3 ⋮ ℎ𝑁 = ҧ 𝐶𝐻 = ҧ 𝐶 ത 𝐵1 0 0 ⋯ 0 ҧ 𝐴2 ത 𝐵1 ത 𝐵2 0 ⋯ 0 ҧ 𝐴3 ҧ 𝐴2 ത 𝐵1 ҧ 𝐴3 ത 𝐵2 ത 𝐵3 ⋯ 0 ⋮ ⋮ ⋮ ⋱ ⋮ ෑ 𝑗=𝑁 2 ҧ 𝐴𝑗 ത 𝐵1 ෑ 𝑗=𝑁 3 ҧ 𝐴𝑗 ത 𝐵2 ෑ 𝑗=𝑁 4 ҧ 𝐴𝑗 ത 𝐵3 ⋯ ത 𝐵𝑁 𝑥1 𝑥2 𝑥3 ⋮ 𝑥𝑁 = ҧ 𝐶 𝑀𝑋

Slide 21

Slide 21 text

𝑌𝑎𝑡𝑡𝑛 = 𝑆𝑉 = 𝑆𝑋 𝑊𝑉 𝑇 self-attentionとMambaの性質 self-attention ✓𝑉 = 𝑋𝑊𝑉 𝑇より，最終式は以下 1. 入力に類似度行列𝑆で重みづけ 2. 重み行列𝑊𝑉 𝑇で右側から重みづけ Mamba ✓最終式は以下 1. 入力に行列𝑀で重みづけ ※Mは類似度の役割を果たしていると著者は主張 2. 重み行列𝐶で左側から重みづけ 𝑌𝑚𝑎𝑚𝑏𝑎 = 𝐶(𝑀𝑋) １,２より，両者で幾何学的に意味が同じである

Slide 22

Slide 22 text

Video Understanging (VU)におけるMambaの欠点１ Historical decay ✓過去の入力が減衰していく現象 𝑀 = ത 𝐵1 0 0 ⋯ 0 ҧ 𝐴2 ത 𝐵1 ത 𝐵2 0 ⋯ 0 ҧ 𝐴3 ҧ 𝐴2 ത 𝐵1 ҧ 𝐴2 ത 𝐵2 ത 𝐵3 ⋯ 0 ⋮ ⋮ ⋮ ⋱ ⋮ ෑ 𝑗=𝑁 2 ҧ 𝐴𝑗 ത 𝐵1 ෑ 𝑗=𝑁 3 ҧ 𝐴𝑗 ത 𝐵2 ෑ 𝑗=𝑁 4 ҧ 𝐴𝑗 ത 𝐵3 ⋯ ത 𝐵𝑁 ✓この部分の出力は 𝑦3 = ҧ 𝐴3 ҧ 𝐴2 ത 𝐵1 𝑥1 + ҧ 𝐴3 ത 𝐵2 𝑥2 + ത 𝐵3 𝑥3 ✓𝑥3 は ത 𝐵3 のみに影響されるが，𝑥1 は ҧ 𝐴3 ҧ 𝐴2 ത 𝐵1 と多くのパラメータに影響される →パラメータは基本1未満なので古い入力は値が減少

Slide 23

Slide 23 text

VUにおけるMambaの欠点１ NLPとCVにおけるHistorical decayの違い NLP ✓直近の会話情報が最終的な判断に強く影響 →この現象はむしろ有効 CV ✓トークンの順序はあまり意味をなさない →離れすぎるとトークン間の依存関係を測れない ➢対策：Bidirectional SSM ✓順・逆方向にSSMのスキャンを行って指向性の問題を解決 →なぜ有効か理論的な説明はまだないあれはナンシーですか？いいえ，あれは下駄箱です． ★ ★ ★ ★

Slide 24

Slide 24 text

VUにおけるMambaの欠点１ forwardとbackwardの要素を以下で定義 ✓forward 入力：𝑋 = 𝑥1 , ⋯ , 𝑥𝑁 , 𝑀：𝑀𝑓 = 𝑓11 0 ⋮ ⋱ 𝑓𝑁1 ⋯ 𝑓𝑁𝑁 ✓backward 入力：𝑋 = 𝑥𝑁 , ⋯ , 𝑥1 , 𝑀：𝑀𝑏 = 𝑏11 0 ⋮ ⋱ 𝑏𝑁1 ⋯ 𝑏𝑁𝑁 ✓N=3とした例 𝑀𝑓 𝑋 = 𝑓11 0 0 𝑓21 𝑓22 0 𝑓31 𝑓32 𝑓33 𝑥1 𝑥2 𝑥3 = ℎ1𝑓 ℎ2𝑓 ℎ3𝑓 𝑀𝑏 𝑋 = 𝑏11 0 0 𝑏21 𝑏22 0 𝑏31 𝑏32 𝑏33 𝑥1 𝑥2 𝑥3 = ℎ1𝑓 ℎ2𝑓 ℎ3𝑓

Slide 25

Slide 25 text

VUにおけるMambaの欠点１ 各スキャンを線形結合 ℎ1 = 𝑓1𝑓 + ℎ1𝑏 = 𝑓11 𝑥1 + 𝑏13 𝑥3 + 𝑏12 𝑥2 + 𝑏11 𝑥1 ℎ2 = 𝑓2𝑓 + ℎ2𝑏 = 𝑓21 𝑥1 + 𝑓22 𝑥3 + 𝑏23 𝑥3 + 𝑏22 𝑥2 ℎ3 = 𝑓3𝑓 + ℎ3𝑏 = 𝑓31 𝑥1 + 𝑓32 𝑥2 + 𝑓33 𝑥3 + 𝑏33 𝑥3 ✓行列にすると 𝐻 = ℎ1 ℎ2 ℎ3 = 𝑓11 + 𝑏11 𝑏12 𝑏13 𝑓21 𝑓22 + 𝑏22 𝑏23 𝑓31 𝑓32 𝑓33 + 𝑏33 𝑥1 𝑥2 𝑥3 = 𝑀𝑏𝑖 𝑥1 𝑥2 𝑥3 この式を𝑋 ≔ 𝑥1 , ⋯ , 𝑥𝑁 まで拡張する 𝑀𝑏𝑖 = 𝑓11 + 𝑏11 𝑏12 𝑏13 ⋯ 𝑏1𝑁 𝑓21 𝑓22 + 𝑏22 𝑏23 ⋯ 𝑏2𝑁 𝑓31 𝑓32 𝑓33 + 𝑏33 ⋯ 𝑏3𝑁 ⋮ ⋮ ⋮ ⋱ ⋮ 𝑓𝑁1 𝑓𝑁2 𝑓𝑁3 ⋯ 𝑓𝑁𝑁 + 𝑏𝑁𝑁 対角要素が二重化されている！！！

Slide 26

Slide 26 text

VUにおけるMambaの欠点２ 行列𝑀を少し書き直す 𝑀 = ത 𝐵1 0 0 ⋯ 0 ҧ 𝐴2 ത 𝐵1 ത 𝐵2 0 ⋯ 0 ҧ 𝐴3 ҧ 𝐴2 ത 𝐵1 ҧ 𝐴3 ത 𝐵2 ത 𝐵3 ⋯ 0 ⋮ ⋮ ⋮ ⋱ ⋮ ෑ 𝑗=𝑁 2 ҧ 𝐴𝑗 ത 𝐵1 ෑ 𝑗=𝑁 3 ҧ 𝐴𝑗 ത 𝐵2 ෑ 𝑗=𝑁 4 ҧ 𝐴𝑗 ത 𝐵3 ⋯ ത 𝐵𝑁 = 𝑚11 = ത 𝐵1 0 0 ⋯ 0 𝑚21 = ҧ 𝐴2 𝑚11 𝑚22 = ത 𝐵2 0 ⋯ 0 𝑚31 = ҧ 𝐴3 𝑚21 𝑚32 = ҧ 𝐴2 𝑚22 𝑚33 = ത 𝐵3 ⋯ 0 ⋮ ⋮ ⋮ ⋱ ⋮ 𝑚𝑁1 = ҧ 𝐴𝑁 𝑚(𝑁−1)1 𝑚𝑁2 = ҧ 𝐴(𝑁−1) 𝑚𝑁2 𝑚𝑁3 = ҧ 𝐴(𝑁−2) 𝑚𝑁3 ⋯ 𝑚(𝑁−1)𝑁 = ത 𝐵𝑁 • 𝑚21 = ҧ 𝐴2 𝑚11 は𝑥1 の係数， 𝑚32 = ҧ 𝐴2 𝑚22 は𝑥2 の係数 • ҧ 𝐴2 は𝑥1 , 𝑥2 , ⋯ , 𝑥𝑁−1 までかけられる • ҧ 𝐴は様々なトークンとかけられる

Slide 27

Slide 27 text

 理想 ✓ 𝑥2 , 𝑥5 を強調， 𝑥1 , 𝑥3 , 𝑥4 を抑制するパラメータA, B  実際 ✓ 𝑚21 = ҧ 𝐴2 𝑚11 と𝑚32 = ҧ 𝐴2 𝑚22 より， 𝑥1 を強調するには ҧ 𝐴2 を大きくする必要があるが，𝑥2 を小さくしたい場合は ҧ 𝐴2 を小さくしなければならない →これが矛盾 VUにおけるMambaの欠点２ Element contradiction ✓要素同士の共通パラメータによる矛盾 原因：別トークンにも共通したパラメータを乗算 ✓画像は関係・無関係トークンが存在 𝑥1 𝑥2 𝑥3 𝑥4 𝑥5 背景背景前景前景 ➢無関係なトークンの強調，重要なトークンの無視が起こる可能性

Slide 28

Slide 28 text

VideoMambaPro

Slide 29

Slide 29 text

architectureと提案Mamba Block 入力𝑋𝑣 ∈ ℝ3×𝑇×𝐻×𝑊としたモデルの動作 1. 1×16×16のカーネルでパッチ埋め込み 𝑋𝑝 = 𝐶𝑜𝑛𝑣3𝑑 𝑋𝑣 ∈ ℝ𝐿×𝐶 ※：𝐿 = 𝑡 × ℎ × 𝑤 (𝑡 = 𝑇, ℎ = 𝐻/16, 𝑤 = 𝑊/16) 2. 空間位置埋め込み𝑝𝑠 ∈ ℝ ℎ𝑤+1 ×𝐶と時間位置埋め込み 𝑝𝑡 ∈ ℝ𝑡×𝐶を加算 𝑋 = 𝑋𝑐𝑙𝑠 , 𝑋 + 𝑝𝑠 + 𝑝𝑡 3. 入力トークン𝑋をK個のBi-Directional Mamba Blockに通す 4. 最終層の[𝐶𝐿𝑆]トークンをnorm+linearして分類

Slide 30

Slide 30 text

提案手法 2つの欠点に対して2つの改良 ✓ 加算時の対角成分の重なり ➢ backwardの対角要素を０にして重なりを排除 𝑀𝑏𝑖 = 𝑓11 𝑏12 𝑏13 ⋯ 𝑏1𝑁 𝑓21 𝑓22 𝑏23 ⋯ 𝑏2𝑁 𝑓31 𝑓32 𝑓33 ⋯ 𝑏3𝑁 ⋮ ⋮ ⋮ ⋱ ⋮ 𝑓𝑁1 𝑓𝑁2 𝑓𝑁3 ⋯ 𝑓𝑁𝑁 ✓ Element contradiction ➢ 加算項で前時刻までの影響を緩和 𝑚𝑖𝑗 = ҧ 𝐴𝑖 𝑚𝑖−1,𝑗 + ҧ 𝐴𝑖 ※他トークンとの関連性が薄れるイメージ = 𝑚11 = ത 𝐵1 0 ⋯ 0 𝑚21 = ҧ 𝐴2 𝑚11 + ҧ 𝐴2 𝑚22 = ത 𝐵2 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 𝑚𝑁1 = ҧ 𝐴𝑁 𝑚(𝑁−1)1 + ҧ 𝐴𝑁 𝑚𝑁2 = ҧ 𝐴𝑁 𝑚(𝑁−1)2 + ҧ 𝐴𝑁 ⋯ 𝑚(𝑁−1)𝑁 = ത 𝐵𝑁

Slide 31

Slide 31 text

Experiments

Slide 32

Slide 32 text

実験のセットアップ データセット ✓Kinetics-400 (K400) ✓Something-Something V2 (SSv2) ✓UCF-101 ✓HMDB51 ✓AVA 事前学習 ✓ImageNet-1K (IN-1K) ✓DeiTに従った条件・学習 fine tuning ✓Video MAEに従った条件・学習 ✓image size : 2242 ✓optimizer : AdamW (momentum = 0.9, batch size = 512) ※VideoMambaとVideoMambaPro以外は論文の値を参照

Slide 33

Slide 33 text

K400の実験結果

Slide 34

Slide 34 text

VideoMambaとVideoMambaProの違い Activation branchの有無が違う ✓計算量の削減にはつながっている ✓理由は記述なし ✓これの有無の比較実験なし ✓Activationからの出力ないなっとるやんけ！！！

Slide 35

Slide 35 text

K400の実験結果と統計的検証 VideoMambaProが改善したクラスの可視化 ✓95%以上のクラスで改善 McNemar検定 ✓自由度１の検定 ✓VMPで×，VM で〇 (𝑛10 )が，VMで×，VMPで〇 (𝑛01 )に比べて十分に少ないかを検証する ✓𝜒2 = 𝑛01−𝑛10 2 (𝑛01+𝑛10) = 1833−469 2 1833+469 = 808.2 ✓カイ二乗分布による優位水準は𝑝 < 0.001→意味のある改善

Slide 36

Slide 36 text

計算コスト分析 パラメータ，計算量の可視化 ✓ほぼ同一のパラメータ・計算量では好成績 ✓少し精度が上のモデルとの比較 ➢ X-CLIP：top-1 acc +2.7%，パラメータ約6.29倍 ➢ VideoMAE-H：top-1 acc +1.6%，FLOPs約2.65倍 453M 72M 17.9T 6.75T

Slide 37

Slide 37 text

SSv2の実験結果

Slide 38

Slide 38 text

UCF-101, HMDB51, AVA

Slide 39

Slide 39 text

ablation study 提案手法の有効性の検証 ✓両者ともに精度向上に貢献

Slide 40

Slide 40 text

Conclusion

Slide 41

Slide 41 text

まとめ CV分野でのMambaの欠点を２つ特定 ✓self-attentionとの数学的な比較で以下を特定 1. Historical decay 2. Element contradiction 欠点を克服するための提案で精度向上 ✓マスク付き逆方向SSMで過度な自己情報の強化を抑制 ✓残差接続で他要素からの影響を緩和 ➢Transformerとの精度ギャップを埋めることに貢献

Slide 42

Slide 42 text

感想 ○Mambaの欠点を理解できた ➢Bi-directional SSMの重なりによる過度の自己強調 ➢リレー形式な計算による要素の強弱制御が難航 ○理論・実験詳細をしっかり書くことの重要性 ➢提案手法半ページ ➢データセットが古く小さいものもあり ➢実験詳細や載せきれなかった実験が補足資料に ×Element contradictionの対策ほんとにそれでいいの？ ➢クリティカルな対策になってない気が

Slide 43

Slide 43 text

参考文献・資料 • Snakes and Ladders: Two Steps Up for VideoMamba, https://arxiv.org/abs/2406.19006 • Why and How Convolutions Work for Video Classification, https://blog.fastforwardlabs.com/2022/01/31/why-and-how- convolutions-work-for-video-classification.html • VideoMamba: State Space Model for Efficient Video Understanding, https://arxiv.org/abs/2403.06977 • Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model, https://arxiv.org/abs/2401.09417 • Attention is all you need: Self Attention Clearly explained!, https://mlspring.beehiiv.com/p/attention-need-self-attention- clearly-explained • [論文読み] Training data-efficient image transformers & distillation through attention, https://qiita.com/syunki_tacase/items/1756225588b1107ea2ef • AVA: A Video Dataset of Spatio-temporally Localized Atomic Visual Actions, https://arxiv.org/abs/1705.08421

Slide 44

Slide 44 text

補助資料

Slide 45

Slide 45 text

VideoMambaProの種類 Tiny ✓embedding dimension=192 ✓24 mamba block Small ✓embedding dimension=384 ✓24 mamba block Middle ✓embedding dimension=576 ✓32 mamba block

Slide 46

Slide 46 text

ImageNet-1Kにおける実験結果 提案手法は画像でも有効であることの検証 ✓1%以上の精度向上は可能 ✓動画よりトークンが減るため，Mambaの優位性は薄れると考えられる（自分の感想）

Slide 47

Slide 47 text

余談：Mambaってほんとに計算コスト軽い？ Vision Mamba • self-attentionとSSMの計算コストを比較（Vision Mambaより式を抜粋） Ω 𝑠𝑒𝑙𝑓 𝑎𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛 = 4𝑀𝐷2 + 2𝑀2𝐷 = 2𝑀𝐷(2𝐷 + 𝑀) Ω 𝑆𝑆𝑀 = 3𝑀 2𝐷 𝑁 + 𝑀 2𝐷 𝑁 = 2𝑀𝐷 4𝑁 ※M：トークン数，D：チャンネル， N：SSMのチャンネル（大抵16） • Ω 𝑆𝑆𝑀 < Ω 𝑠𝑒𝑙𝑓 𝑎𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛 となるには... 2𝑀𝐷 4𝑁 < 2𝑀𝐷 2𝐷 + 𝑀 4𝑁 < 2𝐷 + 𝑀 • 大抵の場合ではΩ 𝑆𝑆𝑀 < Ω 𝑠𝑒𝑙𝑓 𝑎𝑡𝑡𝑒𝑛𝑡𝑖𝑜𝑛 • Mが大きい動画分野では特に有利

Slide 48

Slide 48 text

DeiT • 蒸留手法に関する提案 • 通常の学習に蒸留を追加 • CNNのlogitをTransformerのDistillation Tokenに蒸留