State Space Models for Event Cameras (第61回CV勉強会＠関東発表資料)

by Takuya MINAGAWA

Slide 1

Slide 1 text

第61回 CV勉強会@関東「CVPR2023読み会(前編)」 State Space Models for Event Cameras 2024/07/07 takmin

Slide 2

Slide 2 text

自己紹介 2 株式会社ビジョン＆ITラボ代表取締役皆川卓也（みながわたくや）博士（工学）「コンピュータビジョン勉強会＠関東」主催株式会社フューチャースタンダード技術顧問略歴： 1999-2003年日本HP（後にアジレント・テクノロジーへ分社）にて、ITエンジニアとしてシステム構築、プリセールス、プロジェクトマネジメント、サポート等の業務に従事 2004-2009年コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事 2007-2010年慶應義塾大学大学院後期博士課程にて、コンピュータビジョンを専攻単位取得退学後、博士号取得（2014年） 2009年-現在フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事（2018年法人化） http://visitlab.jp

Slide 3

Slide 3 text

事業内容 1. Ｒ＆Ｄコンサルティング 2. 受託研究/開発 3. 開発マネジメント 4. 開発コンサルティング 5. ビジネス化コンサルティング 3

Slide 4

Slide 4 text

IoT管理ミドルウェア：シナリオエンジン 4  ノーコードで人やモノなどを「動的に」管理するためのルールエンジン  「いつ」、「どこで」、「誰（何）が」、「何をした」かをトリガーに、サイネージやAR、Webサーバーなどのアクションを制御できる。  特許取得済みアクション人：歩く人：歩く

Slide 5

Slide 5 text

AR探索アドベンチャー 5  スマホでイラスト、ランドマーク、ものなどを撮影すると、キャラクターやアイテムが現れてストーリーが進むアドベンチャーゲーム。  アプリインストール不要  シナリオエンジンにより、ユーザの行動や天候、混雑具合によって動的なストーリー変更が可能拡張現実感(AR)

Slide 6

Slide 6 text

紹介する論文 7  State Space Models for Event Cameras  Nikola Zubic, Mathias Gehrig, Davide Scaramuzza  Robotics and Perception Group, University of Zurich, Switzerland  イベントカメラを用いた物体検出等を行う従来手法は、学習測度の問題や、学習時と異なる周波数に対応できない問題を、状態空間モデル（SSM）を導入することで解決

Slide 7

Slide 7 text

イベントカメラ 8  輝度の変化のみ転送  非同期なイベントシーケンスを発生  低遅延、ブラー無し、High Dynamic Range

Slide 8

Slide 8 text

Related Work 9  Gehrig, M., & Scaramuzza, D. (2023). Recurrent Vision Transformers for Object Detection with Event Cameras. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR)  Vision Transformer + LSTMを用いて、イベントカメラから物体検出

Slide 9

Slide 9 text

Related Work 10  Gehrig, M., & Scaramuzza, D. (2023). Recurrent Vision Transformers for Object Detection with Event Cameras. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR)  Vision Transformer + LSTMを用いて、イベントカメラから物体検出 𝒆𝑘 = (𝑥𝑘 , 𝑦𝑘 , 𝑡𝑘 , 𝑝𝑘 ) 画素の座標発生時刻変化方向（正/負） (2𝑇, 𝐻, 𝑊)とすることで、画像として処理

Slide 10

Slide 10 text

Related Work 11  Gehrig, M., & Scaramuzza, D. (2023). Recurrent Vision Transformers for Object Detection with Event Cameras. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR)  Vision Transformer + LSTMを用いて、イベントカメラから物体検出空間内での Local Window Self-Attention 空間内での Dilated Attention

Slide 11

Slide 11 text

本手法 12  LSTMを状態空間モデル（State Space Model）に置き換える  RVT Block → SSM-ViT Block SSM-ViT Block

Slide 12

Slide 12 text

状態空間モデル（SSM）の利用 13 SSM利用のメリット：  既存手法と比べて、長い時系列データを扱える  学習が高速  学習時と推論時で異なる周波数を扱うことができる。  今回、S4、S4D、S5というSSMを使用。  次のスライドから、S4、S4D、S5に至るSSMの進化を簡単に解説

Slide 13

Slide 13 text

HiPPO 14  Gu, A., Dao, T., Ermon, S., Rudra, A., & Ré, C. (2020). HiPPO: Recurrent memory with optimal polynomial projections. Advances in Neural Information Processing Systems (NeurIPS).  系列データを関数（直交多項式の和）で近似することで、理論上無限長の系列を扱うことができる。

Slide 14

Slide 14 text

HiPPO 15  Gu, A., Dao, T., Ermon, S., Rudra, A., & Ré, C. (2020). HiPPO: Recurrent memory with optimal polynomial projections. Advances in Neural Information Processing Systems (NeurIPS).  系列データを関数（直交多項式の和）で近似することで、理論上無限長の系列を扱うことができる。任意の関数𝑓(𝑡) からサンプリングした系列データ𝑓𝑖 系列データをN個の直交多項式へ投影 𝜇(𝑡𝑖): 測度（=データへの重み）基底関数（直交多項式）の係数𝑐(𝑡) 係数𝑐(𝑡)を逐次的に更新離散化 𝐴𝑘 はサンプリング間隔∆t に依存しない（学習時と推論時に異なる周波数に対応）

Slide 15

Slide 15 text

LSSL 16  Gu, A., Johnson, I., Goel, K., Saab, K., Dao, T., Rudra, A., & Ré, C. (2021). Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers. Advances in Neural Information Processing Systems (NeurIPS)  HiPPOを状態空間モデルへ拡張  逐次処理を畳み込み処理として並列化

Slide 16

Slide 16 text

LSSL 17  Gu, A., Johnson, I., Goel, K., Saab, K., Dao, T., Rudra, A., & Ré, C. (2021). Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers. Advances in Neural Information Processing Systems (NeurIPS)  HiPPOを状態空間モデルへ拡張  逐次処理を畳み込み処理として並列化状態空間モデル ሶ 𝑥 𝑡 = 𝐀𝑥 𝑡 + 𝐁𝑢 𝑡 𝑦 𝑡 = 𝐂𝑥 𝑡 + 𝐃𝑢 𝑡 入力内部状態出力 HiPPO ሶ 𝑐 𝑡 = 𝐀𝑐 𝑡 + 𝐁𝑓 𝑡

Slide 17

Slide 17 text

LSSL 18  Gu, A., Johnson, I., Goel, K., Saab, K., Dao, T., Rudra, A., & Ré, C. (2021). Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers. Advances in Neural Information Processing Systems (NeurIPS)  HiPPOを状態空間モデルへ拡張  逐次処理を畳み込み処理として並列化状態空間モデル ሶ 𝑥 𝑡 = 𝐀𝑥 𝑡 + 𝐁𝑢 𝑡 𝑦 𝑡 = 𝐂𝑥 𝑡 + 𝐃𝑢 𝑡 入力内部状態出力離散化状態空間モデル 𝑥𝑘 = ഥ 𝐀𝑥𝑘−1 + ഥ 𝐁𝑢𝑘 𝑦𝑘 = ҧ 𝐂𝑥𝑘 + ഥ 𝐃𝑢𝑘

Slide 18

Slide 18 text

LSSL 19  Gu, A., Johnson, I., Goel, K., Saab, K., Dao, T., Rudra, A., & Ré, C. (2021). Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers. Advances in Neural Information Processing Systems (NeurIPS)  HiPPOを状態空間モデルへ拡張  逐次処理を畳み込み処理として並列化状態空間モデル ሶ 𝑥 𝑡 = 𝐀𝑥 𝑡 + 𝐁𝑢 𝑡 𝑦 𝑡 = 𝐂𝑥 𝑡 + 𝐃𝑢 𝑡 入力内部状態出力離散化状態空間モデル 𝑥𝑘 = ഥ 𝐀𝑥𝑘−1 + ഥ 𝐁𝑢𝑘 𝑦𝑘 = ҧ 𝐂𝑥𝑘 + ഥ 𝐃𝑢𝑘 離散化状態空間モデルを展開すると、畳み込み演算に変換できる (ഥ 𝐃𝑢𝑘 はSkip Connectionとみなして省略) 𝑦𝑘 = ҧ 𝐂(ഥ 𝐀𝑥𝑘−1 + ഥ 𝐁𝑢𝑘 ) ↓ 𝑦𝑘 = ҧ 𝐂ഥ 𝐀𝑥𝑘−1 + ҧ 𝐂ഥ 𝐁𝑢𝑘 ↓ 𝑦𝑘 = ҧ 𝐂ഥ 𝐀𝟐𝑥𝑘−2 + ҧ 𝐂ഥ 𝐀ഥ 𝐁𝑢𝑘−1 + ҧ 𝐂ഥ 𝐁𝑢𝑘 ↓ ↓ 𝑦𝑘 = ҧ 𝐂ഥ 𝐀𝒌ഥ 𝐁𝑢0 + ҧ 𝐂ഥ 𝐀𝒌−𝟏ഥ 𝐁𝑢1 + ⋯ + ҧ 𝐂ഥ 𝐀ഥ 𝐁𝑢𝑘−1 + ҧ 𝐂ഥ 𝐁𝑢𝑘 ↓ 𝑦 = ഥ 𝑲 ∗ 𝒖 ഥ 𝑲 = ҧ 𝐂ഥ 𝐁, ҧ 𝐂ഥ 𝑨ഥ 𝐁, … , ҧ 𝐂ഥ 𝐀𝐿−1ഥ 𝐁 …

Slide 19

Slide 19 text

S4 20  Gu, A., Goel, K., & Ré, C. (2022). Efficiently Modeling Long Sequences With Structured State Spaces. International Conference on Learning Representations (ICLR).  畳み込みカーネルഥ 𝑲の計算を様々な数学的テクニックを用いて簡略化

Slide 20

Slide 20 text

S4 21  Gu, A., Goel, K., & Ré, C. (2022). Efficiently Modeling Long Sequences With Structured State Spaces. International Conference on Learning Representations (ICLR).  畳み込みカーネル𝑲の計算を様々な数学的テクニックを用いて簡略化 Diagonal Plus Low-Rank 𝑨 = 𝚲 − 𝒑𝒒∗ 対角行列と低階級の和 ሶ 𝑥 𝑡 = 𝐀𝑥 𝑡 + 𝐁𝑢 𝑡 𝑦 𝑡 = 𝐂𝑥 𝑡 周波数領域で畳み込みカーネル 𝑲を生成周波数領域で 𝒖と𝑲を乗算（＝時間領域で畳み込み）入力信号𝒖をフーリエ変換出信号𝒚を逆フーリエ変換

Slide 21

Slide 21 text

S4D 22  Gu, A., Gupta, A., Goel, K., & Ré, C. (2022). On the Parameterization and Initialization of Diagonal State Space Models. Advances in Neural Information Processing Systems (NeurIPS)  HiPPO行列のDPLRからlow-rank項を取り除き、対角行列のみの形にしても、実験的にうまくいくことがわかっている。  この現象を数学的に解析し、S4より簡易な手法を提案

Slide 22

Slide 22 text

S4D 23  Gu, A., Gupta, A., Goel, K., & Ré, C. (2022). On the Parameterization and Initialization of Diagonal State Space Models. Advances in Neural Information Processing Systems (NeurIPS)  HiPPO行列のDPLRからlow-rank項を取り除き、対角行列のみの形にしても、実験的にうまくいくことがわかっている。  この現象を数学的に解析し、より簡易な手法を提案対角行列

Slide 23

Slide 23 text

S5 24  Smith, J. T. H., Warrington, A., & Linderman, S. W. (2023). Simplified State Space Layers for Sequence Modeling. International Conference on Learning Representation (ICLR)  S4は入力𝒖のチャネルを個別に処理するのに対し、S5は全チャネルを一括で処理  S4D同様DPLRの対角成分のみ使用  畳み込み処理の代わりに再帰処理を並列化（Parallel Scan）

Slide 24

Slide 24 text

本手法 25  LSTMを状態空間モデル（State Space Model）に置き換える  RVT Block → SSM-ViT Block SSM-ViT Block

Slide 25

Slide 25 text

Low-pass bandlimiting 26  学習時よりも高い周波数の信号に対し推定を行う場合、エイリアシングの問題が発生  以下の２つの対策を取る  Output Masking:  畳み込みカーネル𝑲の周波数成分𝑓𝑛 を選択的にマスクする(𝛼 = 1の時、Nyquist limit)  𝐶𝑛 = ൝ 𝐶𝑛 if 𝑓𝑛 ≤ 𝛼 2 , 0 otherwise,  𝐇2 Norm  損失関数に、畳み込みカーネル𝑲の𝜔𝑚𝑖𝑛 以上の周波数スペクトラムの和を加える

Slide 26

Slide 26 text

Experiments 27  以下の２つのイベントカメラデータセットに対して評価  Gen 1  https://www.prophesee.ai/2020/01/24/prophesee-gen1-automotive- detection-dataset/  1 Mpx  https://www.prophesee.ai/2020/11/24/automotive-megapixel-event- based-dataset/  ベースモデル： ViT-SSM-B  軽量モデル： ViT-SSM-S  学習はTimeWindow Size 50ms (20Hz)、binの数は10で行った

Slide 27

Slide 27 text

Gen1/1 Mpxデータセットでの評価 28  Competitiveな性能を非常に速い推論速度で達成

Slide 28

Slide 28 text

異なる周波数での評価 29  周波数が上がるにつれ、他の手法が大幅に性能を落とすのに対し、本手法での劣化はわずか

Slide 29

Slide 29 text

SSMs: initialization & bandlimiting 30  SSMのモデルと初期化方法、周波数制限パラメータ毎の比較（初期化法の詳細はS4Dの論文参照）モデル名-初期化法

Slide 30

Slide 30 text

SSM Utilization Analysis 31  各層のRVT BlockやSSM-ViT Blockの再帰性がどれだけ性能に影響をしているかの評価

Slide 31

Slide 31 text

Evaluation at different frequencies 32

Slide 32

Slide 32 text

DSECデータセットでの評価 33  1 Mpxデータセットで学習したモデルでDSECデータセットを評価  結果動画  https://youtu.be/WRZZJn6Me9M?si=g5JBNIccSr5sL6-F&t=175

Slide 33

Slide 33 text

結論 34  イベントカメラの物体検出タスクに対して、Vision TransformerとState Space Modelを利用することで、高周波数帯で、従来法に比べて30 mAP以上高い精度と33% の学習速度の向上を達成した。  SSM-ViTモデルは、学習時とは異なる周波数での推論に対しても、追加学習無しで適応可能。  更にOutput Maskingと𝐇2 Norm調整によって特に高周波で問題となるエイリアシングを抑えることができた。