Slide 1

Slide 1 text

第61回 CV勉強会@関東「CVPR2023読み会(前編)」 State Space Models for Event Cameras 2024/07/07 takmin

Slide 2

Slide 2 text

自己紹介 2 株式会社ビジョン&ITラボ 代表取締役 皆川 卓也(みながわ たくや) 博士(工学) 「コンピュータビジョン勉強会@関東」主催 株式会社フューチャースタンダード 技術顧問 略歴: 1999-2003年 日本HP(後にアジレント・テクノロジーへ分社)にて、ITエンジニアとしてシステム構築、プリ セールス、プロジェクトマネジメント、サポート等の業務に従事 2004-2009年 コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事 2007-2010年 慶應義塾大学大学院 後期博士課程にて、コンピュータビジョンを専攻 単位取得退学後、博士号取得(2014年) 2009年-現在 フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事(2018年法人化) http://visitlab.jp

Slide 3

Slide 3 text

事業内容 1. R&Dコンサルティング 2. 受託研究/開発 3. 開発マネジメント 4. 開発コンサルティング 5. ビジネス化コンサルティング 3

Slide 4

Slide 4 text

IoT管理ミドルウェア:シナリオエンジン 4  ノーコードで人やモノなどを「動的に」管理するためのルールエンジ ン  「いつ」、「どこで」、「誰(何)が」、「何をした」かをトリガーに、サイ ネージやAR、Webサーバーなどのアクションを制御できる。  特許取得済み アクション 人:歩く 人:歩く

Slide 5

Slide 5 text

AR探索アドベンチャー 5  スマホでイラスト、ランド マーク、ものなどを撮影 すると、キャラクターやア イテムが現れてストー リーが進むアドベン チャーゲーム。  アプリインストール不要  シナリオエンジンにより、 ユーザの行動や天候、混 雑具合によって動的なス トーリー変更が可能 拡張現実感(AR)

Slide 6

Slide 6 text

紹介する論文 7  State Space Models for Event Cameras  Nikola Zubic, Mathias Gehrig, Davide Scaramuzza  Robotics and Perception Group, University of Zurich, Switzerland  イベントカメラを用いた物体検出等を行う従来手法は、学習測度の 問題や、学習時と異なる周波数に対応できない問題を、状態空間 モデル(SSM)を導入することで解決

Slide 7

Slide 7 text

イベントカメラ 8  輝度の変化のみ転送  非同期なイベントシーケンスを発生  低遅延、ブラー無し、High Dynamic Range

Slide 8

Slide 8 text

Related Work 9  Gehrig, M., & Scaramuzza, D. (2023). Recurrent Vision Transformers for Object Detection with Event Cameras. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR)  Vision Transformer + LSTMを用いて、イベントカメラから物体検出

Slide 9

Slide 9 text

Related Work 10  Gehrig, M., & Scaramuzza, D. (2023). Recurrent Vision Transformers for Object Detection with Event Cameras. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR)  Vision Transformer + LSTMを用いて、イベントカメラから物体検出 𝒆𝑘 = (𝑥𝑘 , 𝑦𝑘 , 𝑡𝑘 , 𝑝𝑘 ) 画素の 座標 発生 時刻 変化方向 (正/負) (2𝑇, 𝐻, 𝑊)とすることで、 画像として処理

Slide 10

Slide 10 text

Related Work 11  Gehrig, M., & Scaramuzza, D. (2023). Recurrent Vision Transformers for Object Detection with Event Cameras. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR)  Vision Transformer + LSTMを用いて、イベントカメラから物体検出 空間内での Local Window Self-Attention 空間内での Dilated Attention

Slide 11

Slide 11 text

本手法 12  LSTMを状態空間モデル(State Space Model)に置き換え る  RVT Block → SSM-ViT Block SSM-ViT Block

Slide 12

Slide 12 text

状態空間モデル(SSM)の利用 13 SSM利用のメリット:  既存手法と比べて、長い時系列データを扱える  学習が高速  学習時と推論時で異なる周波数を扱うことができる。  今回、S4、S4D、S5というSSMを使用。  次のスライドから、S4、S4D、S5に至るSSMの進化を簡単に解 説

Slide 13

Slide 13 text

HiPPO 14  Gu, A., Dao, T., Ermon, S., Rudra, A., & Ré, C. (2020). HiPPO: Recurrent memory with optimal polynomial projections. Advances in Neural Information Processing Systems (NeurIPS).  系列データを関数(直交多項式の和)で近似することで、理論上無限長の 系列を扱うことができる。

Slide 14

Slide 14 text

HiPPO 15  Gu, A., Dao, T., Ermon, S., Rudra, A., & Ré, C. (2020). HiPPO: Recurrent memory with optimal polynomial projections. Advances in Neural Information Processing Systems (NeurIPS).  系列データを関数(直交多項式の和)で近似することで、理論上無限長の 系列を扱うことができる。 任意の関数𝑓(𝑡) からサンプリングし た系列データ𝑓𝑖 系列データをN個の 直交多項式へ投影 𝜇(𝑡𝑖): 測度(=データへの重み) 基底関数(直交多項 式)の係数𝑐(𝑡) 係数𝑐(𝑡)を逐次的に更新 離散化 𝐴𝑘 はサンプリング間隔∆t に依存しない(学習時と推 論時に異なる周波数に対 応)

Slide 15

Slide 15 text

LSSL 16  Gu, A., Johnson, I., Goel, K., Saab, K., Dao, T., Rudra, A., & Ré, C. (2021). Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers. Advances in Neural Information Processing Systems (NeurIPS)  HiPPOを状態空間モデルへ拡張  逐次処理を畳み込み処理として並列化

Slide 16

Slide 16 text

LSSL 17  Gu, A., Johnson, I., Goel, K., Saab, K., Dao, T., Rudra, A., & Ré, C. (2021). Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers. Advances in Neural Information Processing Systems (NeurIPS)  HiPPOを状態空間モデルへ拡張  逐次処理を畳み込み処理として並列化 状態空間モデル ሶ 𝑥 𝑡 = 𝐀𝑥 𝑡 + 𝐁𝑢 𝑡 𝑦 𝑡 = 𝐂𝑥 𝑡 + 𝐃𝑢 𝑡 入力 内部状態 出力 HiPPO ሶ 𝑐 𝑡 = 𝐀𝑐 𝑡 + 𝐁𝑓 𝑡

Slide 17

Slide 17 text

LSSL 18  Gu, A., Johnson, I., Goel, K., Saab, K., Dao, T., Rudra, A., & Ré, C. (2021). Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers. Advances in Neural Information Processing Systems (NeurIPS)  HiPPOを状態空間モデルへ拡張  逐次処理を畳み込み処理として並列化 状態空間モデル ሶ 𝑥 𝑡 = 𝐀𝑥 𝑡 + 𝐁𝑢 𝑡 𝑦 𝑡 = 𝐂𝑥 𝑡 + 𝐃𝑢 𝑡 入力 内部状態 出力 離散化状態空間モデル 𝑥𝑘 = ഥ 𝐀𝑥𝑘−1 + ഥ 𝐁𝑢𝑘 𝑦𝑘 = ҧ 𝐂𝑥𝑘 + ഥ 𝐃𝑢𝑘

Slide 18

Slide 18 text

LSSL 19  Gu, A., Johnson, I., Goel, K., Saab, K., Dao, T., Rudra, A., & Ré, C. (2021). Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers. Advances in Neural Information Processing Systems (NeurIPS)  HiPPOを状態空間モデルへ拡張  逐次処理を畳み込み処理として並列化 状態空間モデル ሶ 𝑥 𝑡 = 𝐀𝑥 𝑡 + 𝐁𝑢 𝑡 𝑦 𝑡 = 𝐂𝑥 𝑡 + 𝐃𝑢 𝑡 入力 内部状態 出力 離散化状態空間モデル 𝑥𝑘 = ഥ 𝐀𝑥𝑘−1 + ഥ 𝐁𝑢𝑘 𝑦𝑘 = ҧ 𝐂𝑥𝑘 + ഥ 𝐃𝑢𝑘 離散化状態空間モデルを展開すると、畳み込み演算 に変換できる (ഥ 𝐃𝑢𝑘 はSkip Connectionとみなして省略) 𝑦𝑘 = ҧ 𝐂(ഥ 𝐀𝑥𝑘−1 + ഥ 𝐁𝑢𝑘 ) ↓ 𝑦𝑘 = ҧ 𝐂ഥ 𝐀𝑥𝑘−1 + ҧ 𝐂ഥ 𝐁𝑢𝑘 ↓ 𝑦𝑘 = ҧ 𝐂ഥ 𝐀𝟐𝑥𝑘−2 + ҧ 𝐂ഥ 𝐀ഥ 𝐁𝑢𝑘−1 + ҧ 𝐂ഥ 𝐁𝑢𝑘 ↓ ↓ 𝑦𝑘 = ҧ 𝐂ഥ 𝐀𝒌ഥ 𝐁𝑢0 + ҧ 𝐂ഥ 𝐀𝒌−𝟏ഥ 𝐁𝑢1 + ⋯ + ҧ 𝐂ഥ 𝐀ഥ 𝐁𝑢𝑘−1 + ҧ 𝐂ഥ 𝐁𝑢𝑘 ↓ 𝑦 = ഥ 𝑲 ∗ 𝒖 ഥ 𝑲 = ҧ 𝐂ഥ 𝐁, ҧ 𝐂ഥ 𝑨ഥ 𝐁, … , ҧ 𝐂ഥ 𝐀𝐿−1ഥ 𝐁 …

Slide 19

Slide 19 text

S4 20  Gu, A., Goel, K., & Ré, C. (2022). Efficiently Modeling Long Sequences With Structured State Spaces. International Conference on Learning Representations (ICLR).  畳み込みカーネルഥ 𝑲の計算を様々な数学的テクニックを用いて簡 略化

Slide 20

Slide 20 text

S4 21  Gu, A., Goel, K., & Ré, C. (2022). Efficiently Modeling Long Sequences With Structured State Spaces. International Conference on Learning Representations (ICLR).  畳み込みカーネル𝑲の計算を様々な数学的テクニックを用いて簡略化 Diagonal Plus Low-Rank 𝑨 = 𝚲 − 𝒑𝒒∗ 対角行列と低階級の和 ሶ 𝑥 𝑡 = 𝐀𝑥 𝑡 + 𝐁𝑢 𝑡 𝑦 𝑡 = 𝐂𝑥 𝑡 周波数領域で畳 み込みカーネル 𝑲を生成 周波数領域で 𝒖と𝑲を乗算 (=時間領域で 畳み込み) 入力信号𝒖を フーリエ変換 出信号𝒚を逆 フーリエ変換

Slide 21

Slide 21 text

S4D 22  Gu, A., Gupta, A., Goel, K., & Ré, C. (2022). On the Parameterization and Initialization of Diagonal State Space Models. Advances in Neural Information Processing Systems (NeurIPS)  HiPPO行列のDPLRからlow-rank項を取り除き、対角行列のみの形にして も、実験的にうまくいくことがわかっている。  この現象を数学的に解析し、S4より簡易な手法を提案

Slide 22

Slide 22 text

S4D 23  Gu, A., Gupta, A., Goel, K., & Ré, C. (2022). On the Parameterization and Initialization of Diagonal State Space Models. Advances in Neural Information Processing Systems (NeurIPS)  HiPPO行列のDPLRからlow-rank項を取り除き、対角行列のみの形にして も、実験的にうまくいくことがわかっている。  この現象を数学的に解析し、より簡易な手法を提案 対角行列

Slide 23

Slide 23 text

S5 24  Smith, J. T. H., Warrington, A., & Linderman, S. W. (2023). Simplified State Space Layers for Sequence Modeling. International Conference on Learning Representation (ICLR)  S4は入力𝒖のチャネルを個別に処理するのに対し、S5は全チャネルを一括で処理  S4D同様DPLRの対角成分のみ使用  畳み込み処理の代わりに再帰処理を並列化(Parallel Scan)

Slide 24

Slide 24 text

本手法 25  LSTMを状態空間モデル(State Space Model)に置き換え る  RVT Block → SSM-ViT Block SSM-ViT Block

Slide 25

Slide 25 text

Low-pass bandlimiting 26  学習時よりも高い周波数の信号に対し推定を行う場合、 エイリアシングの問題が発生  以下の2つの対策を取る  Output Masking:  畳み込みカーネル𝑲の周波数成分𝑓𝑛 を選択的にマスクする(𝛼 = 1の 時、Nyquist limit)  𝐶𝑛 = ൝ 𝐶𝑛 if 𝑓𝑛 ≤ 𝛼 2 , 0 otherwise,  𝐇2 Norm  損失関数に、畳み込みカーネル𝑲の𝜔𝑚𝑖𝑛 以上の周波数スペクトラム の和を加える

Slide 26

Slide 26 text

Experiments 27  以下の2つのイベントカメラデータセットに対して評価  Gen 1  https://www.prophesee.ai/2020/01/24/prophesee-gen1-automotive- detection-dataset/  1 Mpx  https://www.prophesee.ai/2020/11/24/automotive-megapixel-event- based-dataset/  ベースモデル: ViT-SSM-B  軽量モデル: ViT-SSM-S  学習はTimeWindow Size 50ms (20Hz)、binの数は10で 行った

Slide 27

Slide 27 text

Gen1/1 Mpxデータセットでの評価 28  Competitiveな性能を非常に速い推論速度で達成

Slide 28

Slide 28 text

異なる周波数での評価 29  周波数が上がるにつれ、他の手法が大幅に性能を落と すのに対し、本手法での劣化はわずか

Slide 29

Slide 29 text

SSMs: initialization & bandlimiting 30  SSMのモデルと初期化方法、周波数制限パラメータ毎の 比較(初期化法の詳細はS4Dの論文参照) モデル名-初期化法

Slide 30

Slide 30 text

SSM Utilization Analysis 31  各層のRVT BlockやSSM-ViT Blockの再帰性がどれだけ 性能に影響をしているかの評価

Slide 31

Slide 31 text

Evaluation at different frequencies 32

Slide 32

Slide 32 text

DSECデータセットでの評価 33  1 Mpxデータセットで学習したモデルでDSECデータセットを評価  結果動画  https://youtu.be/WRZZJn6Me9M?si=g5JBNIccSr5sL6-F&t=175

Slide 33

Slide 33 text

結論 34  イベントカメラの物体検出タスクに対して、Vision TransformerとState Space Modelを利用することで、高周 波数帯で、従来法に比べて30 mAP以上高い精度と33% の学習速度の向上を達成した。  SSM-ViTモデルは、学習時とは異なる周波数での推論に 対しても、追加学習無しで適応可能。  更にOutput Maskingと𝐇2 Norm調整によって特に高周 波で問題となるエイリアシングを抑えることができた。