Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DiffMOTの紹介

daiyada
February 11, 2025

 DiffMOTの紹介

CVPR2024 で採択された MOTモデル DiffMOT について調査

daiyada

February 11, 2025
Tweet

Other Decks in Programming

Transcript

  1. DiffMOT の紹介 1. 概要 2. D2MP について 3. 性能評価 4.

    まとめ 3-1. アルゴリズム観点 3-2. データ観点
  2. • 論文名 ◦ DiffMOT: A Real-time Diffusion-based Multiple Object Tracker

    with Non-linear Prediction*1 ▪ CVPR 2024 に accept された Multi Object Tracking ( MOT ) モデル • 目的 ◦ 複雑な非線形運動のオブジェクトを精度よく、かつリアルタイムで推論できる ことに主眼を置く ※複雑な非線形運動のオブジェクト: 各種ダンス、スポーツなど... 概要
  3. 概要 動画フレームごとのループ 動画フレームごとのループ Detection Com. 元フレーム内の Tracking 対象の object を検出する

    Motion Prediction Com. での精 度を確認するためDefault で YOLOX が採用されていることが 多い Motion Prediction Com. 過去フレームのトラッキング対象 のオブジェクトの位置を下に、対 象フレーム内でのオブジェクトの 位置を予測 • Kalman Filter ベース • Optical Flow ベース • LSTM ベース • Transformer ベース Association Com. Detection Com. で検出されたオ ブジェクト位置と、Motion Prediction Com. で予測された位 置でトラッキング対象のオブジェ クトを紐付けし軌跡を更新 ハンガリアンアルゴリズムが採用 されていることが多い マッチングスコアはアルゴリズム によりけり • MOT モデルの簡易フレームワーク hogehoge アルゴリズム
  4. 概要 動画フレームごとのループ 動画フレームごとのループ Detection Com. 元フレーム内の Tracking 対象の object を検出する

    Motion Prediction Com. での精 度を確認するためDefault で YOLOX が採用されていることが 多い Motion Prediction Com. 過去フレームのトラッキング対象 のオブジェクトの位置を下に、対 象フレーム内でのオブジェクトの 位置を予測 • Kalman Filter ベース • Optical Flow ベース • LSTM ベース • Transformer ベース Association Com. Detection Com. で検出されたオ ブジェクト位置と、Motion Prediction Com. で予測された位 置でトラッキング対象のオブジェ クトを紐付けし軌跡を更新 ハンガリアンアルゴリズムが採用 されていることが多い マッチングスコアはアルゴリズム によりけり • MOT モデルの簡易フレームワーク hogehoge アルゴリズム 線形運動 Object の Tracking • Kalman Filter が採用される ことが多い • 歩行者などの線形運動をする オブジェクトを対象とした Tracking においては高性能 かつ、リアルタイムでの処理 が可能 非線形運動 Object の Tracking • Kalman Filter ベース ◦ 線形運動に基づく推定の ため、精度が悪い • LSTM ベース ◦ 精度が悪い • Optical Flow, Transformer ベース ◦ FPS が低く、リアルタイ ムでの処理が不可能
  5. 概要 動画フレームごとのループ 動画フレームごとのループ Detection Com. YOLOX Motion Prediction Com. Decoupled

    Diffusion-based Motion Predictor ( D2MP ) • オブジェクトの motion 分 布を作成 • 個々のオブジェクトの過去 の軌跡を条件として物体の 動きを予測 • 非結合拡散理論により 1 ス テップのサンプリングプロ セスが可能に ◦ 推論時間が大幅に短縮 Association Com. ハンガリアンアルゴリズム • マッチングコストは Re-id 特徴量距離とIoU • Deep OC-SORT*2 での重み づけ • match していない予測値と 低スコアの検出結果を match ◦ ByteTrack*3で採用 • DiffMOT の簡易フレームワーク DiffMOT アルゴリズム DiffMOT: 非線形運動予測に取り組むために拡散確率モデルを MOT に導入した最初のモデル
  6. 概要 *参考文献 1: Fig. 1 - (b) より抜粋 • パフォーマンス比較

    ◦ 非線形運動を多く含む DanceTrack*4 の test データを使用 ◦ RTX-3090 x 1 で推論 ◦ DiffMOT-X、DiffMOT-S モデルともに他 のモデルと比較して、高性能 + 高速性を 兼ね備えている ◦ 特に DiffMOT-S においては 30 FPS 程度 の処理速度があり、放送映像に対してもリ アルタイムでの処理が可能なレベル • DiffMOT-X: Detection Comp. に YOLOX-X モデルを採用 • DiffMOT-S: Detection Comp. に YOLOX-S モデルを採用 HOTA ( Higher-Order-Tracking-Accuracy ): 検出と関連付けの正確性の両面から Tracking 性能を評価する指標
  7. 概要 動画フレームごとのループ 動画フレームごとのループ Detection Com. YOLOX Motion Prediction Com. Decoupled

    Diffusion-based Motion Predictor ( D2MP ) • オブジェクトの分布全体を モデル化 • 個々のオブジェクトの過去 の軌跡を条件として物体の 動きを予測 • 非結合拡散理論により 1 ス テップのサンプリングプロ セスが可能に ◦ 推論時間が大幅に短縮 Association Com. ハンガリアンアルゴリズム • マッチングコストは Re-id 特徴量距離とIoU • Deep OC-SORT*2 での重み づけ • match していない予測値と 低スコアの検出結果を match ◦ ByteTrack*3で採用 • DiffMOT の簡易フレームワーク DiffMOT アルゴリズム ▲ 今回取り上げるところ
  8. DiffMOT の紹介 1. 概要 2. D2MP について 3. 性能評価 4.

    まとめ 3-1. アルゴリズム観点 3-2. データ観点
  9. D2MP について • 役割:Motion Prediction Comp. ◦ データセット全体の motion 分布を作

    成 ◦ 過去の motion 情報を条件とした正規 分布から、未来の motion を予測 • 構成 ◦ Forward Process ▪ Decoupled Diffusion Model ( 非 結合拡散モデル ) を採用 ◦ Reversed Process ▪ HMINet ( Historical Memory Information Network ) の実装 *参考文献 1: Fig. 3 より抜粋 D2MP の全体像
  10. D2MP について • Forward Process ◦ Decoupled Diffusion Process*5 を採用

    ▪ Data-to-Noise の過程を 2 つの subprocess に分解 1. Data-to-Zero 2. Zero-to-Noise ▪ 1, 2 を合算することで Data-to-Noise の過程を再現 *参考文献 5: Fig. 2 より抜粋 Forward Process の全体像 *参考文献 1: Fig. 3 より抜粋 • 通常 DDPM においては、連続的な確率過程を複数ステッ プに分けて進めていき、各ステップにおいて微分方程式を 解くことで次の状態を計算 • リアルタイム処理を求めていく中で、このステップ数が ネック • 解析的に ( 計算可能な式に ) 求められたらステップ数を大 幅削減できる ( このモデルではステップ数 1 を実現 )
  11. D2MP について • Forward Process ◦ Data-to-Zero ⇔ - (

    ) *参考文献 5: Fig. 2 より抜粋 *参考文献 5: Fig. 2 より抜粋 M f, 0 Zero Zero N(0, I) ▪ クリーンモーションデータ (    ) を t ∈ [ 0, 1 ] にかけて 0 データにしていく ◦ Zero-to-Noise ▪ 0 データを t ∈ [ 0, 1 ] にかけて標準正規分布に近づけていく • を標準正規分布に ◦ Data-to-Noise ( = Data-to-Zero + Zero-to-Noise ) *参考文献 5: Fig. 2 より抜粋 M f, 0 N(0, I) ▼ここにクリーンモーションデータ ▼ここにクリーンモーションデータ t = 0 t = 1
  12. D2MP について • Reversed Process ◦ Reversed Process の全体像 *参考文献

    1: Fig. 3 より抜粋 *参考文献 5: Fig. 2 より抜粋 →   と  が決まれば、生成(復元)用の正規分布が決まる • μΘ を構成する、cΘ と zΘ は NN を介してパラメータ化されて いる • 元の D2MP では cΘ と zΘ を同時に最適化するアーキテクチャ ◦ リアルタイム処理を求めていく中で目的変数の数は少なく したい
  13. D2MP について ◦ Forward Process で用いた式を用いて   を消す ▪  

    ▪ - ▪ (a) に (b) を代入 • Reversed Process ◦ →   のみを最適化する形に落とし込んだ ... (a) ... (b)
  14. • Reversed Process ◦ ➢   と  が決まれば、生成(復元)用の正 規分布が決まる ➢

       を最適化する構成を取っている ( 後述 の HMINet ) D2MP について Reversed Process の全体像 *参考文献 1: Fig. 3 より抜粋 *参考文献 5: Fig. 2 より抜粋
  15. • Reversed Process ◦ HMINet ( Historical Memory Information Network

    ) D2MP について Reversed Process の全体像 *参考文献 1: Fig. 3 より抜粋 *参考文献 1: Fig. 3 より抜粋 MHSA: Multi Head Self Attention ▪   は、過去 n フレームに亘っての motion 条件付き入 力 ▪ 過去フレーム間での motion の依存性を捉えるために MHSA を挿入 ▪ に含まれる過去の motion information をクラス トークンに組み込む ▪ 更新されたクラストークンを条件埋め込み として後 段へ
  16. • Reversed Process ◦ HMINet ( Historical Memory Information Network

    ) ▪ Motion Fusion Layer を介して、条件埋め込み  を Forward Process で作成した に作用させる •   で をスケール、シフトさせるイメージ D2MP について Reversed Process の全体像 *参考文献 1: Fig. 3 より抜粋 *参考文献 1: Fig. 3 より抜粋 MFL: Motion Fusion Layer
  17. • Reversed Process ◦ HMINet ( Historical Memory Information Network

    ) ▪ 後段で MHSA x3 と MFL x3 を重ねて、最終的に MLP 層 に特徴量を送り、 を得る ▪  を得た後、以下式を用いてモーションデータを再構 成する D2MP について Reversed Process の全体像 *参考文献 1: Fig. 3 より抜粋 *参考文献 1: Fig. 3 より抜粋 MHSA: Multi Head Self Attention MFL: Motion Fusion Layer
  18. DiffMOT の紹介 1. 概要 2. D2MP について 3. 性能評価 4.

    まとめ 3-1. アルゴリズム観点 3-2. データ観点
  19. • 評価指標 ◦ HOTA ( Higher Order Tracking Accuracy ):

    ▪ 検出と関連付けの正確性の両面から Tracking 性能を評価する指標 ◦ IDF1 ( ID F1 Score ): ▪ 真の陽性の Tracker がどれだけ正確に検出・追跡されているかを評価する指標 ◦ AssA ( Association Accuracy ): ▪ 関連付けを評価する指標 ◦ MOTA ( Multi Object Tracking Accuracy ): ▪ ID Switch, FP, FN の影響を含んだ Tracking の正確さを評価する指標 ◦ DetA ( Detection Accuracy ) : ▪ 検出の正確さを評価する指標 性能評価
  20. DiffMOT の紹介 1. 概要 2. D2MP について 3. 性能評価 4.

    まとめ 3-1. アルゴリズム観点 3-2. データ観点
  21. • motion 付き条件入力  は過去何フレームまで参照 するのが効果的か? 性能評価 - アルゴリズム観点 Reversed Process の全体像

    *参考文献 1: Fig. 3 より抜粋 *参考文献 1: Table. 8 より抜粋 DanceTrack の validation データで確認 ◦ 5 フレーム前( n = 5 )までを参照するのが精 度的に良い ▪ n < 5: • 参照フレームが短すぎると最直近の動き のみ考慮することになり効果的に動きを 予測できない ▪ n > 5: • 逆に長すぎると、情報量が過剰で干渉が 発生し精度よく予測できない
  22. • 最適化する param を , から の 1 つ に絞った効果は?

    性能評価 - アルゴリズム観点 Reversed Process の全体像 赤囲い部分が D2MP-OB (OB: One Branch) *参考文献 1: Fig. 3 より抜粋 *参考文献 1: Table. 8 より抜粋 DanceTrack の validation データで確認 D2MP-TB (TB: Two Branch) ◦ 1 つに絞った方が精度も高く、sampling steps も減らせることで、FPS が向上 ◦ TB とした場合、OB と同等の精度を出すのに sampling steps を大きく向上させる必要があ る *参考文献 1: Supplementary Material Fig. 1 より 抜粋・反転表示
  23. DiffMOT の紹介 1. 概要 2. D2MP について 3. 性能評価 4.

    まとめ 3-1. アルゴリズム観点 3-2. データ観点
  24. • 使用データ ◦ SportsMOT*6 ▪ サッカー、バスケ等のデータ ▪ 非線形運動、加速・減速 ◦ DanceTrack*4

    ▪ ヒップホップ、バレエ等のデータ ▪ 非線形運動 ◦ MOT17 ▪ 歩行者主体のデータ ▪ 線形運動 性能評価 - データ観点 MOT17 *参考文献 1: Supplementary Material Fig. 4 より抜粋 SportsMOT *参考文献 1: Supplementary Material Fig. 3 より抜粋 DanceTrack *参考文献 1: Supplementary Material Fig. 2 より抜粋
  25. • SportsMOT ◦ 全ての評価指標で他のモデルの評価指標以 上の精度を出している ◦ 加速・減速をする、あるいは非線形な動き をするオブジェクトに対してロバスト性を 発揮 *参考文献

    1: Tab. 2 より抜粋 上側: Detection model を train のみで学習 下側: Detection model を train + valid データで学習 性能評価 - データ観点
  26. • SportsMOT *参考文献 1: Supplementary Material Fig. 3 - (a),

    (b)より抜粋 Motion Prediction Comp.: Kalman Filter Motion Prediction Comp.: D2MP 性能評価 - データ観点
  27. • DanceTrack ( うまくいっている例 ) *参考文献 1: Supplementary Material Fig.

    2 - (a), (b)より抜粋 Motion Prediction Comp.: Kalman Filter Motion Prediction Comp.: D2MP 性能評価 - データ観点
  28. • DanceTrack ( うまくいっていない例 ) *参考文献 1: Supplementary Material Fig.

    6 より抜粋 Motion Prediction Comp.: D2MP *参考文献 1: Table. 8 より抜粋 • HMINet で motion prediction する際、過去の動き情報の最適な長 さを検討したところ n = 5 フレーム前 ( 右表より ) ◦ n > 5: ▪ 過剰な情報によってもたらされる干渉が悪影響を及ぼす可能性 がある • 一方で、長期間オブジェクトがロスト状態 ( オブジェクト同士の IoU 高 ) になったものを復元できない 性能評価 - データ観点 DanceTrack の validation データで確認
  29. • MOT17 ◦ DanceTrack や SportsMOT のように全て の評価指標で最高精度ではないものの、近 年提案された MOT

    モデルと遜色のない結 果に ◦ オブジェクトの動きが線形・非線形でモデ ルを使い分けなくても良いのはメリット *参考文献 1: Tab. 3 より抜粋 性能評価 - データ観点
  30. DiffMOT の紹介 1. 概要 2. D2MP について 3. 性能評価 4.

    まとめ 3-1. アルゴリズム観点 3-2. データ観点
  31. • Motion Prediction Comp. に拡散確率モデルの D2MP を採用 ◦ 線形 /

    非線形の tracking に問わず、従来の MOT モデル以上の精度を確保 ▪ オブジェクトの動きによってモデルを分ける必要がない ◦ リアルタイム処理ができるほどの推論時間を実現 ▪ 非結合拡散理論により 1 ステップのサンプリングプロセスを可能にした • オブジェクト同士の重なり期間が長く、ロスト状態になった際に ID Switch が生じる可能性はデータによっては多そう ◦ 実用面を考えた時 「ID の保持 vs 処理スピード」という観点で依然として慎重に モデル選択をする必要がある ▪ 「ID の保持」に重きを置くならば、やはり SAM2*7 を使った Tracking の方が強い印象 ▪ 「処理スピード」に重きを置くならば、選択としてあり まとめ
  32. 1. Weiyi Lv, Yuhang Huang, Ning Zhang, Ruei-Sung Lin, Mei

    Han, Dan Zeng. DiffMOT: A Real-time Diffusion-based Multiple Object Tracker with Non-linear Prediction 2. Gerard Maggiolino, Adnan Ahmad, Jinkun Cao, Kris Kitani. Deep OC-SORT: Multi-Pedestrian Tracking by Adaptive Re-Identification 3. Yifu Zhang, Peize Sun, Yi Jiang, Dongdong Yu, Fucheng Weng, Zehuan Yuan, Ping Luo, Wenyu Liu, Xinggang Wang. ByteTrack: Multi-Object Tracking by Associating Every Detection Box 4. Peize Sun, Jinkun Cao, Yi Jiang, Zehuan Yuan, Song Bai, Kris Kitani, Ping Luo. DanceTrack: Multi-Object Tracking in Uniform Appearance and Diverse Motion 5. Yuhang Huang, Zheng Qin, Xinwang Liu, Kai Xu. Simultaneous Image-to-Zero and Zero-to-Noise: Diffusion Models with Analytical Image Attenuation 6. Yutao Cui, Chenkai Zeng, Xiaoyu Zhao, Yichun Yang, Gangshan Wu Limin Wang. SportsMOT: A Large Multi-Object Tracking Dataset in Multiple Sports Scenes 7. Nikhila Ravi, Valentin Gabeur, Yuan-Ting Hu, Ronghang Hu, Chaitanya Ryali, Tengyu Ma, Haitham Khedr, Roman Rädle, Chloe Rolland, Laura Gustafson, Eric Mintun, Junting Pan, Kalyan Vasudev Alwala, Nicolas Carion, Chao-Yuan Wu, Ross Girshick, Piotr Dollár, Christoph Feichtenhofer: SAM 2: Segment Anything in Images and Videos 参考文献