DiffMOTの紹介

DiﬀMOT の紹介 2024.12.12 Thu. AI技術開発部ビジョン・スポーツグループ菱田俊介

DiﬀMOT の紹介 1. 概要 2. D2MP について 3. 性能評価 4.
まとめ 3-1. アルゴリズム観点 3-2. データ観点

• 論文名 ◦ DiﬀMOT: A Real-time Diﬀusion-based Multiple Object Tracker
with Non-linear Prediction*1 ▪ CVPR 2024 に accept された Multi Object Tracking ( MOT ) モデル • 目的 ◦ 複雑な非線形運動のオブジェクトを精度よく、かつリアルタイムで推論できることに主眼を置く ※複雑な非線形運動のオブジェクト：各種ダンス、スポーツなど... 概要

概要動画フレームごとのループ動画フレームごとのループ Detection Com. 元フレーム内の Tracking 対象の object を検出する
Motion Prediction Com. での精度を確認するためDefault で YOLOX が採用されていることが多い Motion Prediction Com. 過去フレームのトラッキング対象のオブジェクトの位置を下に、対象フレーム内でのオブジェクトの位置を予測 • Kalman Filter ベース • Optical Flow ベース • LSTM ベース • Transformer ベース Association Com. Detection Com. で検出されたオブジェクト位置と、Motion Prediction Com. で予測された位置でトラッキング対象のオブジェクトを紐付けし軌跡を更新ハンガリアンアルゴリズムが採用されていることが多いマッチングスコアはアルゴリズムによりけり • MOT モデルの簡易フレームワーク hogehoge アルゴリズム

概要動画フレームごとのループ動画フレームごとのループ Detection Com. 元フレーム内の Tracking 対象の object を検出する
Motion Prediction Com. での精度を確認するためDefault で YOLOX が採用されていることが多い Motion Prediction Com. 過去フレームのトラッキング対象のオブジェクトの位置を下に、対象フレーム内でのオブジェクトの位置を予測 • Kalman Filter ベース • Optical Flow ベース • LSTM ベース • Transformer ベース Association Com. Detection Com. で検出されたオブジェクト位置と、Motion Prediction Com. で予測された位置でトラッキング対象のオブジェクトを紐付けし軌跡を更新ハンガリアンアルゴリズムが採用されていることが多いマッチングスコアはアルゴリズムによりけり • MOT モデルの簡易フレームワーク hogehoge アルゴリズム線形運動 Object の Tracking • Kalman Filter が採用されることが多い • 歩行者などの線形運動をするオブジェクトを対象とした Tracking においては高性能かつ、リアルタイムでの処理が可能非線形運動 Object の Tracking • Kalman Filter ベース ◦ 線形運動に基づく推定のため、精度が悪い • LSTM ベース ◦ 精度が悪い • Optical Flow, Transformer ベース ◦ FPS が低く、リアルタイムでの処理が不可能

概要動画フレームごとのループ動画フレームごとのループ Detection Com. YOLOX Motion Prediction Com. Decoupled
Diffusion-based Motion Predictor ( D2MP ) • オブジェクトの motion 分布を作成 • 個々のオブジェクトの過去の軌跡を条件として物体の動きを予測 • 非結合拡散理論により 1 ステップのサンプリングプロセスが可能に ◦ 推論時間が大幅に短縮 Association Com. ハンガリアンアルゴリズム • マッチングコストは Re-id 特徴量距離とIoU • Deep OC-SORT*2 での重みづけ • match していない予測値と低スコアの検出結果を match ◦ ByteTrack*3で採用 • DiffMOT の簡易フレームワーク DiffMOT アルゴリズム DiffMOT: 非線形運動予測に取り組むために拡散確率モデルを MOT に導入した最初のモデル

概要 • DiﬀMOT の簡易フレームワーク *参考文献 1: Fig. 2 より抜粋

概要 *参考文献 1: Fig. 1 - (b) より抜粋 • パフォーマンス比較
◦ 非線形運動を多く含む DanceTrack*4 の test データを使用 ◦ RTX-3090 x 1 で推論 ◦ DiffMOT-X、DiffMOT-S モデルともに他のモデルと比較して、高性能 + 高速性を兼ね備えている ◦ 特に DiffMOT-S においては 30 FPS 程度の処理速度があり、放送映像に対してもリアルタイムでの処理が可能なレベル • DiffMOT-X: Detection Comp. に YOLOX-X モデルを採用 • DiffMOT-S: Detection Comp. に YOLOX-S モデルを採用 HOTA ( Higher-Order-Tracking-Accuracy ): 検出と関連付けの正確性の両面から Tracking 性能を評価する指標

概要動画フレームごとのループ動画フレームごとのループ Detection Com. YOLOX Motion Prediction Com. Decoupled
Diffusion-based Motion Predictor ( D2MP ) • オブジェクトの分布全体をモデル化 • 個々のオブジェクトの過去の軌跡を条件として物体の動きを予測 • 非結合拡散理論により 1 ステップのサンプリングプロセスが可能に ◦ 推論時間が大幅に短縮 Association Com. ハンガリアンアルゴリズム • マッチングコストは Re-id 特徴量距離とIoU • Deep OC-SORT*2 での重みづけ • match していない予測値と低スコアの検出結果を match ◦ ByteTrack*3で採用 • DiffMOT の簡易フレームワーク DiffMOT アルゴリズム ▲ 今回取り上げるところ

D2MP について • 役割：Motion Prediction Comp. ◦ データセット全体の motion 分布を作
成 ◦ 過去の motion 情報を条件とした正規分布から、未来の motion を予測 • 構成 ◦ Forward Process ▪ Decoupled Diﬀusion Model ( 非結合拡散モデル ) を採用 ◦ Reversed Process ▪ HMINet ( Historical Memory Information Network ) の実装 *参考文献 1: Fig. 3 より抜粋 D2MP の全体像

D2MP について • Forward Process ◦ Decoupled Diﬀusion Process*5 を採用
▪ Data-to-Noise の過程を 2 つの subprocess に分解 1. Data-to-Zero 2. Zero-to-Noise ▪ 1, 2 を合算することで Data-to-Noise の過程を再現 *参考文献 5: Fig. 2 より抜粋 Forward Process の全体像 *参考文献 1: Fig. 3 より抜粋 • 通常 DDPM においては、連続的な確率過程を複数ステップに分けて進めていき、各ステップにおいて微分方程式を解くことで次の状態を計算 • リアルタイム処理を求めていく中で、このステップ数がネック • 解析的に ( 計算可能な式に ) 求められたらステップ数を大幅削減できる ( このモデルではステップ数 1 を実現 )

D2MP について • Forward Process ◦ Data-to-Zero ⇔ - (
) *参考文献 5: Fig. 2 より抜粋 *参考文献 5: Fig. 2 より抜粋 M f, 0 Zero Zero N(0, I) ▪ クリーンモーションデータ ( 　　) を t ∈ [ 0, 1 ] にかけて 0 データにしていく ◦ Zero-to-Noise ▪ 0 データを t ∈ [ 0, 1 ] にかけて標準正規分布に近づけていく • を標準正規分布に ◦ Data-to-Noise ( = Data-to-Zero + Zero-to-Noise ) *参考文献 5: Fig. 2 より抜粋 M f, 0 N(0, I) ▼ここにクリーンモーションデータ ▼ここにクリーンモーションデータ t = 0 t = 1

D2MP について • Reversed Process ◦ Reversed Process の全体像 *参考文献
1: Fig. 3 より抜粋 *参考文献 5: Fig. 2 より抜粋 → 　と　が決まれば、生成(復元)用の正規分布が決まる • μΘ を構成する、cΘ と zΘ は NN を介してパラメータ化されている • 元の D2MP では cΘ と zΘ を同時に最適化するアーキテクチャ ◦ リアルタイム処理を求めていく中で目的変数の数は少なくしたい

D2MP について ◦ Forward Process で用いた式を用いて　を消す ▪ 　
▪ - ▪ (a) に (b) を代入 • Reversed Process ◦ → 　のみを最適化する形に落とし込んだ ... (a) ... (b)

• Reversed Process ◦ ➢ 　と　が決まれば、生成(復元)用の正規分布が決まる ➢
　　を最適化する構成を取っている ( 後述の HMINet ) D2MP について Reversed Process の全体像 *参考文献 1: Fig. 3 より抜粋 *参考文献 5: Fig. 2 より抜粋

• Reversed Process ◦ HMINet ( Historical Memory Information Network
) D2MP について Reversed Process の全体像 *参考文献 1: Fig. 3 より抜粋 *参考文献 1: Fig. 3 より抜粋 MHSA: Multi Head Self Attention ▪ 　は、過去 n フレームに亘っての motion 条件付き入力 ▪ 過去フレーム間での motion の依存性を捉えるために MHSA を挿入 ▪ に含まれる過去の motion information をクラストークンに組み込む ▪ 更新されたクラストークンを条件埋め込みとして後段へ

) ▪ Motion Fusion Layer を介して、条件埋め込み　　を Forward Process で作成したに作用させる • 　でをスケール、シフトさせるイメージ D2MP について Reversed Process の全体像 *参考文献 1: Fig. 3 より抜粋 *参考文献 1: Fig. 3 より抜粋 MFL: Motion Fusion Layer

) ▪ 後段で MHSA x3 と MFL x3 を重ねて、最終的に MLP 層に特徴量を送り、を得る ▪ 　を得た後、以下式を用いてモーションデータを再構成する D2MP について Reversed Process の全体像 *参考文献 1: Fig. 3 より抜粋 *参考文献 1: Fig. 3 より抜粋 MHSA: Multi Head Self Attention MFL: Motion Fusion Layer

• 損失関数 ◦ 　を最適化する観点でシンプルな Smooth L1 Loss を採用 D2MP について

• 評価指標 ◦ HOTA ( Higher Order Tracking Accuracy ):
▪ 検出と関連付けの正確性の両面から Tracking 性能を評価する指標 ◦ IDF1 ( ID F1 Score ): ▪ 真の陽性の Tracker がどれだけ正確に検出・追跡されているかを評価する指標 ◦ AssA ( Association Accuracy ): ▪ 関連付けを評価する指標 ◦ MOTA ( Multi Object Tracking Accuracy ): ▪ ID Switch, FP, FN の影響を含んだ Tracking の正確さを評価する指標 ◦ DetA ( Detection Accuracy ) : ▪ 検出の正確さを評価する指標性能評価

• motion 付き条件入力　　は過去何フレームまで参照するのが効果的か？性能評価 - アルゴリズム観点 Reversed Process の全体像
*参考文献 1: Fig. 3 より抜粋 *参考文献 1: Table. 8 より抜粋 DanceTrack の validation データで確認 ◦ 5 フレーム前（ n = 5 ）までを参照するのが精度的に良い ▪ n < 5: • 参照フレームが短すぎると最直近の動きのみ考慮することになり効果的に動きを予測できない ▪ n > 5: • 逆に長すぎると、情報量が過剰で干渉が発生し精度よく予測できない

• 最適化する param を , からの 1 つに絞った効果は？
性能評価 - アルゴリズム観点 Reversed Process の全体像赤囲い部分が D2MP-OB (OB: One Branch) *参考文献 1: Fig. 3 より抜粋 *参考文献 1: Table. 8 より抜粋 DanceTrack の validation データで確認 D2MP-TB (TB: Two Branch) ◦ 1 つに絞った方が精度も高く、sampling steps も減らせることで、FPS が向上 ◦ TB とした場合、OB と同等の精度を出すのに sampling steps を大きく向上させる必要がある *参考文献 1: Supplementary Material Fig. 1 より抜粋・反転表示

• 使用データ ◦ SportsMOT*6 ▪ サッカー、バスケ等のデータ ▪ 非線形運動、加速・減速 ◦ DanceTrack*4
▪ ヒップホップ、バレエ等のデータ ▪ 非線形運動 ◦ MOT17 ▪ 歩行者主体のデータ ▪ 線形運動性能評価 - データ観点 MOT17 *参考文献 1: Supplementary Material Fig. 4 より抜粋 SportsMOT *参考文献 1: Supplementary Material Fig. 3 より抜粋 DanceTrack *参考文献 1: Supplementary Material Fig. 2 より抜粋

• SportsMOT ◦ 全ての評価指標で他のモデルの評価指標以上の精度を出している ◦ 加速・減速をする、あるいは非線形な動きをするオブジェクトに対してロバスト性を発揮 *参考文献
1: Tab. 2 より抜粋上側: Detection model を train のみで学習下側: Detection model を train + valid データで学習性能評価 - データ観点

• SportsMOT *参考文献 1: Supplementary Material Fig. 3 - (a),
(b)より抜粋 Motion Prediction Comp.: Kalman Filter Motion Prediction Comp.: D2MP 性能評価 - データ観点

• DanceTrack ◦ 全ての評価指標で他のモデルの評価指標以上の精度を出している ◦ 非線形な動きをするオブジェクトに対して一定のロバスト性を発揮 *参考文献 1:
Tab. 1 より抜粋性能評価 - データ観点

• DanceTrack ( うまくいっている例 ) *参考文献 1: Supplementary Material Fig.
2 - (a), (b)より抜粋 Motion Prediction Comp.: Kalman Filter Motion Prediction Comp.: D2MP 性能評価 - データ観点

• DanceTrack ( うまくいっていない例 ) *参考文献 1: Supplementary Material Fig.
6 より抜粋 Motion Prediction Comp.: D2MP *参考文献 1: Table. 8 より抜粋 • HMINet で motion prediction する際、過去の動き情報の最適な長さを検討したところ n = 5 フレーム前 ( 右表より ) ◦ n > 5: ▪ 過剰な情報によってもたらされる干渉が悪影響を及ぼす可能性がある • 一方で、長期間オブジェクトがロスト状態 ( オブジェクト同士の IoU 高 ) になったものを復元できない性能評価 - データ観点 DanceTrack の validation データで確認

• MOT17 ◦ DanceTrack や SportsMOT のように全ての評価指標で最高精度ではないものの、近年提案された MOT
モデルと遜色のない結果に ◦ オブジェクトの動きが線形・非線形でモデルを使い分けなくても良いのはメリット *参考文献 1: Tab. 3 より抜粋性能評価 - データ観点

• Motion Prediction Comp. に拡散確率モデルの D2MP を採用 ◦ 線形 /
非線形の tracking に問わず、従来の MOT モデル以上の精度を確保 ▪ オブジェクトの動きによってモデルを分ける必要がない ◦ リアルタイム処理ができるほどの推論時間を実現 ▪ 非結合拡散理論により 1 ステップのサンプリングプロセスを可能にした • オブジェクト同士の重なり期間が長く、ロスト状態になった際に ID Switch が生じる可能性はデータによっては多そう ◦ 実用面を考えた時「ID の保持 vs 処理スピード」という観点で依然として慎重にモデル選択をする必要がある ▪ 「ID の保持」に重きを置くならば、やはり SAM2*7 を使った Tracking の方が強い印象 ▪ 「処理スピード」に重きを置くならば、選択としてありまとめ

参考文献

1. Weiyi Lv, Yuhang Huang, Ning Zhang, Ruei-Sung Lin, Mei
Han, Dan Zeng. DiffMOT: A Real-time Diffusion-based Multiple Object Tracker with Non-linear Prediction 2. Gerard Maggiolino, Adnan Ahmad, Jinkun Cao, Kris Kitani. Deep OC-SORT: Multi-Pedestrian Tracking by Adaptive Re-Identification 3. Yifu Zhang, Peize Sun, Yi Jiang, Dongdong Yu, Fucheng Weng, Zehuan Yuan, Ping Luo, Wenyu Liu, Xinggang Wang. ByteTrack: Multi-Object Tracking by Associating Every Detection Box 4. Peize Sun, Jinkun Cao, Yi Jiang, Zehuan Yuan, Song Bai, Kris Kitani, Ping Luo. DanceTrack: Multi-Object Tracking in Uniform Appearance and Diverse Motion 5. Yuhang Huang, Zheng Qin, Xinwang Liu, Kai Xu. Simultaneous Image-to-Zero and Zero-to-Noise: Diffusion Models with Analytical Image Attenuation 6. Yutao Cui, Chenkai Zeng, Xiaoyu Zhao, Yichun Yang, Gangshan Wu Limin Wang. SportsMOT: A Large Multi-Object Tracking Dataset in Multiple Sports Scenes 7. Nikhila Ravi, Valentin Gabeur, Yuan-Ting Hu, Ronghang Hu, Chaitanya Ryali, Tengyu Ma, Haitham Khedr, Roman Rädle, Chloe Rolland, Laura Gustafson, Eric Mintun, Junting Pan, Kalyan Vasudev Alwala, Nicolas Carion, Chao-Yuan Wu, Ross Girshick, Piotr Dollár, Christoph Feichtenhofer: SAM 2: Segment Anything in Images and Videos 参考文献

DiffMOTの紹介

DiffMOTの紹介

Other Decks in Programming

Featured

Transcript