Slide 1

Slide 1 text

DiffMOT の紹介 2024.12.12 Thu. AI技術開発部ビジョン・スポーツグループ 菱田 俊介

Slide 2

Slide 2 text

DiffMOT の紹介 1. 概要 2. D2MP について 3. 性能評価 4. まとめ 3-1. アルゴリズム観点 3-2. データ観点

Slide 3

Slide 3 text

● 論文名 ○ DiffMOT: A Real-time Diffusion-based Multiple Object Tracker with Non-linear Prediction*1 ■ CVPR 2024 に accept された Multi Object Tracking ( MOT ) モデル ● 目的 ○ 複雑な非線形運動のオブジェクトを精度よく、かつリアルタイムで推論できる ことに主眼を置く ※複雑な非線形運動のオブジェクト: 各種ダンス、スポーツなど... 概要

Slide 4

Slide 4 text

概要 動画フレームごとのループ 動画フレームごとのループ Detection Com. 元フレーム内の Tracking 対象の object を検出する Motion Prediction Com. での精 度を確認するためDefault で YOLOX が採用されていることが 多い Motion Prediction Com. 過去フレームのトラッキング対象 のオブジェクトの位置を下に、対 象フレーム内でのオブジェクトの 位置を予測 ● Kalman Filter ベース ● Optical Flow ベース ● LSTM ベース ● Transformer ベース Association Com. Detection Com. で検出されたオ ブジェクト位置と、Motion Prediction Com. で予測された位 置でトラッキング対象のオブジェ クトを紐付けし軌跡を更新 ハンガリアンアルゴリズムが採用 されていることが多い マッチングスコアはアルゴリズム によりけり ● MOT モデルの簡易フレームワーク hogehoge アルゴリズム

Slide 5

Slide 5 text

概要 動画フレームごとのループ 動画フレームごとのループ Detection Com. 元フレーム内の Tracking 対象の object を検出する Motion Prediction Com. での精 度を確認するためDefault で YOLOX が採用されていることが 多い Motion Prediction Com. 過去フレームのトラッキング対象 のオブジェクトの位置を下に、対 象フレーム内でのオブジェクトの 位置を予測 ● Kalman Filter ベース ● Optical Flow ベース ● LSTM ベース ● Transformer ベース Association Com. Detection Com. で検出されたオ ブジェクト位置と、Motion Prediction Com. で予測された位 置でトラッキング対象のオブジェ クトを紐付けし軌跡を更新 ハンガリアンアルゴリズムが採用 されていることが多い マッチングスコアはアルゴリズム によりけり ● MOT モデルの簡易フレームワーク hogehoge アルゴリズム 線形運動 Object の Tracking ● Kalman Filter が採用される ことが多い ● 歩行者などの線形運動をする オブジェクトを対象とした Tracking においては高性能 かつ、リアルタイムでの処理 が可能 非線形運動 Object の Tracking ● Kalman Filter ベース ○ 線形運動に基づく推定の ため、精度が悪い ● LSTM ベース ○ 精度が悪い ● Optical Flow, Transformer ベース ○ FPS が低く、リアルタイ ムでの処理が不可能

Slide 6

Slide 6 text

概要 動画フレームごとのループ 動画フレームごとのループ Detection Com. YOLOX Motion Prediction Com. Decoupled Diffusion-based Motion Predictor ( D2MP ) ● オブジェクトの motion 分 布を作成 ● 個々のオブジェクトの過去 の軌跡を条件として物体の 動きを予測 ● 非結合拡散理論により 1 ス テップのサンプリングプロ セスが可能に ○ 推論時間が大幅に短縮 Association Com. ハンガリアンアルゴリズム ● マッチングコストは Re-id 特徴量距離とIoU ● Deep OC-SORT*2 での重み づけ ● match していない予測値と 低スコアの検出結果を match ○ ByteTrack*3で採用 ● DiffMOT の簡易フレームワーク DiffMOT アルゴリズム DiffMOT: 非線形運動予測に取り組むために拡散確率モデルを MOT に導入した最初のモデル

Slide 7

Slide 7 text

概要 ● DiffMOT の簡易フレームワーク *参考文献 1: Fig. 2 より抜粋

Slide 8

Slide 8 text

概要 *参考文献 1: Fig. 1 - (b) より抜粋 ● パフォーマンス比較 ○ 非線形運動を多く含む DanceTrack*4 の test データを使用 ○ RTX-3090 x 1 で推論 ○ DiffMOT-X、DiffMOT-S モデルともに他 のモデルと比較して、高性能 + 高速性を 兼ね備えている ○ 特に DiffMOT-S においては 30 FPS 程度 の処理速度があり、放送映像に対してもリ アルタイムでの処理が可能なレベル ● DiffMOT-X: Detection Comp. に YOLOX-X モデルを採用 ● DiffMOT-S: Detection Comp. に YOLOX-S モデルを採用 HOTA ( Higher-Order-Tracking-Accuracy ): 検出と関連付けの正確性の両面から Tracking 性能を評価する指標

Slide 9

Slide 9 text

概要 動画フレームごとのループ 動画フレームごとのループ Detection Com. YOLOX Motion Prediction Com. Decoupled Diffusion-based Motion Predictor ( D2MP ) ● オブジェクトの分布全体を モデル化 ● 個々のオブジェクトの過去 の軌跡を条件として物体の 動きを予測 ● 非結合拡散理論により 1 ス テップのサンプリングプロ セスが可能に ○ 推論時間が大幅に短縮 Association Com. ハンガリアンアルゴリズム ● マッチングコストは Re-id 特徴量距離とIoU ● Deep OC-SORT*2 での重み づけ ● match していない予測値と 低スコアの検出結果を match ○ ByteTrack*3で採用 ● DiffMOT の簡易フレームワーク DiffMOT アルゴリズム ▲ 今回取り上げるところ

Slide 10

Slide 10 text

DiffMOT の紹介 1. 概要 2. D2MP について 3. 性能評価 4. まとめ 3-1. アルゴリズム観点 3-2. データ観点

Slide 11

Slide 11 text

D2MP について ● 役割:Motion Prediction Comp. ○ データセット全体の motion 分布を作 成 ○ 過去の motion 情報を条件とした正規 分布から、未来の motion を予測 ● 構成 ○ Forward Process ■ Decoupled Diffusion Model ( 非 結合拡散モデル ) を採用 ○ Reversed Process ■ HMINet ( Historical Memory Information Network ) の実装 *参考文献 1: Fig. 3 より抜粋 D2MP の全体像

Slide 12

Slide 12 text

D2MP について ● Forward Process ○ Decoupled Diffusion Process*5 を採用 ■ Data-to-Noise の過程を 2 つの subprocess に分解 1. Data-to-Zero 2. Zero-to-Noise ■ 1, 2 を合算することで Data-to-Noise の過程を再現 *参考文献 5: Fig. 2 より抜粋 Forward Process の全体像 *参考文献 1: Fig. 3 より抜粋 ● 通常 DDPM においては、連続的な確率過程を複数ステッ プに分けて進めていき、各ステップにおいて微分方程式を 解くことで次の状態を計算 ● リアルタイム処理を求めていく中で、このステップ数が ネック ● 解析的に ( 計算可能な式に ) 求められたらステップ数を大 幅削減できる ( このモデルではステップ数 1 を実現 )

Slide 13

Slide 13 text

D2MP について ● Forward Process ○ Data-to-Zero ⇔ - ( ) *参考文献 5: Fig. 2 より抜粋 *参考文献 5: Fig. 2 より抜粋 M f, 0 Zero Zero N(0, I) ■ クリーンモーションデータ (    ) を t ∈ [ 0, 1 ] にかけて 0 データにしていく ○ Zero-to-Noise ■ 0 データを t ∈ [ 0, 1 ] にかけて標準正規分布に近づけていく ● を標準正規分布に ○ Data-to-Noise ( = Data-to-Zero + Zero-to-Noise ) *参考文献 5: Fig. 2 より抜粋 M f, 0 N(0, I) ▼ここにクリーンモーションデータ ▼ここにクリーンモーションデータ t = 0 t = 1

Slide 14

Slide 14 text

D2MP について ● Reversed Process ○ Reversed Process の全体像 *参考文献 1: Fig. 3 より抜粋 *参考文献 5: Fig. 2 より抜粋 →   と  が決まれば、生成(復元)用の正規分布が決まる ● μΘ を構成する、cΘ と zΘ は NN を介してパラメータ化されて いる ● 元の D2MP では cΘ と zΘ を同時に最適化するアーキテクチャ ○ リアルタイム処理を求めていく中で目的変数の数は少なく したい

Slide 15

Slide 15 text

D2MP について ○ Forward Process で用いた式を用いて   を消す ■   ■ - ■ (a) に (b) を代入 ● Reversed Process ○ →   のみを最適化する形に落とし込んだ ... (a) ... (b)

Slide 16

Slide 16 text

● Reversed Process ○ ➢   と  が決まれば、生成(復元)用の正 規分布が決まる ➢    を最適化する構成を取っている ( 後述 の HMINet ) D2MP について Reversed Process の全体像 *参考文献 1: Fig. 3 より抜粋 *参考文献 5: Fig. 2 より抜粋

Slide 17

Slide 17 text

● Reversed Process ○ HMINet ( Historical Memory Information Network ) D2MP について Reversed Process の全体像 *参考文献 1: Fig. 3 より抜粋 *参考文献 1: Fig. 3 より抜粋 MHSA: Multi Head Self Attention ■   は、過去 n フレームに亘っての motion 条件付き入 力 ■ 過去フレーム間での motion の依存性を捉えるために MHSA を挿入 ■ に含まれる過去の motion information をクラス トークンに組み込む ■ 更新されたクラストークンを条件埋め込み として後 段へ

Slide 18

Slide 18 text

● Reversed Process ○ HMINet ( Historical Memory Information Network ) ■ Motion Fusion Layer を介して、条件埋め込み  を Forward Process で作成した に作用させる ●   で をスケール、シフトさせるイメージ D2MP について Reversed Process の全体像 *参考文献 1: Fig. 3 より抜粋 *参考文献 1: Fig. 3 より抜粋 MFL: Motion Fusion Layer

Slide 19

Slide 19 text

● Reversed Process ○ HMINet ( Historical Memory Information Network ) ■ 後段で MHSA x3 と MFL x3 を重ねて、最終的に MLP 層 に特徴量を送り、 を得る ■  を得た後、以下式を用いてモーションデータを再構 成する D2MP について Reversed Process の全体像 *参考文献 1: Fig. 3 より抜粋 *参考文献 1: Fig. 3 より抜粋 MHSA: Multi Head Self Attention MFL: Motion Fusion Layer

Slide 20

Slide 20 text

● 損失関数 ○  を最適化する観点でシンプルな Smooth L1 Loss を採用 D2MP について

Slide 21

Slide 21 text

DiffMOT の紹介 1. 概要 2. D2MP について 3. 性能評価 4. まとめ 3-1. アルゴリズム観点 3-2. データ観点

Slide 22

Slide 22 text

● 評価指標 ○ HOTA ( Higher Order Tracking Accuracy ): ■ 検出と関連付けの正確性の両面から Tracking 性能を評価する指標 ○ IDF1 ( ID F1 Score ): ■ 真の陽性の Tracker がどれだけ正確に検出・追跡されているかを評価する指標 ○ AssA ( Association Accuracy ): ■ 関連付けを評価する指標 ○ MOTA ( Multi Object Tracking Accuracy ): ■ ID Switch, FP, FN の影響を含んだ Tracking の正確さを評価する指標 ○ DetA ( Detection Accuracy ) : ■ 検出の正確さを評価する指標 性能評価

Slide 23

Slide 23 text

DiffMOT の紹介 1. 概要 2. D2MP について 3. 性能評価 4. まとめ 3-1. アルゴリズム観点 3-2. データ観点

Slide 24

Slide 24 text

● motion 付き条件入力  は過去何フレームまで参照 するのが効果的か? 性能評価 - アルゴリズム観点 Reversed Process の全体像 *参考文献 1: Fig. 3 より抜粋 *参考文献 1: Table. 8 より抜粋 DanceTrack の validation データで確認 ○ 5 フレーム前( n = 5 )までを参照するのが精 度的に良い ■ n < 5: ● 参照フレームが短すぎると最直近の動き のみ考慮することになり効果的に動きを 予測できない ■ n > 5: ● 逆に長すぎると、情報量が過剰で干渉が 発生し精度よく予測できない

Slide 25

Slide 25 text

● 最適化する param を , から の 1 つ に絞った効果は? 性能評価 - アルゴリズム観点 Reversed Process の全体像 赤囲い部分が D2MP-OB (OB: One Branch) *参考文献 1: Fig. 3 より抜粋 *参考文献 1: Table. 8 より抜粋 DanceTrack の validation データで確認 D2MP-TB (TB: Two Branch) ○ 1 つに絞った方が精度も高く、sampling steps も減らせることで、FPS が向上 ○ TB とした場合、OB と同等の精度を出すのに sampling steps を大きく向上させる必要があ る *参考文献 1: Supplementary Material Fig. 1 より 抜粋・反転表示

Slide 26

Slide 26 text

DiffMOT の紹介 1. 概要 2. D2MP について 3. 性能評価 4. まとめ 3-1. アルゴリズム観点 3-2. データ観点

Slide 27

Slide 27 text

● 使用データ ○ SportsMOT*6 ■ サッカー、バスケ等のデータ ■ 非線形運動、加速・減速 ○ DanceTrack*4 ■ ヒップホップ、バレエ等のデータ ■ 非線形運動 ○ MOT17 ■ 歩行者主体のデータ ■ 線形運動 性能評価 - データ観点 MOT17 *参考文献 1: Supplementary Material Fig. 4 より抜粋 SportsMOT *参考文献 1: Supplementary Material Fig. 3 より抜粋 DanceTrack *参考文献 1: Supplementary Material Fig. 2 より抜粋

Slide 28

Slide 28 text

● SportsMOT ○ 全ての評価指標で他のモデルの評価指標以 上の精度を出している ○ 加速・減速をする、あるいは非線形な動き をするオブジェクトに対してロバスト性を 発揮 *参考文献 1: Tab. 2 より抜粋 上側: Detection model を train のみで学習 下側: Detection model を train + valid データで学習 性能評価 - データ観点

Slide 29

Slide 29 text

● SportsMOT *参考文献 1: Supplementary Material Fig. 3 - (a), (b)より抜粋 Motion Prediction Comp.: Kalman Filter Motion Prediction Comp.: D2MP 性能評価 - データ観点

Slide 30

Slide 30 text

● DanceTrack ○ 全ての評価指標で他のモデルの評価指標以 上の精度を出している ○ 非線形な動きをするオブジェクトに対して 一定のロバスト性を発揮 *参考文献 1: Tab. 1 より抜粋 性能評価 - データ観点

Slide 31

Slide 31 text

● DanceTrack ( うまくいっている例 ) *参考文献 1: Supplementary Material Fig. 2 - (a), (b)より抜粋 Motion Prediction Comp.: Kalman Filter Motion Prediction Comp.: D2MP 性能評価 - データ観点

Slide 32

Slide 32 text

● DanceTrack ( うまくいっていない例 ) *参考文献 1: Supplementary Material Fig. 6 より抜粋 Motion Prediction Comp.: D2MP *参考文献 1: Table. 8 より抜粋 ● HMINet で motion prediction する際、過去の動き情報の最適な長 さを検討したところ n = 5 フレーム前 ( 右表より ) ○ n > 5: ■ 過剰な情報によってもたらされる干渉が悪影響を及ぼす可能性 がある ● 一方で、長期間オブジェクトがロスト状態 ( オブジェクト同士の IoU 高 ) になったものを復元できない 性能評価 - データ観点 DanceTrack の validation データで確認

Slide 33

Slide 33 text

● MOT17 ○ DanceTrack や SportsMOT のように全て の評価指標で最高精度ではないものの、近 年提案された MOT モデルと遜色のない結 果に ○ オブジェクトの動きが線形・非線形でモデ ルを使い分けなくても良いのはメリット *参考文献 1: Tab. 3 より抜粋 性能評価 - データ観点

Slide 34

Slide 34 text

DiffMOT の紹介 1. 概要 2. D2MP について 3. 性能評価 4. まとめ 3-1. アルゴリズム観点 3-2. データ観点

Slide 35

Slide 35 text

● Motion Prediction Comp. に拡散確率モデルの D2MP を採用 ○ 線形 / 非線形の tracking に問わず、従来の MOT モデル以上の精度を確保 ■ オブジェクトの動きによってモデルを分ける必要がない ○ リアルタイム処理ができるほどの推論時間を実現 ■ 非結合拡散理論により 1 ステップのサンプリングプロセスを可能にした ● オブジェクト同士の重なり期間が長く、ロスト状態になった際に ID Switch が生じる可能性はデータによっては多そう ○ 実用面を考えた時 「ID の保持 vs 処理スピード」という観点で依然として慎重に モデル選択をする必要がある ■ 「ID の保持」に重きを置くならば、やはり SAM2*7 を使った Tracking の方が強い印象 ■ 「処理スピード」に重きを置くならば、選択としてあり まとめ

Slide 36

Slide 36 text

参考文献

Slide 37

Slide 37 text

1. Weiyi Lv, Yuhang Huang, Ning Zhang, Ruei-Sung Lin, Mei Han, Dan Zeng. DiffMOT: A Real-time Diffusion-based Multiple Object Tracker with Non-linear Prediction 2. Gerard Maggiolino, Adnan Ahmad, Jinkun Cao, Kris Kitani. Deep OC-SORT: Multi-Pedestrian Tracking by Adaptive Re-Identification 3. Yifu Zhang, Peize Sun, Yi Jiang, Dongdong Yu, Fucheng Weng, Zehuan Yuan, Ping Luo, Wenyu Liu, Xinggang Wang. ByteTrack: Multi-Object Tracking by Associating Every Detection Box 4. Peize Sun, Jinkun Cao, Yi Jiang, Zehuan Yuan, Song Bai, Kris Kitani, Ping Luo. DanceTrack: Multi-Object Tracking in Uniform Appearance and Diverse Motion 5. Yuhang Huang, Zheng Qin, Xinwang Liu, Kai Xu. Simultaneous Image-to-Zero and Zero-to-Noise: Diffusion Models with Analytical Image Attenuation 6. Yutao Cui, Chenkai Zeng, Xiaoyu Zhao, Yichun Yang, Gangshan Wu Limin Wang. SportsMOT: A Large Multi-Object Tracking Dataset in Multiple Sports Scenes 7. Nikhila Ravi, Valentin Gabeur, Yuan-Ting Hu, Ronghang Hu, Chaitanya Ryali, Tengyu Ma, Haitham Khedr, Roman Rädle, Chloe Rolland, Laura Gustafson, Eric Mintun, Junting Pan, Kalyan Vasudev Alwala, Nicolas Carion, Chao-Yuan Wu, Ross Girshick, Piotr Dollár, Christoph Feichtenhofer: SAM 2: Segment Anything in Images and Videos 参考文献