Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ByteTrack_MOTR_CV勉強会ECCV2022論文読み会発表資料
Search
Shirokuma
October 22, 2022
Technology
2
1.1k
ByteTrack_MOTR_CV勉強会ECCV2022論文読み会発表資料
CV勉強会ECCV2022論文読み会の発表資料です。
Shirokuma
October 22, 2022
Tweet
Share
More Decks by Shirokuma
See All by Shirokuma
最近気になってるText-to-Imageを応用したNeRF論文の解説
nekanat
0
670
BurnでDeep Learningやってみる
nekanat
0
83
Other Decks in Technology
See All in Technology
Wantedly での Datadog 活用事例
bgpat
1
440
re:Invent をおうちで楽しんでみた ~CloudWatch のオブザーバビリティ機能がスゴい!/ Enjoyed AWS re:Invent from Home and CloudWatch Observability Feature is Amazing!
yuj1osm
0
120
AWS re:Invent 2024 ふりかえり
kongmingstrap
0
130
GitHub Copilot のテクニック集/GitHub Copilot Techniques
rayuron
34
13k
1等無人航空機操縦士一発試験 合格までの道のり ドローンミートアップ@大阪 2024/12/18
excdinc
0
160
How to be an AWS Community Builder | 君もAWS Community Builderになろう!〜2024 冬 CB募集直前対策編?!〜
coosuke
PRO
2
2.8k
Microsoft Azure全冠になってみた ~アレを使い倒した者が試験を制す!?~/Obtained all Microsoft Azure certifications Those who use "that" to the full will win the exam! ?
yuj1osm
2
110
大幅アップデートされたRagas v0.2をキャッチアップ
os1ma
2
530
KubeCon NA 2024 Recap / Running WebAssembly (Wasm) Workloads Side-by-Side with Container Workloads
z63d
1
250
Wvlet: A New Flow-Style Query Language For Functional Data Modeling and Interactive Data Analysis - Trino Summit 2024
xerial
1
120
Amazon VPC Lattice 最新アップデート紹介 - PrivateLink も似たようなアップデートあったけど違いとは
bigmuramura
0
190
権威ドキュメントで振り返る2024 #年忘れセキュリティ2024
hirotomotaguchi
2
740
Featured
See All Featured
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
191
16k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
48
2.2k
Building a Modern Day E-commerce SEO Strategy
aleyda
38
7k
4 Signs Your Business is Dying
shpigford
181
21k
Become a Pro
speakerdeck
PRO
26
5k
The Art of Programming - Codeland 2020
erikaheidi
53
13k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
26
1.5k
Statistics for Hackers
jakevdp
796
220k
A Philosophy of Restraint
colly
203
16k
RailsConf 2023
tenderlove
29
940
How to Think Like a Performance Engineer
csswizardry
22
1.2k
Testing 201, or: Great Expectations
jmmastey
40
7.1k
Transcript
ByteTrack vs MOTR 〜オブジェクトトラッキングガチンコ対決〜 2022/10/22 しろくま@neka-nat 第57回 コンピュータビジョン勉強会
自己紹介 独立系ロボットエンジニア しろくま@neka-nat https://twitter.com/neka_nat https://github.com/neka-nat • フリーでロボティクス・画像処理関連のソフトウェア開 発やってます!
自己紹介 独立系ロボットエンジニア しろくま@neka-nat https://twitter.com/neka_nat https://github.com/neka-nat • フリーでロボティクス・画像処理関連のソフトウェア開 発やってます! • 前職は某大手JTC社員
• 好きなCV技術 ◦ 点群処理 ◦ 3次元再構成 ◦ 高速化・ハードウェアアクセラレーション
自己紹介 独立系ロボットエンジニア しろくま@neka-nat https://twitter.com/neka_nat https://github.com/neka-nat • フリーでロボティクス・画像処理関連のソフトウェア開 発やってます! • 前職は某大手JTC社員
• 好きなCV技術 ◦ 点群処理 ◦ 3次元再構成 ◦ 高速化・ハードウェアアクセラレーション • Web関連のお仕事もやってます ◦ React/TypeScript/Rust/AWS/Terraform • お仕事に関してDMなどでお気軽にご相談ください!
Multi Object Tracking(MOT)とは? • 動画内に映る人や車を検出し、追跡する手法 • フレーム間で同じ物体であるものに同じIDを割り振るようにする ID1 ID2 ID3
Multi Object Tracking(MOT)とは? • 動画内に映る人や車を検出し、追跡する手法 • フレーム間で同じ物体であるものに同じIDを割り振るようにする ID1 ID3 ID2
Multi Object Tracking(MOT)とは? • 動画内に映る人や車を検出し、追跡する手法 • フレーム間で同じ物体であるものに同じIDを割り振るようにする ID3 ID2 ID4
Multi Object Tracking(MOT)とは? • 動画内に映る人や車を検出し、追跡する手法 • フレーム間で同じ物体であるものに同じIDを割り振るようにする ID1 ID3 ID2
ID4
MOTの解き方~Tracking by Detection~ • 検出結果とトラックレットの紐付け ◦ 検出結果:物体検出の結果 ◦ トラックレット:追跡情報、IDを保持 検出結果tフレーム
トラックレットtフレーム
MOTの解き方~Tracking by Detection~ 検出結果tフレーム トラックレットtフレーム • 3つのフェーズに分ける ◦ 物体検出と特徴量計算 ◦
次フレームのトラックレット予測(カルマンフィルタ) ◦ 予測トラックレットと検出結果の紐付け(ハンガリアン)
MOTの解き方~Tracking by Detection~ • 3つのフェーズに分ける ◦ 物体検出と特徴量計算 ◦ 次フレームのトラックレット予測(カルマンフィルタ) ◦
予測トラックレットと検出結果の紐付け(ハンガリアン) 検出結果tフレーム トラックレットt+1フレーム予測
MOTの解き方~Tracking by Detection~ • 3つのフェーズに分ける ◦ 物体検出と特徴量計算 ◦ 次フレームのトラックレット予測(カルマンフィルタ) ◦
予測トラックレットと検出結果の紐付け(ハンガリアン) 検出結果t+1フレーム トラックレットt+1フレーム予測
MOTの解き方~Tracking by Detection~ • 3つのフェーズに分ける ◦ 物体検出と特徴量計算 ◦ 次フレームのトラックレット予測(カルマンフィルタ) ◦
予測トラックレットと検出結果の紐付け(ハンガリアン) 検出結果t+1フレーム トラックレットt+1フレーム予測
ハンガリアンとは? • なんか呼び方がいろいろある ◦ ハンガリー法 ◦ Munkres ◦ Linear Sum
Assignment • 予測物体と検出物体の類似度行列を作成し、割当後の類似度の和が最大になるよう に割り当てる 検出 物体1 検出 物体2 検出 物体3 検出 物体4 トラック レット1 0.7 0.6 0.2 0.3 トラック レット2 0.7 0.3 0.2 0.1 トラック レット3 0.3 0.2 0.6 0.9 トラックレッ ト1 検出物体2 トラックレッ ト2 検出物体1 トラックレッ ト3 検出物体4 新たに検出物体3を トラックレット4にする
Deep Learningの導入 • SORT(2016) ◦ 物体検出の部分をFasterRCNNにした ◦ 類似度計算は検出結果とトラックレットの境界ボックスのIoUを使用 ◦ 精度と速度は向上したが、オクルージョンに弱い
• DeepSORT(2017) ◦ 類似度計算に境界ボックスの画像から求めたReID特徴量も使うようにした ◦ 紐付けの階層化 ▪ ReIDで紐付け→紐付かなかったものをSORTで紐付け • FairMOT(2020) ◦ 境界ボックスとReID特徴量をOneモデルで推論で きるようにした ◦ アンカーフリーなモデルを採用し、ReID特徴量の 精度を向上
End-to-endへの挑戦 • Transformerを用いたEnd-to-endな手法が登場 ◦ DETRをベースにしたモデル ◦ DETRでは物体検出クエリを学習パラメタの一部としていた ◦ 物体検出クエリに前回フレームのトラッキング結果に紐付いたデコーダ出力(ト ラッククエリ)を加えることでフレーム間の情報を扱う
End-to-endへの挑戦 • Transformerを用いたEnd-to-endな手法が登場 ◦ DETRをベースにしたモデル ◦ DETRでは物体検出クエリを学習パラメタの一部としていた ◦ 物体検出クエリに前回フレームのトラッキング結果に紐付いたデコーダ出力(ト ラッククエリ)を加えることでフレーム間の情報を扱う
End-to-endへの挑戦 • TransTrack(2020) ◦ 物体検出用とトラッキング用の2つのTransformerデコーダを使用 ◦ 2つの出力を紐付ける用のネットワークを後段に用意 • TrackFormer(2021) ◦
Transformerデコーダを1つにして物体検出と紐付けを一体化 TransTrack TrackFormer
MOTガチンコ対決 in ECCV2022 MOTR • End-to-end • DETRベースのトラッキングモデ ル •
前回トラッククエリを引き継いで いくことにより、隣接する時刻だ けでない時間的モデリングを構 築 ByteTrack • Tracking by Detection • FairMOT作った人の最新論文 • MOT20でSOTA(2022/10月) • 物体検出:YOLOX • 次フレーム予測:カルマンフィル タ • ReID計算:UniTrack • Tracking by Detectionの検出 のしきい値による問題を克服
ByteTrack
ByteTrack • Tracking by Detectionの問題点 ◦ 検出の信頼度のしきい値に結果が左右されてしまう ◦ しきい値が高いと検出すべきものを見逃してしまう ◦
しきい値が低いとトラックレットと間違った紐付けを行ってしまう
ByteTrack • Tracking by Detectionの問題点を解決したBYTEというアルゴリズムを導入 ◦ 検出結果の信頼度が高いものと低いものを分けて両方うまく利用する トラックレット 1 トラックレット
2 トラックレット 3 トラックレット 4 検出結果1 信頼度0.9 検出結果2 信頼度0.2 検出結果3 信頼度0.7 検出結果5 信頼度0.1 検出結果4 信頼度0.9
ByteTrack • Tracking by Detectionの問題点を解決したBYTEというアルゴリズムを導入 ◦ 検出結果の信頼度が高いものと低いものを分けて両方うまく利用する トラックレット 1 トラックレット
2 トラックレット 3 トラックレット 4 検出結果1 信頼度0.9 検出結果2 信頼度0.2 検出結果3 信頼度0.7 検出結果5 信頼度0.1 まずは信頼度の高い 検出結果を使って紐 付け 類似度計算にIoUと ReIDを用いる 検出結果4 信頼度0.9 Tremain Dremain
ByteTrack • Tracking by Detectionの問題点を解決したBYTEというアルゴリズムを導入 ◦ 検出結果の信頼度が高いものと低いものを分けて両方うまく利用する トラックレット 1 トラックレット
2 トラックレット 3 トラックレット 4 検出結果1 信頼度0.9 検出結果2 信頼度0.2 検出結果3 信頼度0.7 検出結果5 信頼度0.1 検出結果4 信頼度0.9 次に紐付かなかった トラックレットと信頼度 の低い検出結果を紐 付け ここではIoUのみを類 似度計算に用いる Tre-remain Dremain
ByteTrack • Tracking by Detectionの問題点を解決したBYTEというアルゴリズムを導入 ◦ 検出結果の信頼度が高いものと低いものを分けて両方うまく利用する トラックレット 1 トラックレット
2 トラックレット 3 トラックレット 4 検出結果1 信頼度0.9 検出結果2 信頼度0.2 検出結果3 信頼度0.7 検出結果5 信頼度0.1 検出結果4 信頼度0.9 まだ残っているトラッ クレットはロストと見 なす 信頼度が高くて紐付 かなかった検出結果 は新たなトラックレット として登録する Tre-remain 新たなトラックレット
MOTR
MOTR • モデルはTrackFormerとかなり似た構成 • MOTRではQuery Interaction Module(QIM)というネットワークが追加されている TrackFormer MOTR
MOTRのQIMについて • QIMの入力はTransformerデコーダの出力と前回のトラッククエリ 物体検出 クエリ Transfor mer デコーダ 出力
MOTRのQIMについて • それぞれのクエリに対して検出の信頼度を用いてフィルタリング ◦ 物体検出クエリに対しては信頼度が高いものを新たなオブジェクトとする ◦ トラッククエリに対しては信頼度が低いものを退出したオブジェクトとする
MOTRのQIMについて • フィルタされたトラッククエリをTemporal Aggrigation Network(TAN)に通し、フィルタされ た物体検出クエリと結合 • TANでは前回のトラッククエリと今回のデコーダ出力を結合してMuti Head Attentionと
FFNに通す
全フレームでのLossの計算 • TrackFormerなどでは各フレーム毎のLossで学習していた • Collective Average Loss(CAL)を計算 ◦ 入力を動画として全フレームでのLossの平均をとる
実験と評価
MOTの主なデータセットと評価指標 • 主なデータセット ◦ MOT17 ◦ MOT20(より混雑したデータ) ◦ DanceTrack •
主な評価指標 ◦ MOTA ▪ FP、見逃し、IDスイッチに対する 評価の総合 ◦ HOTA ▪ 高次追跡精度 ◦ IDSW ▪ IDスイッチに対する評価 ◦ IDF1 ▪ ID毎のF1スコア
実験結果(MOT17)
実験結果(MOT17) • ByteTrackが全ての指標で勝利!
実験結果(DanceTrack)
実験結果(DanceTrack) • 5つの指標の中でMOTRが3勝!
MOTA-IDF1-FPSの比較(MOT17) MOTR
結果について • MOT17は歩行者がメインなので、検出性能の高さや見かけの類似性による紐付け 精度が重要となる • DanceTrackでは人の動きが入るため、MOTRはモーションも含めた時間的変化をよ り学習できていると言える • 歩行者の検出というシーンでの使い方だとByteTrackが圧倒的高精度
デモ動画 • MOTRの動画が見つからなかったのでByteTrackのみ
まとめ • 従来的なTracking by detectionの改良でSOTAを達成したByteTrackすごい! • とはいえ、Transformerの適用によってEnd-to-Endな手法の流れができてきている • 大きな動きがあっても特徴を掴めるという点においてEnd-to-endな手法の将来性を感じ る
• 参考)2022/10月時点での各データセットでのSOTA ◦ MOT17:BoT-SORT(2022)(ByteTrackは2位) ◦ MOT20:ByteTrack ◦ DanceTrack:OC-SORT(2022)(MOTRは2位)
参考資料 • MOT全般 ◦ Multiple Object Trackingの手法・ライブラリ紹介 ◦ Multiple-object tracking
(MOT) アルゴリズム研究の歴史 1 ◦ Multiple-object tracking (MOT) アルゴリズム研究の歴史 2 ◦ Multi-Object Trackingの精度評価指標 • ByteTrack ◦ https://github.com/ifzhang/ByteTrack ◦ ByteTrack : 低い確度のBoundingBoxも考慮するトラッキングモデル ◦ 【論文ざっくり紹介】ByteTrack ~単純なアルゴリズムで SOTAを達成(2021年12月時点)~ ◦ ByteTrackで対象のオブジェクトが障害物に隠れても正しいラベルでトラッキングするレシピ • SORT ◦ 現在のトラッキングモデルの基礎ともいえる SORT を解説! • DeepSORT ◦ 2017年に発表された DeepSORT を解説! ◦ DeepSort : 人物のトラッキングを行う機械学習モデル • Transformer ◦ https://www.slideshare.net/ArithmerInc/transformer-248613529 ◦ 機械学習エンジニアのための Transformers ◦ 牛久先生の動画 ◦ AIcia Solid Projectさんの動画 • DETR ◦ Transformerを使った初めての物体検出「 DETR」- 第1回 ◦ Transformerを使った初めての物体検出「 DETR」 - 第2回 ◦ 物体検出DETR (DEtection TRansformer) - Qiita • MOTR ◦ megvii-research/MOTR: [ECCV2022] MOTR: End-to-End Multiple-Object Tracking with TRansformer