[CVPR2022読み会] Time3D: End-to-End Joint Monocular 3D Object Detection and Tracking for Autonomous Driving

Slide 1

Slide 1 text

Time3D: End-to-End Joint Monocular 3D Object Detection and Tracking for Autonomous Driving TURING Inc. Inoue Yuichi

Slide 2

Slide 2 text

自己紹介 ❏ Inoue Yuichi TURING Inc.で自動運転開発京都大学博士（薬学） Kaggle competition grandmaster Twitter: https://twitter.com/inoichan Github: https://github.com/Ino-Ichan Kaggle: https://www.kaggle.com/inoueu1 Linkedin: https://www.linkedin.com/in/inoichan TURING Wantedly→https://www.wantedly.com/companies/turing-motors

Slide 3

Slide 3 text

今日紹介する論文はどんなもの？ → paper link - 自動運転で使われる 3D物体検出とトラッキングを E2Eで行うフレームワークを提案した。 Transformerをうまく活用することで時間や外観、位置の特徴も活用し、実時間で精度の高い 3D物体トラッキングを達成した。＊特に注釈がないものは紹介論文から引用してます。

Slide 4

Slide 4 text

3D物体検出 - 実空間上での位置や大きさを予測する 3D物体検出は自動運転においてとても重要な技術。 - LiDARに比べてカメラは安価だが、カメラは深度の情報が薄いところに弱点がある。 - 深度情報があまりないのを解決するために、以前の画像と現在の画像を使って物体のトラッキングをすることで解決を試みていた。

Slide 5

Slide 5 text

Object trackingについて CenterTrackやDeep Aﬃnity NetworkのようなDeep learningを用いた手法が提案されてきた。しかし、自動運転の文脈では未だにいくつか弱点がある。 - 物体検出とAssociation(IDの紐づけ)を別々に行うので、3D物体検出の不確実性をうまく Detectorに学習させることができていない。 - 同じカテゴリーの物体は似た外観の特徴 (appearance)を持っている。さらに、自動運転の文脈では物体は頻繁に画像から消えたり、速度のバリエーションが高い。 - 表面の特徴や位置の情報を直接制約として使っていないので、追跡している物体の動きがなめらかでない。

Slide 6

Slide 6 text

この論文が達成したこと 1. 3D物体検出と3Dトラッキングを1つのフレームワークでEnd-to-endに学習できるようにした。 2. 2Dと3Dのボックスを統一的な表現に変換することで、幾何学と外観の情報を互換性を持たせるEmbedding extractorを提案した。 3. 時間的トポロジーに制約を加えることで軌跡をよりなめらかにする temporal-consistency loss を提案した。 4. nuScenesの3D trackingでリアルタイム性を維持しながら最高のトラッキング精度を達成した。

Slide 7

Slide 7 text

提案されたアプローチ

Slide 8

Slide 8 text

Overview

Slide 9

Slide 9 text

Monocular 3D Object Detection KM3D-Netを利用して以下を出力する。 ● 2D bbox ● 3D bbox ● Category ● ReID embedding ● Li, Peixuan. 2020. “Monocular 3D Detection with Geometric Constraints Embedding and Semi-Supervised Training.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2009.00764. ● Li, Peixuan, Huaici Zhao, Pengfei Liu, and Feidao Cao. 2020. “RTM3D: Real-Time Monocular 3D Detection from Object Keypoints for Autonomous Driving.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2001.03343.

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Monocular 3D Object Detection KM3D-Netを利用して以下を出力する。 ● 2D bbox ● 3D bbox ● Category ● ReID embedding ● Wang, Zhongdao, Liang Zheng, Yixuan Liu, Yali Li, and Shengjin Wang. 2019. “Towards Real-Time Multi-Object Tracking.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/1909.12605. Re-ID embeddingはJoint Detection and Embeddingの枠組みを採用。検出した物体の中心にある Embeddingを使う。

Slide 14

Slide 14 text

Heterogeneous Cues Embedding ❖ 外観特徴(Re-ID feature)：Vector空間 ❖ 位置や次元、向き(geometric feature)：Euclidian空間この2つの特徴をうまく組み合わせるのは難しかった。

Slide 15

Slide 15 text

Heterogeneous Cues Embedding ❖ 外観特徴(Re-ID feature)：Vector空間 ❖ 位置や次元、向き(geometric feature)：Euclidian空間この2つの特徴をうまく組み合わせるのは難しかった。全部NNで合わせちゃおう！

Slide 16

Slide 16 text

Heterogeneous Cues Embedding ❖ 外観特徴(Re-ID feature)：Vector空間 ❖ 位置や次元、向き(geometric feature)：Euclidian空間この2つの特徴をうまく組み合わせるのは難しかった。全部NNで合わせちゃおう！ 2D box corner 3D box corner PointNet Qi, Charles R., Hao Su, Kaichun Mo, and Leonidas J. Guibas. 2016. “PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/1612.00593. Geometric feature Re-ID feature One-hot Class ＋ Appearance feature Feature extractor

Slide 17

Slide 17 text

Spatial-Temporal Information Flow ❖ Object trackingの物体のマッチングはAttentionに近い。 Transformerを使えば時間・空間情報をうまく拡張できる！ ★ Self-attention：ある時間内での物体の情報を伝播 ★ Cross-attention：時間方向での物体の情報を伝播

Slide 18

Slide 18 text

Spatial-Temporal Information Flow

Slide 19

Slide 19 text

Spatial-Temporal Information Flow Geometry & Appearance feature

Slide 20

Slide 20 text

Spatial-Temporal Information Flow Geometry & Appearance feature 各時刻でSelf-attention Geometry featureがあるので Positional encodingは使わない。

Slide 21

Slide 21 text

Spatial-Temporal Information Flow Geometry & Appearance feature 各時刻でSelf-attention Geometry featureがあるので Positional encodingは使わない。どれだけ前のタイムポイントかをここで入れる。

Slide 22

Slide 22 text

Spatial-Temporal Information Flow Geometry & Appearance feature 各時刻でSelf-attention Geometry featureがあるので Positional encodingは使わない。どれだけ前のタイムポイントかをここで入れる。過去のタイムポイントの特徴量を KeyとValue に、現在の特徴量を Queryとした Cross-attentionで時刻情報を学習。

Slide 23

Slide 23 text

Spatial-Temporal Information Flow

Slide 24

Slide 24 text

Spatial-Temporal Information Flow 学習可能なWqをWkを使ってAﬃnity matrixを作成。最後はHangarian algorhythmでIDを割り当てる。

Slide 25

Slide 25 text

Training Loss ❏ Monocular object 3D detection loss 元論文参照 → Link ❏ Tracking loss 外観特徴も位置特徴も明示的にモデルに組み込めている。 Aﬃnity matrixをつかってシンプルに Crossentropy lossを計算する。 ❏ Temporal-consistency loss 新たに提案！

Slide 26

Slide 26 text

Training Loss ❏ Temporal-consistency loss 従来の手法では各フレームで独立して物体検出の結果が出されていたので検出結果の一貫性が微妙だった。そこを補うために、フレーム間の各物体の移動を学習するような Lossを設計した。 Ground truthのoﬀset 3D boxのコーナー 3D box 3D box reﬁnement value

Slide 27

Slide 27 text

リアルタイムで推論できる Spatial Featureをメモリに保存しておくことで、重たい部分（3D detection、embedding exroctor、spatial information）を画像につき一度だけ推論させれば良い。残りは軽いtemporal information ﬂowだけなので、リアルタイム性がある！ ...らしい。

Slide 28

Slide 28 text

結果

Slide 29

Slide 29 text

学習の条件 ★ BackboneはDLA-34（Imagenet pretrained weight） ★ Spatial information flow：3層のSelf attention ★ Temporal information flow：4層のCross attention ★ Affinity matrixは2層目のところからSoftmaxなしで取得 ★ AugmentationはShift scale ★ 画像は(900, 1600) → (448, 800)にリサイズ ★ 10 images / 2080Ti * 8 GPUs → batch size 80 ★ 200 epochs (1.25e-4 90 epoch → 1.25e-5 30 epoch → 1.25e-6 80 epoch)

Slide 30

Slide 30 text

結果：Qualitative Result ➢ 過去15フレーム分の軌跡を表示。 ➢ 軌跡は比較的なめらか。 ➢ OculusionやHigh speedの車もいけてる？！

Slide 31

Slide 31 text

結果：nuScenes test set ➢ リアルタイムで推論できる中では Trackingは圧勝！ ➢ 物体検出については LiDARベースの手法に及ばないものの、 Multi-Object Trackingに関してはLiDARを使ったものよりも良い結果に！ ➢ Time3D‡は3D detectorとRe-ID extractor、spatial-temporal moduleを別々に学習した(no End-to-end)。 DetctionとTrackingをEnd-to-endに学習させたほうが良い！評価指標についてはこちらのブログがわかりやすいです： Multi-Object Trackingの精度評価指標

Slide 32

Slide 32 text

結果：Heterogeneous Cues EmbeddingのAblation ➢ Re-IDの特徴量が一番重要ではあるが、そこに boxの特徴を足していくことで確実にTrackingの精度は上がっていってる。

Slide 33

Slide 33 text

結果：Re-ID featureのAblation ➢ Re-IDの特徴量は3D物体検出のところで若干精度を悪化させてしまう。おそらくRe-IDの「アイデンティティ」の不変性 (invariance)と物体検出のばらつき(variance)にある矛盾が原因であはないか？

Slide 34

Slide 34 text

結果：Spatial-Temporal Information FlowのAblation ➢ 本論文の肝となる部分。 6層のニューラルネットと置き換えたときの比較。Spatial-Temporal Information Flowはちゃんと効いてる。

Slide 35

Slide 35 text

まとめ ● 本研究では、リアルタイムに動作する単眼ビデオのみから、 3次元物体検出と3次元多物体追跡をEnd-to-endで学習するための新しいフレームワークを提案した。 ● 本フレームワークは、カテゴリ、 2D Box、3D Box、Re-ID特徴などのHeterogeneous cuesを互換性のあるEmbeddingにエンコードする方法を示した。 ● Transformerベースのアーキテクチャは、 Spatial-Temporal information ﬂowの良い軌跡推定器であることがわかった。 Temporal-consistency lossを使うことでより滑らかな軌跡を推定することができた。

Slide 36

Slide 36 text

Thank you for listening!!