Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[CVPR2022読み会] Time3D: End-to-End Joint Monocular 3D Object Detection and Tracking for Autonomous Driving

Inoichan
August 07, 2022

[CVPR2022読み会] Time3D: End-to-End Joint Monocular 3D Object Detection and Tracking for Autonomous Driving

第11回 全日本コンピュータビジョン勉強会 CVPR2022論文読み会(前編)で発表した資料です。
https://kantocv.connpass.com/event/253622/?utm_campaign=event_reminder&utm_source=notifications&utm_medium=email&utm_content=detail_btn

論文タイトル:Time3D: End-to-End Joint Monocular 3D Object Detection and Tracking for Autonomous Driving
https://openaccess.thecvf.com/content/CVPR2022/html/Li_Time3D_End-to-End_Joint_Monocular_3D_Object_Detection_and_Tracking_for_CVPR_2022_paper.html

Inoichan

August 07, 2022
Tweet

More Decks by Inoichan

Other Decks in Research

Transcript

  1. Time3D: End-to-End Joint Monocular 3D Object Detection and Tracking for

    Autonomous Driving TURING Inc. Inoue Yuichi
  2. 自己紹介 ❏ Inoue Yuichi TURING Inc.で自動運転開発 京都大学 博士(薬学) Kaggle competition

    grandmaster Twitter: https://twitter.com/inoichan Github: https://github.com/Ino-Ichan Kaggle: https://www.kaggle.com/inoueu1 Linkedin: https://www.linkedin.com/in/inoichan TURING Wantedly→https://www.wantedly.com/companies/turing-motors
  3. 今日紹介する論文はどんなもの? → paper link - 自動運転で使われる 3D物体検出とトラッキングを E2Eで行うフレームワークを提案した。 Transformerをう まく活用することで時間や外観、位置の特徴も活用し、実時間で精度の高い

    3D物体トラッキングを達成し た。 *特に注釈がないものは紹介論文から引用してます。
  4. 3D物体検出 - 実空間上での位置や大きさを予測する 3D物体検出は自動運転においてとても重 要な技術。 - LiDARに比べてカメラは安価だが、カメラは深度の情報が薄いところに弱点があ る。 - 深度情報があまりないのを解決するために、以前の画像と現在の画像を使って

    物体のトラッキングをすることで解決を試みていた。
  5. Object trackingについて CenterTrackやDeep Affinity NetworkのようなDeep learningを用いた手法が提案されてきた。しか し、自動運転の文脈では未だにいくつか弱点がある。 - 物体検出とAssociation(IDの紐づけ)を別々に行うので、3D物体検出の不確実性をうまく Detectorに学習させることができていない。

    - 同じカテゴリーの物体は似た外観の特徴 (appearance)を持っている。さらに、自動運転の文脈 では物体は頻繁に画像から消えたり、速度のバリエーションが高い。 - 表面の特徴や位置の情報を直接制約として使っていないので、追跡している物体の動きがな めらかでない。
  6. この論文が達成したこと 1. 3D物体検出と3Dトラッキングを1つのフレームワークでEnd-to-endに学習できるようにした。 2. 2Dと3Dのボックスを統一的な表現に変換することで、 幾何学と外観の情報を互換性を持たせ るEmbedding extractorを提案した。 3. 時間的トポロジーに制約を加えることで軌跡をよりなめらかにする

    temporal-consistency loss を提案した。 4. nuScenesの3D trackingでリアルタイム性を維持しながら最高のトラッキング精度を達成した。
  7. 提案されたアプローチ

  8. Overview

  9. Monocular 3D Object Detection KM3D-Netを利用して以下を出 力する。 • 2D bbox •

    3D bbox • Category • ReID embedding • Li, Peixuan. 2020. “Monocular 3D Detection with Geometric Constraints Embedding and Semi-Supervised Training.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2009.00764. • Li, Peixuan, Huaici Zhao, Pengfei Liu, and Feidao Cao. 2020. “RTM3D: Real-Time Monocular 3D Detection from Object Keypoints for Autonomous Driving.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2001.03343.
  10. Monocular 3D Object Detection KM3D-Netを利用して以下を出 力する。 • 2D bbox •

    3D bbox • Category • ReID embedding • Li, Peixuan. 2020. “Monocular 3D Detection with Geometric Constraints Embedding and Semi-Supervised Training.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2009.00764. • Li, Peixuan, Huaici Zhao, Pengfei Liu, and Feidao Cao. 2020. “RTM3D: Real-Time Monocular 3D Detection from Object Keypoints for Autonomous Driving.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2001.03343. anchor-freeな手法で、key pointsを予 測し、3D bboxを推定する手法
  11. Monocular 3D Object Detection KM3D-Netを利用して以下を出 力する。 • 2D bbox •

    3D bbox • Category • ReID embedding • Li, Peixuan. 2020. “Monocular 3D Detection with Geometric Constraints Embedding and Semi-Supervised Training.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2009.00764. • Li, Peixuan, Huaici Zhao, Pengfei Liu, and Feidao Cao. 2020. “RTM3D: Real-Time Monocular 3D Detection from Object Keypoints for Autonomous Driving.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2001.03343. Keypointでもうまく使えるような Feature pyramid networkを提案。
  12. Monocular 3D Object Detection KM3D-Netを利用して以下を出 力する。 • 2D bbox •

    3D bbox • Category • ReID embedding • Li, Peixuan. 2020. “Monocular 3D Detection with Geometric Constraints Embedding and Semi-Supervised Training.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2009.00764. • Li, Peixuan, Huaici Zhao, Pengfei Liu, and Feidao Cao. 2020. “RTM3D: Real-Time Monocular 3D Detection from Object Keypoints for Autonomous Driving.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/2001.03343. Position attributeを計算するために微 分可能な射影幾何の制約を加え、 ネットワークに組み込んだ。
  13. Monocular 3D Object Detection KM3D-Netを利用して以下を出 力する。 • 2D bbox •

    3D bbox • Category • ReID embedding • Wang, Zhongdao, Liang Zheng, Yixuan Liu, Yali Li, and Shengjin Wang. 2019. “Towards Real-Time Multi-Object Tracking.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/1909.12605. Re-ID embeddingはJoint Detection and Embeddingの枠組みを採用。 検出した物体の中心にある Embeddingを使う。
  14. Heterogeneous Cues Embedding ❖ 外観特徴(Re-ID feature):Vector空間 ❖ 位置や次元、向き(geometric feature):Euclidian空間 この2つの特徴をうまく組み合わせるのは難しかった。

  15. Heterogeneous Cues Embedding ❖ 外観特徴(Re-ID feature):Vector空間 ❖ 位置や次元、向き(geometric feature):Euclidian空間 この2つの特徴をうまく組み合わせるのは難しかった。

    全部NNで合わせちゃおう!
  16. Heterogeneous Cues Embedding ❖ 外観特徴(Re-ID feature):Vector空間 ❖ 位置や次元、向き(geometric feature):Euclidian空間 この2つの特徴をうまく組み合わせるのは難しかった。

    全部NNで合わせちゃおう! 2D box corner 3D box corner PointNet Qi, Charles R., Hao Su, Kaichun Mo, and Leonidas J. Guibas. 2016. “PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/1612.00593. Geometric feature Re-ID feature One-hot Class + Appearance feature Feature extractor
  17. Spatial-Temporal Information Flow ❖ Object trackingの物体のマッチングはAttentionに近い。 Transformerを使えば時間・空間情報をうまく拡張できる! ★ Self-attention:ある時間内での物体の情報を伝播 ★

    Cross-attention:時間方向での物体の情報を伝播
  18. Spatial-Temporal Information Flow

  19. Spatial-Temporal Information Flow Geometry & Appearance feature

  20. Spatial-Temporal Information Flow Geometry & Appearance feature 各時刻でSelf-attention Geometry featureがあるので

    Positional encodingは使わない。
  21. Spatial-Temporal Information Flow Geometry & Appearance feature 各時刻でSelf-attention Geometry featureがあるので

    Positional encodingは使わない。 どれだけ前のタ イムポイントかを ここで入れる。
  22. Spatial-Temporal Information Flow Geometry & Appearance feature 各時刻でSelf-attention Geometry featureがあるので

    Positional encodingは使わない。 どれだけ前のタ イムポイントかを ここで入れる。 過去のタイムポイントの特徴量を KeyとValue に、現在の特徴量を Queryとした Cross-attentionで時刻情報を学習。
  23. Spatial-Temporal Information Flow

  24. Spatial-Temporal Information Flow 学習可能なWqをWkを使ってAffinity matrixを作成。最 後はHangarian algorhythmでIDを割り当てる。

  25. Training Loss ❏ Monocular object 3D detection loss 元論文参照 →

    Link ❏ Tracking loss 外観特徴も位置特徴も明示的にモデルに組み込めている。 Affinity matrixをつかってシンプルに Crossentropy lossを計算する。 ❏ Temporal-consistency loss 新たに提案!
  26. Training Loss ❏ Temporal-consistency loss 従来の手法では各フレームで独立して物体検出の結果が出されていたので検出結果の一貫性が微妙だっ た。そこを補うために、フレーム間の各物体の移動を学習するような Lossを設計した。 Ground truthのoffset

    3D boxのコーナー 3D box 3D box refinement value
  27. リアルタイムで推論できる Spatial Featureをメモリに保存しておくことで、 重たい部分(3D detection、embedding exroctor、spatial information)を画像につき一 度だけ推論させれば良い。 残りは軽いtemporal information

    flowだけなの で、リアルタイム性がある! ...らしい。
  28. 結果

  29. 学習の条件 ★ BackboneはDLA-34(Imagenet pretrained weight) ★ Spatial information flow:3層のSelf attention

    ★ Temporal information flow:4層のCross attention ★ Affinity matrixは2層目のところからSoftmaxなしで取得 ★ AugmentationはShift scale ★ 画像は(900, 1600) → (448, 800)にリサイズ ★ 10 images / 2080Ti * 8 GPUs → batch size 80 ★ 200 epochs (1.25e-4 90 epoch → 1.25e-5 30 epoch → 1.25e-6 80 epoch)
  30. 結果:Qualitative Result ➢ 過去15フレーム分の軌跡を表示。 ➢ 軌跡は比較的なめらか。 ➢ OculusionやHigh speedの車もいけてる?!

  31. 結果:nuScenes test set ➢ リアルタイムで推論できる中では Trackingは圧勝! ➢ 物体検出については LiDARベースの手法に及ばないものの、 Multi-Object

    Trackingに関してはLiDARを使っ たものよりも良い結果に! ➢ Time3D‡は3D detectorとRe-ID extractor、spatial-temporal moduleを別々に学習した(no End-to-end)。 DetctionとTrackingをEnd-to-endに学習させたほうが良い! 評価指標についてはこちらのブログがわかりやすいです: Multi-Object Trackingの精度評価指標
  32. 結果:Heterogeneous Cues EmbeddingのAblation ➢ Re-IDの特徴量が一番重要ではあるが、そこに boxの特徴を足していく ことで確実にTrackingの精度は上がっていってる。

  33. 結果:Re-ID featureのAblation ➢ Re-IDの特徴量は3D物体検出のところで若干精度を悪化させてしまう。 おそらくRe-IDの「アイデンティティ」の不変性 (invariance)と物体検出の ばらつき(variance)にある矛盾が原因であはないか?

  34. 結果:Spatial-Temporal Information FlowのAblation ➢ 本論文の肝となる部分。 6層のニューラルネットと置き換えたときの比 較。Spatial-Temporal Information Flowはちゃんと効いてる。

  35. まとめ • 本研究では、リアルタイムに動作する単眼ビデオのみから、 3次元物体検出と3次元多物体 追跡をEnd-to-endで学習するための新しいフレームワークを提案した。 • 本フレームワークは、カテゴリ、 2D Box、3D Box、Re-ID特徴などのHeterogeneous

    cuesを 互換性のあるEmbeddingにエンコードする方法を示した。 • Transformerベースのアーキテクチャは、 Spatial-Temporal information flowの良い軌跡推定 器であることがわかった。 Temporal-consistency lossを使うことでより滑らかな軌跡を推定す ることができた。
  36. Thank you for listening!!