$30 off During Our Annual Pro Sale. View Details »

[CVPR2022読み会] Time3D: End-to-End Joint Monocular 3D Object Detection and Tracking for Autonomous Driving

Inoichan
August 07, 2022

[CVPR2022読み会] Time3D: End-to-End Joint Monocular 3D Object Detection and Tracking for Autonomous Driving

第11回 全日本コンピュータビジョン勉強会 CVPR2022論文読み会(前編)で発表した資料です。
https://kantocv.connpass.com/event/253622/?utm_campaign=event_reminder&utm_source=notifications&utm_medium=email&utm_content=detail_btn

論文タイトル:Time3D: End-to-End Joint Monocular 3D Object Detection and Tracking for Autonomous Driving
https://openaccess.thecvf.com/content/CVPR2022/html/Li_Time3D_End-to-End_Joint_Monocular_3D_Object_Detection_and_Tracking_for_CVPR_2022_paper.html

Inoichan

August 07, 2022
Tweet

More Decks by Inoichan

Other Decks in Research

Transcript

  1. Time3D: End-to-End Joint Monocular 3D Object
    Detection and Tracking for Autonomous Driving
    TURING Inc.
    Inoue Yuichi

    View Slide

  2. 自己紹介
    ❏ Inoue Yuichi
    TURING Inc.で自動運転開発
    京都大学 博士(薬学)
    Kaggle competition grandmaster
    Twitter: https://twitter.com/inoichan
    Github: https://github.com/Ino-Ichan
    Kaggle: https://www.kaggle.com/inoueu1
    Linkedin: https://www.linkedin.com/in/inoichan
    TURING Wantedly→https://www.wantedly.com/companies/turing-motors

    View Slide

  3. 今日紹介する論文はどんなもの? → paper link
    - 自動運転で使われる 3D物体検出とトラッキングを E2Eで行うフレームワークを提案した。 Transformerをう
    まく活用することで時間や外観、位置の特徴も活用し、実時間で精度の高い 3D物体トラッキングを達成し
    た。
    *特に注釈がないものは紹介論文から引用してます。

    View Slide

  4. 3D物体検出
    - 実空間上での位置や大きさを予測する
    3D物体検出は自動運転においてとても重
    要な技術。
    - LiDARに比べてカメラは安価だが、カメラは深度の情報が薄いところに弱点があ
    る。
    - 深度情報があまりないのを解決するために、以前の画像と現在の画像を使って
    物体のトラッキングをすることで解決を試みていた。

    View Slide

  5. Object trackingについて
    CenterTrackやDeep Affinity NetworkのようなDeep learningを用いた手法が提案されてきた。しか
    し、自動運転の文脈では未だにいくつか弱点がある。
    - 物体検出とAssociation(IDの紐づけ)を別々に行うので、3D物体検出の不確実性をうまく
    Detectorに学習させることができていない。
    - 同じカテゴリーの物体は似た外観の特徴
    (appearance)を持っている。さらに、自動運転の文脈
    では物体は頻繁に画像から消えたり、速度のバリエーションが高い。
    - 表面の特徴や位置の情報を直接制約として使っていないので、追跡している物体の動きがな
    めらかでない。

    View Slide

  6. この論文が達成したこと
    1. 3D物体検出と3Dトラッキングを1つのフレームワークでEnd-to-endに学習できるようにした。
    2. 2Dと3Dのボックスを統一的な表現に変換することで、
    幾何学と外観の情報を互換性を持たせ
    るEmbedding extractorを提案した。
    3. 時間的トポロジーに制約を加えることで軌跡をよりなめらかにする
    temporal-consistency loss
    を提案した。
    4. nuScenesの3D trackingでリアルタイム性を維持しながら最高のトラッキング精度を達成した。

    View Slide

  7. 提案されたアプローチ

    View Slide

  8. Overview

    View Slide

  9. Monocular 3D Object Detection
    KM3D-Netを利用して以下を出
    力する。
    ● 2D bbox
    ● 3D bbox
    ● Category
    ● ReID embedding
    ● Li, Peixuan. 2020. “Monocular 3D Detection with Geometric Constraints Embedding and Semi-Supervised Training.” arXiv [cs.CV]. arXiv.
    http://arxiv.org/abs/2009.00764.
    ● Li, Peixuan, Huaici Zhao, Pengfei Liu, and Feidao Cao. 2020. “RTM3D: Real-Time Monocular 3D Detection from Object Keypoints for Autonomous Driving.” arXiv
    [cs.CV]. arXiv. http://arxiv.org/abs/2001.03343.

    View Slide

  10. Monocular 3D Object Detection
    KM3D-Netを利用して以下を出
    力する。
    ● 2D bbox
    ● 3D bbox
    ● Category
    ● ReID embedding
    ● Li, Peixuan. 2020. “Monocular 3D Detection with Geometric Constraints Embedding and Semi-Supervised Training.” arXiv [cs.CV]. arXiv.
    http://arxiv.org/abs/2009.00764.
    ● Li, Peixuan, Huaici Zhao, Pengfei Liu, and Feidao Cao. 2020. “RTM3D: Real-Time Monocular 3D Detection from Object Keypoints for Autonomous Driving.” arXiv
    [cs.CV]. arXiv. http://arxiv.org/abs/2001.03343.
    anchor-freeな手法で、key pointsを予
    測し、3D bboxを推定する手法

    View Slide

  11. Monocular 3D Object Detection
    KM3D-Netを利用して以下を出
    力する。
    ● 2D bbox
    ● 3D bbox
    ● Category
    ● ReID embedding
    ● Li, Peixuan. 2020. “Monocular 3D Detection with Geometric Constraints Embedding and Semi-Supervised Training.” arXiv [cs.CV]. arXiv.
    http://arxiv.org/abs/2009.00764.
    ● Li, Peixuan, Huaici Zhao, Pengfei Liu, and Feidao Cao. 2020. “RTM3D: Real-Time Monocular 3D Detection from Object Keypoints for Autonomous Driving.” arXiv
    [cs.CV]. arXiv. http://arxiv.org/abs/2001.03343.
    Keypointでもうまく使えるような
    Feature pyramid networkを提案。

    View Slide

  12. Monocular 3D Object Detection
    KM3D-Netを利用して以下を出
    力する。
    ● 2D bbox
    ● 3D bbox
    ● Category
    ● ReID embedding
    ● Li, Peixuan. 2020. “Monocular 3D Detection with Geometric Constraints Embedding and Semi-Supervised Training.” arXiv [cs.CV]. arXiv.
    http://arxiv.org/abs/2009.00764.
    ● Li, Peixuan, Huaici Zhao, Pengfei Liu, and Feidao Cao. 2020. “RTM3D: Real-Time Monocular 3D Detection from Object Keypoints for Autonomous Driving.” arXiv
    [cs.CV]. arXiv. http://arxiv.org/abs/2001.03343.
    Position attributeを計算するために微
    分可能な射影幾何の制約を加え、
    ネットワークに組み込んだ。

    View Slide

  13. Monocular 3D Object Detection
    KM3D-Netを利用して以下を出
    力する。
    ● 2D bbox
    ● 3D bbox
    ● Category
    ● ReID embedding
    ● Wang, Zhongdao, Liang Zheng, Yixuan Liu, Yali Li, and Shengjin Wang. 2019. “Towards Real-Time Multi-Object Tracking.” arXiv [cs.CV]. arXiv.
    http://arxiv.org/abs/1909.12605.
    Re-ID embeddingはJoint Detection
    and Embeddingの枠組みを採用。
    検出した物体の中心にある
    Embeddingを使う。

    View Slide

  14. Heterogeneous Cues Embedding
    ❖ 外観特徴(Re-ID feature):Vector空間
    ❖ 位置や次元、向き(geometric feature):Euclidian空間
    この2つの特徴をうまく組み合わせるのは難しかった。

    View Slide

  15. Heterogeneous Cues Embedding
    ❖ 外観特徴(Re-ID feature):Vector空間
    ❖ 位置や次元、向き(geometric feature):Euclidian空間
    この2つの特徴をうまく組み合わせるのは難しかった。
    全部NNで合わせちゃおう!

    View Slide

  16. Heterogeneous Cues Embedding
    ❖ 外観特徴(Re-ID feature):Vector空間
    ❖ 位置や次元、向き(geometric feature):Euclidian空間
    この2つの特徴をうまく組み合わせるのは難しかった。
    全部NNで合わせちゃおう!
    2D box corner 3D box corner
    PointNet
    Qi, Charles R., Hao Su, Kaichun Mo, and Leonidas J. Guibas. 2016. “PointNet: Deep Learning on Point
    Sets for 3D Classification and Segmentation.” arXiv [cs.CV]. arXiv. http://arxiv.org/abs/1612.00593.
    Geometric feature
    Re-ID feature
    One-hot
    Class

    Appearance feature
    Feature extractor

    View Slide

  17. Spatial-Temporal Information Flow
    ❖ Object trackingの物体のマッチングはAttentionに近い。
    Transformerを使えば時間・空間情報をうまく拡張できる!
    ★ Self-attention:ある時間内での物体の情報を伝播
    ★ Cross-attention:時間方向での物体の情報を伝播

    View Slide

  18. Spatial-Temporal Information Flow

    View Slide

  19. Spatial-Temporal Information Flow
    Geometry & Appearance feature

    View Slide

  20. Spatial-Temporal Information Flow
    Geometry & Appearance feature
    各時刻でSelf-attention
    Geometry featureがあるので
    Positional encodingは使わない。

    View Slide

  21. Spatial-Temporal Information Flow
    Geometry & Appearance feature
    各時刻でSelf-attention
    Geometry featureがあるので
    Positional encodingは使わない。
    どれだけ前のタ
    イムポイントかを
    ここで入れる。

    View Slide

  22. Spatial-Temporal Information Flow
    Geometry & Appearance feature
    各時刻でSelf-attention
    Geometry featureがあるので
    Positional encodingは使わない。
    どれだけ前のタ
    イムポイントかを
    ここで入れる。
    過去のタイムポイントの特徴量を KeyとValue
    に、現在の特徴量を Queryとした
    Cross-attentionで時刻情報を学習。

    View Slide

  23. Spatial-Temporal Information Flow

    View Slide

  24. Spatial-Temporal Information Flow
    学習可能なWqをWkを使ってAffinity matrixを作成。最
    後はHangarian algorhythmでIDを割り当てる。

    View Slide

  25. Training Loss
    ❏ Monocular object 3D detection loss
    元論文参照 → Link
    ❏ Tracking loss
    外観特徴も位置特徴も明示的にモデルに組み込めている。
    Affinity matrixをつかってシンプルに Crossentropy lossを計算する。
    ❏ Temporal-consistency loss
    新たに提案!

    View Slide

  26. Training Loss
    ❏ Temporal-consistency loss
    従来の手法では各フレームで独立して物体検出の結果が出されていたので検出結果の一貫性が微妙だっ
    た。そこを補うために、フレーム間の各物体の移動を学習するような Lossを設計した。
    Ground truthのoffset
    3D boxのコーナー
    3D box 3D box refinement value

    View Slide

  27. リアルタイムで推論できる
    Spatial Featureをメモリに保存しておくことで、
    重たい部分(3D detection、embedding
    exroctor、spatial information)を画像につき一
    度だけ推論させれば良い。
    残りは軽いtemporal information flowだけなの
    で、リアルタイム性がある! ...らしい。

    View Slide

  28. 結果

    View Slide

  29. 学習の条件
    ★ BackboneはDLA-34(Imagenet pretrained weight)
    ★ Spatial information flow:3層のSelf attention
    ★ Temporal information flow:4層のCross attention
    ★ Affinity matrixは2層目のところからSoftmaxなしで取得
    ★ AugmentationはShift scale
    ★ 画像は(900, 1600) → (448, 800)にリサイズ
    ★ 10 images / 2080Ti * 8 GPUs → batch size 80
    ★ 200 epochs (1.25e-4 90 epoch → 1.25e-5 30 epoch → 1.25e-6 80 epoch)

    View Slide

  30. 結果:Qualitative Result
    ➢ 過去15フレーム分の軌跡を表示。
    ➢ 軌跡は比較的なめらか。
    ➢ OculusionやHigh speedの車もいけてる?!

    View Slide

  31. 結果:nuScenes test set
    ➢ リアルタイムで推論できる中では Trackingは圧勝!
    ➢ 物体検出については LiDARベースの手法に及ばないものの、 Multi-Object Trackingに関してはLiDARを使っ
    たものよりも良い結果に!
    ➢ Time3D‡は3D detectorとRe-ID extractor、spatial-temporal moduleを別々に学習した(no End-to-end)。
    DetctionとTrackingをEnd-to-endに学習させたほうが良い!
    評価指標についてはこちらのブログがわかりやすいです: Multi-Object Trackingの精度評価指標

    View Slide

  32. 結果:Heterogeneous Cues EmbeddingのAblation
    ➢ Re-IDの特徴量が一番重要ではあるが、そこに boxの特徴を足していく
    ことで確実にTrackingの精度は上がっていってる。

    View Slide

  33. 結果:Re-ID featureのAblation
    ➢ Re-IDの特徴量は3D物体検出のところで若干精度を悪化させてしまう。
    おそらくRe-IDの「アイデンティティ」の不変性 (invariance)と物体検出の
    ばらつき(variance)にある矛盾が原因であはないか?

    View Slide

  34. 結果:Spatial-Temporal Information FlowのAblation
    ➢ 本論文の肝となる部分。 6層のニューラルネットと置き換えたときの比
    較。Spatial-Temporal Information Flowはちゃんと効いてる。

    View Slide

  35. まとめ
    ● 本研究では、リアルタイムに動作する単眼ビデオのみから、 3次元物体検出と3次元多物体
    追跡をEnd-to-endで学習するための新しいフレームワークを提案した。
    ● 本フレームワークは、カテゴリ、 2D Box、3D Box、Re-ID特徴などのHeterogeneous cuesを
    互換性のあるEmbeddingにエンコードする方法を示した。
    ● Transformerベースのアーキテクチャは、 Spatial-Temporal information flowの良い軌跡推定
    器であることがわかった。 Temporal-consistency lossを使うことでより滑らかな軌跡を推定す
    ることができた。

    View Slide

  36. Thank you for listening!!

    View Slide