Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Monocular 3D Object Detection Survey

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for Hata Ryosuke Hata Ryosuke
January 22, 2020

Monocular 3D Object Detection Survey

Survey for a kaggle competition: Peking University/Baidu - Autonomous Driving

Avatar for Hata Ryosuke

Hata Ryosuke

January 22, 2020
Tweet

More Decks by Hata Ryosuke

Other Decks in Research

Transcript

  1. Summary ・CAD modelを使わないもの[1, 2] End to Endで学習が可能。(OFTNet) ・CAD modelを使う[3, 4,

    5, 6, 7] 1 Stage: Mask-RCNN, RoIを作成 2 Stage: RoIから三次元情報を作成 論文中よく使われているのはFaster R-CNNだが, ここから最後までやるのはつらそう。
  2. Key Point 特徴 ・二次元画像から,三次元の特徴量を作り,上から見た図を作成し, 位置推定などを行う。 ・三次元の特徴量を作成する際に奥行き推定はしない。 ・物体の中心のNMSをする。 ・CenterNetと似たようなpipeline。 利点 ・EndToEnd ・Githubにコードがある。

    ・論文の参考値に必ず出てくるので実績がある。 欠点 ・奥行き推定がないので,重なっているObjectの部分は共有される。 →深さ推定すれば精度はあがる? ・CADを使わない。 コメント:今回のタスク的に, CenterNetとアンサンブルしても良いかもしれない。
  3. [2] SHIFT R-CNN: DEEP MONOCULAR 3D OBJECT DETECTION WITH CLOSED-FROM

    GEOMETRIC CONSTRAINTS 2019/03 https://arxiv.org/abs/1905.09970
  4. Key Point 特徴 ・RoIAlignedを使って,3次元位置推定をする。 ・三次元Bounding Boxを作って,車の位置tを算出する。 ・その後,Bouding Boxや位置情報を三層のNNに入れて位置を改善 する(ShiftNet)。 利点

    ・最後のShitNetはどのアーキテクチャーでも使えるだろう。 欠点 ・End to Endではない。 RoIAlignedを使う時点でR-CNNのアーキテク チャは使っている。 ・CADを使わない。 コメント:わざわざ読まなくても良いと思う。
  5. [3] Deep MANT: A Coarse-to-fine Many-Task Network for joint 2D

    and 3D vehicle analysis from monocular image 2017/3 https://arxiv.org/abs/1703.07570
  6. Key Point 特徴 ・二次元データから特徴点を抽出して三次元データとマッチさせるは じめの論文。 ・車は特徴的な形状をしているので,三次元データへと再現ができる と提言している。 利点 ・CADを使う。 欠点

    ・End to Endではない。Cascaded R-CNNのアーキテクチャを使って二 次元特徴量を出している。 ・三次元のテンプレートマッチングのやり方が不明。 コメント:精度はそこまで出ているわけではないので読まなくてもいい と思う。
  7. Key Point 特徴 ・RoIから特徴量抽出→分岐させてregression ・分岐の中身はamodal Box(見えない部分を含めたBounding Box), 中心位置,角度 ,3D CADをPCAで10次元に圧縮したもの。

    ・上の情報を使って三次元画像をレンダリング,二次元上に再生して,マスターと比 較。 利点 ・CADを使う。精度は出そう。 欠点 ・End to Endではない。 ・pipelineをすべて動かそうと思うと,R−CNNスタートで間にOpenGLを 使うことがあるので,手間がすごそう。 コメント:3D CADをPCAするアイデアは使えそう。 ただし,すべてのpipelineを通すとなると辛そう。
  8. アーキテクチャ ・Stage 1でRoIを抽出 ・Stage 2でRoIの特徴量を抽出(論文ではResNet-50) →分岐   →amodal Box(見えない部分を含めたBounding Box),

    中心位 置,角度,構造特徴(PCAしたもの)を それぞれLossを出す(右 側の図はPoseとshapeの損失構造の詳細) ・Stage 3 2で得られた情報をもとに三次元の構造体をレンダリ ングして,二次元画像上に再生/比較
  9. [5] Mono3D++: Monocular 3D Vehicle Detection with Two-Scale 3D Hypotheses

    and Task Priors 2019/1 https://arxiv.org/abs/1901.03446
  10. Key Point 特徴 ・SSDの特徴量から2次元擬推定,3次元Bounding Box, WireFrameに よる推定によるJointで最終的にrobostな3次元位置推定。(別の車に 隠れている車があるので,より頑健にしたい) ・Loss function周りや,3次元推定の数式の説明が丁寧。

    利点 ・SSDでやってるので,理屈の上ではEnd to End 欠点 ・実験は2次元Bounding Boxを出すのに一週間,その後の処理が2 時間とか書かれているので,End to Endとは言い難い。 ・数式を追うのが結構しんどい。 コメント:数式を読んで実装することを考えると参考にはならなさそう。 精読するならば読み応えありそう。
  11. Key Point 特徴 ・Mask R-CNNを通したあとの2次元Bounding Boxの特徴量から1. 14点のkeypoint(おそらく特徴点)を抽出 2.角度などの推定 3.5つの3D CADとのテンプレートマッチ

    する。 ・1➖3の特徴量から深さ推定して,位置を特定する。 利点 ・CADの一部を使う。 欠点 ・多分。End to Endではない コメント:使っているCADがセダンやミニバンなどの特徴的な車の5種 だったので途中で読むのをやめた。あまり有用ではないと思う。
  12. [7] Monocular 3D Object Detection Leveraging Accurate Proposals and Shape

    Reconstruction 2019/4 https://arxiv.org/abs/1904.01690 CVPR 2019