Monocular 3D Object Detection Survey

Slide 1

Slide 1 text

Monocular 3D Object Detection Survey 畑　遼介

Slide 2

Slide 2 text

Summary ・CAD modelを使わないもの[1, 2] End to Endで学習が可能。(OFTNet) ・CAD modelを使う[3, 4, 5, 6, 7] 1 Stage: Mask-RCNN, RoIを作成 2 Stage: RoIから三次元情報を作成論文中よく使われているのはFaster R-CNNだが，ここから最後までやるのはつらそう。

Slide 3

Slide 3 text

[1] Orthographic Feature Transform for Monocular 3D Object Detection 2018/11 https://arxiv.org/abs/1811.08188

Slide 4

Slide 4 text

Key Point 特徴・二次元画像から，三次元の特徴量を作り，上から見た図を作成し，位置推定などを行う。・三次元の特徴量を作成する際に奥行き推定はしない。・物体の中心のNMSをする。・CenterNetと似たようなpipeline。利点・EndToEnd　・Githubにコードがある。・論文の参考値に必ず出てくるので実績がある。欠点・奥行き推定がないので，重なっているObjectの部分は共有される。 →深さ推定すれば精度はあがる？・CADを使わない。コメント：今回のタスク的に， CenterNetとアンサンブルしても良いかもしれない。

Slide 5

Slide 5 text

アーキテクチャ・二次元画像から，ResNetで特徴量抽出。三次元特徴量を作成したあとに上から見た画像への変更→位置，座標，角度から損失関数を計算。

Slide 6

Slide 6 text

[2] SHIFT R-CNN: DEEP MONOCULAR 3D OBJECT DETECTION WITH CLOSED-FROM GEOMETRIC CONSTRAINTS 2019/03 https://arxiv.org/abs/1905.09970

Slide 7

Slide 7 text

Key Point 特徴・RoIAlignedを使って，３次元位置推定をする。・三次元Bounding Boxを作って，車の位置tを算出する。・その後，Bouding Boxや位置情報を三層のNNに入れて位置を改善する(ShiftNet)。利点・最後のShitNetはどのアーキテクチャーでも使えるだろう。欠点・End to Endではない。　RoIAlignedを使う時点でR-CNNのアーキテクチャは使っている。・CADを使わない。コメント：わざわざ読まなくても良いと思う。

Slide 8

Slide 8 text

アーキテクチャ・Stage １で2D Boxの推定，三次元の推定，方向の推定。・Stage ２でカメラからの位置を計算する。・Stage ３で位置をシフトさせて，精度を上げる。

Slide 9

Slide 9 text

[3] Deep MANT: A Coarse-to-fine Many-Task Network for joint 2D and 3D vehicle analysis from monocular image 2017/3 https://arxiv.org/abs/1703.07570

Slide 10

Slide 10 text

Key Point 特徴・二次元データから特徴点を抽出して三次元データとマッチさせるはじめの論文。・車は特徴的な形状をしているので，三次元データへと再現ができると提言している。利点・CADを使う。欠点・End to Endではない。Cascaded R-CNNのアーキテクチャを使って二次元特徴量を出している。・三次元のテンプレートマッチングのやり方が不明。コメント：精度はそこまで出ているわけではないので読まなくてもいいと思う。

Slide 11

Slide 11 text

アーキテクチャ・Stage １で分類，二次元Bouding Box，二次元位置，隠れ度合い, テンプレートとの類似度・Stage ２でStage１で抽出したデータから三次元テンプレートとのマッチング

Slide 12

Slide 12 text

[4] 3D-RCNN: Instance-level 3D Object Reconstruction via Render-and-Compose 2018 http://abhijitkundu.info/projects/3D-RCNN/ CVPR 2018

Slide 13

Slide 13 text

Key Point 特徴・RoIから特徴量抽出→分岐させてregression ・分岐の中身はamodal Box（見えない部分を含めたBounding Box）, 中心位置，角度，3D CADをPCAで10次元に圧縮したもの。・上の情報を使って三次元画像をレンダリング，二次元上に再生して，マスターと比較。利点・CADを使う。精度は出そう。欠点・End to Endではない。・pipelineをすべて動かそうと思うと，R−CNNスタートで間にOpenGLを使うことがあるので，手間がすごそう。コメント：3D CADをPCAするアイデアは使えそう。ただし，すべてのpipelineを通すとなると辛そう。

Slide 14

Slide 14 text

アーキテクチャ・Stage １でRoIを抽出・Stage ２でRoIの特徴量を抽出(論文ではResNet-50) →分岐　 →amodal Box（見えない部分を含めたBounding Box）, 中心位置，角度，構造特徴（PCAしたもの）をそれぞれLossを出す（右側の図はPoseとshapeの損失構造の詳細）・Stage ３２で得られた情報をもとに三次元の構造体をレンダリングして，二次元画像上に再生／比較

Slide 15

Slide 15 text

[5] Mono3D++: Monocular 3D Vehicle Detection with Two-Scale 3D Hypotheses and Task Priors 2019/1 https://arxiv.org/abs/1901.03446

Slide 16

Slide 16 text

Key Point 特徴・SSDの特徴量から２次元擬推定，３次元Bounding Box, WireFrameによる推定によるJointで最終的にrobostな３次元位置推定。(別の車に隠れている車があるので，より頑健にしたい) ・Loss function周りや，３次元推定の数式の説明が丁寧。利点・SSDでやってるので，理屈の上ではEnd to End 欠点・実験は２次元Bounding Boxを出すのに一週間，その後の処理が２時間とか書かれているので，End to Endとは言い難い。・数式を追うのが結構しんどい。コメント：数式を読んで実装することを考えると参考にはならなさそう。精読するならば読み応えありそう。

Slide 17

Slide 17 text

アーキテクチャ・SSDに似たアーキテクチャーで２次元Bounding Boxを抽出。・その後，二次元のワイヤフレームを作っているものと，３次元 Bounding Boxとwireframe shape modelとマッチ。・ロスを読む限り，一つずつ３次元データとマッチさせている。

Slide 18

Slide 18 text

[6] Monocular 3D Object Detection via Geometric Reasoning on Keypoints 2019/5 https://arxiv.org/abs/1905.05618

Slide 19

Slide 19 text

Key Point 特徴・Mask R-CNNを通したあとの２次元Bounding Boxの特徴量から１．１４点のkeypoint(おそらく特徴点）を抽出２．角度などの推定３．５つの３D CADとのテンプレートマッチする。・１➖３の特徴量から深さ推定して，位置を特定する。利点・CADの一部を使う。欠点・多分。End to Endではないコメント：使っているCADがセダンやミニバンなどの特徴的な車の５種だったので途中で読むのをやめた。あまり有用ではないと思う。

Slide 20

Slide 20 text

アーキテクチャ・Stage １でFPN ResNet-101 RoIを抽出・Stage ２でRoIの特徴量を１．１４点のkeypoint(おそらく特徴点）を抽出する。２．角度などの推定３．５つの３D CADとのテンプレートマッチとカメラ情報から深さ推定，３次元の位置推定

Slide 21

Slide 21 text

[7] Monocular 3D Object Detection Leveraging Accurate Proposals and Shape Reconstruction 2019/4 https://arxiv.org/abs/1904.01690 CVPR 2019

Slide 22

Slide 22 text

Key Point 特徴・２次元画像だけから，３次元位置を含んだ絵を作成することを目的にした論文。・その過程で位置推定を行っている。利点・実用上CADデータがない場合もあるので，そのときにも使える。欠点・コンペ的にはCADは与えられているので，使わないことは欠点コメント：Feature Mapの作り方は参考になりそうだが，研究内容が現在のコンペの目的を超えているためすべての実装はいらない。技術的には面白そう。

Slide 23

Slide 23 text

アーキテクチャ・特徴量を，二次元Bounding Boxesともとデータを畳み込んであとに同じ位置をCropしたもので抽出する。・得た特徴量から，車の角度，３次元Bounding Boxの中心位置と大きさを推定する。・得られた特徴量から深さ推定を行う。・もとの特徴量から，車だけの画像を作成し，上で得た位置などの特徴量を使って，もとの空間に再現する。