Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Monocular 3D Object Detection Survey
Search
Hata Ryosuke
January 22, 2020
Research
3
460
Monocular 3D Object Detection Survey
Survey for a kaggle competition: Peking University/Baidu - Autonomous Driving
Hata Ryosuke
January 22, 2020
Tweet
Share
More Decks by Hata Ryosuke
See All by Hata Ryosuke
関西Kaggler会 発表スライド
ryosukehata
1
980
pytorchで機械学習しない
ryosukehata
3
970
量子情報勉強会,量子ゲートについて
ryosukehata
0
220
Other Decks in Research
See All in Research
Weekly AI Agents News!
masatoto
31
55k
Gemini と Looker で営業DX をドライブする / Driving Sales DX with Gemini and Looker
sansan_randd
0
130
JSAI NeurIPS 2024 参加報告会(AI アライメント)
akifumi_wachi
5
870
BtoB プロダクトにおけるインサイトマネジメントの必要性 現場ドリブンなカミナシがインサイトマネジメントに取り組むワケ / Why field-driven Kaminashi is working on insight management
kaminashi
1
310
医療支援AI開発における臨床と情報学の連携を円滑に進めるために
moda0
0
160
LLM 시대의 Compliance: Safety & Security
huffon
0
610
20250226 NLP colloquium: "SoftMatcha: 10億単語規模コーパス検索のための柔らかくも高速なパターンマッチャー"
de9uch1
0
110
AIトップカンファレンスからみるData-Centric AIの研究動向 / Research Trends in Data-Centric AI: Insights from Top AI Conferences
tsurubee
3
1.8k
VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding
sansan_randd
1
470
ECCV2024読み会: Minimalist Vision with Freeform Pixels
hsmtta
1
440
大規模日本語VLM Asagi-VLMにおける合成データセットの構築とモデル実装
kuehara
5
1.2k
文書画像のデータ化における VLM活用 / Use of VLM in document image data conversion
sansan_randd
2
550
Featured
See All Featured
Product Roadmaps are Hard
iamctodd
PRO
51
11k
KATA
mclloyd
29
14k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
59k
Fireside Chat
paigeccino
35
3.2k
How STYLIGHT went responsive
nonsquared
99
5.4k
We Have a Design System, Now What?
morganepeng
51
7.4k
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
115
51k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
47
5.2k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
6
580
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
227
22k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
45
9.4k
Transcript
Monocular 3D Object Detection Survey 畑 遼介
Summary ・CAD modelを使わないもの[1, 2] End to Endで学習が可能。(OFTNet) ・CAD modelを使う[3, 4,
5, 6, 7] 1 Stage: Mask-RCNN, RoIを作成 2 Stage: RoIから三次元情報を作成 論文中よく使われているのはFaster R-CNNだが, ここから最後までやるのはつらそう。
[1] Orthographic Feature Transform for Monocular 3D Object Detection 2018/11
https://arxiv.org/abs/1811.08188
Key Point 特徴 ・二次元画像から,三次元の特徴量を作り,上から見た図を作成し, 位置推定などを行う。 ・三次元の特徴量を作成する際に奥行き推定はしない。 ・物体の中心のNMSをする。 ・CenterNetと似たようなpipeline。 利点 ・EndToEnd ・Githubにコードがある。
・論文の参考値に必ず出てくるので実績がある。 欠点 ・奥行き推定がないので,重なっているObjectの部分は共有される。 →深さ推定すれば精度はあがる? ・CADを使わない。 コメント:今回のタスク的に, CenterNetとアンサンブルしても良いかもしれない。
アーキテクチャ ・二次元画像から,ResNetで特徴量抽出。三次元特徴量を作成 したあとに上から見た画像への変更→位置,座標,角度から損 失関数を計算。
[2] SHIFT R-CNN: DEEP MONOCULAR 3D OBJECT DETECTION WITH CLOSED-FROM
GEOMETRIC CONSTRAINTS 2019/03 https://arxiv.org/abs/1905.09970
Key Point 特徴 ・RoIAlignedを使って,3次元位置推定をする。 ・三次元Bounding Boxを作って,車の位置tを算出する。 ・その後,Bouding Boxや位置情報を三層のNNに入れて位置を改善 する(ShiftNet)。 利点
・最後のShitNetはどのアーキテクチャーでも使えるだろう。 欠点 ・End to Endではない。 RoIAlignedを使う時点でR-CNNのアーキテク チャは使っている。 ・CADを使わない。 コメント:わざわざ読まなくても良いと思う。
アーキテクチャ ・Stage 1で2D Boxの推定,三次元の推定,方向の推定。 ・Stage 2でカメラからの位置を計算する。 ・Stage 3で位置をシフトさせて,精度を上げる。
[3] Deep MANT: A Coarse-to-fine Many-Task Network for joint 2D
and 3D vehicle analysis from monocular image 2017/3 https://arxiv.org/abs/1703.07570
Key Point 特徴 ・二次元データから特徴点を抽出して三次元データとマッチさせるは じめの論文。 ・車は特徴的な形状をしているので,三次元データへと再現ができる と提言している。 利点 ・CADを使う。 欠点
・End to Endではない。Cascaded R-CNNのアーキテクチャを使って二 次元特徴量を出している。 ・三次元のテンプレートマッチングのやり方が不明。 コメント:精度はそこまで出ているわけではないので読まなくてもいい と思う。
アーキテクチャ ・Stage 1で分類,二次元Bouding Box,二次元位置,隠れ度合 い, テンプレートとの類似度 ・Stage 2でStage1で抽出したデータから三次元テンプレートと のマッチング
[4] 3D-RCNN: Instance-level 3D Object Reconstruction via Render-and-Compose 2018 http://abhijitkundu.info/projects/3D-RCNN/
CVPR 2018
Key Point 特徴 ・RoIから特徴量抽出→分岐させてregression ・分岐の中身はamodal Box(見えない部分を含めたBounding Box), 中心位置,角度 ,3D CADをPCAで10次元に圧縮したもの。
・上の情報を使って三次元画像をレンダリング,二次元上に再生して,マスターと比 較。 利点 ・CADを使う。精度は出そう。 欠点 ・End to Endではない。 ・pipelineをすべて動かそうと思うと,R−CNNスタートで間にOpenGLを 使うことがあるので,手間がすごそう。 コメント:3D CADをPCAするアイデアは使えそう。 ただし,すべてのpipelineを通すとなると辛そう。
アーキテクチャ ・Stage 1でRoIを抽出 ・Stage 2でRoIの特徴量を抽出(論文ではResNet-50) →分岐 →amodal Box(見えない部分を含めたBounding Box),
中心位 置,角度,構造特徴(PCAしたもの)を それぞれLossを出す(右 側の図はPoseとshapeの損失構造の詳細) ・Stage 3 2で得られた情報をもとに三次元の構造体をレンダリ ングして,二次元画像上に再生/比較
[5] Mono3D++: Monocular 3D Vehicle Detection with Two-Scale 3D Hypotheses
and Task Priors 2019/1 https://arxiv.org/abs/1901.03446
Key Point 特徴 ・SSDの特徴量から2次元擬推定,3次元Bounding Box, WireFrameに よる推定によるJointで最終的にrobostな3次元位置推定。(別の車に 隠れている車があるので,より頑健にしたい) ・Loss function周りや,3次元推定の数式の説明が丁寧。
利点 ・SSDでやってるので,理屈の上ではEnd to End 欠点 ・実験は2次元Bounding Boxを出すのに一週間,その後の処理が2 時間とか書かれているので,End to Endとは言い難い。 ・数式を追うのが結構しんどい。 コメント:数式を読んで実装することを考えると参考にはならなさそう。 精読するならば読み応えありそう。
アーキテクチャ ・SSDに似たアーキテクチャーで2次元Bounding Boxを抽出。 ・その後,二次元のワイヤフレームを作っているものと,3次元 Bounding Boxとwireframe shape modelとマッチ。 ・ロスを読む限り,一つずつ3次元データとマッチさせている。
[6] Monocular 3D Object Detection via Geometric Reasoning on Keypoints
2019/5 https://arxiv.org/abs/1905.05618
Key Point 特徴 ・Mask R-CNNを通したあとの2次元Bounding Boxの特徴量から1. 14点のkeypoint(おそらく特徴点)を抽出 2.角度などの推定 3.5つの3D CADとのテンプレートマッチ
する。 ・1➖3の特徴量から深さ推定して,位置を特定する。 利点 ・CADの一部を使う。 欠点 ・多分。End to Endではない コメント:使っているCADがセダンやミニバンなどの特徴的な車の5種 だったので途中で読むのをやめた。あまり有用ではないと思う。
アーキテクチャ ・Stage 1でFPN ResNet-101 RoIを抽出 ・Stage 2でRoIの特徴量を 1.14点のkeypoint(おそらく特徴点)を抽出する。 2.角度などの推定 3.5つの3D
CADとのテンプレートマッチ とカメラ情報から深さ推定,3次元の位置推定
[7] Monocular 3D Object Detection Leveraging Accurate Proposals and Shape
Reconstruction 2019/4 https://arxiv.org/abs/1904.01690 CVPR 2019
Key Point 特徴 ・2次元画像だけから,3次元位置を含んだ絵を作成することを目的 にした論文。 ・その過程で位置推定を行っている。 利点 ・実用上CADデータがない場合もあるので,そのときにも使える。 欠点 ・コンペ的にはCADは与えられているので,使わないことは欠点
コメント:Feature Mapの作り方は参考になりそうだが,研究内容が現 在のコンペの目的を超えているためすべての実装はいらない。技術 的には面白そう。
アーキテクチャ ・特徴量を,二次元Bounding Boxesともとデータを畳み込んであ とに同じ位置をCropしたもので抽出する。 ・得た特徴量から,車の角度,3次元Bounding Boxの中心位置 と大きさを推定する。 ・得られた特徴量から深さ推定を行う。 ・もとの特徴量から,車だけの画像を作成し,上で得た位置など の特徴量を使って,もとの空間に再現する。