Survey:Monocular 3D Object Detection

confidential Mobility Technologies Co., Ltd. Monocular 3D Object Detection: Survey

confidential Mobility Technologies Co., Ltd. Tatsuya Sasaki AI Research Engineer
at Mobility Technologies / DeNA AI R&D Group 2 Previous Job: AI Research Engineer at Konica Minolta Education: NAIST Information Science (Master’s degree) Self-Introduction 2

confidential Mobility Technologies Co., Ltd. 3 1　Introduction Agenda 2　Survey 3　Appendix

confidential Mobility Technologies Co., Ltd. 三次元物体検出アプリケーション例 : 自動運転 4 source

confidential Mobility Technologies Co., Ltd. 三次元物体検出アプリケーション例 : AR/VR 5 source

confidential Mobility Technologies Co., Ltd. 三次元物体検出の論文数推移 6 2Dを含むobject detection全体は論文投稿数が非常に多いが
三次元物体検出は意外と論文数が少なく単眼(Mono)だと更にグンと減る →まだまだ論文が少ない領域 2020/11/13にarxivの検索機能でキーワード毎に年別のヒット件数を調査

confidential Mobility Technologies Co., Ltd. Camera 三次元物体検出全体 7 Stereo 3次元
物体検出 Camera+ LiDAR Point Cloud Monocular 三次元物体検出は入力形式等によりいくつかカテゴリが存在・LiDAR有り/無し・Mono/Stereo 等

confidential Mobility Technologies Co., Ltd. 単眼三次元物体検出の問題設定 8 他方、リソースが限られている状況での自動運転やAR/VRといったアプリケーションに向けての3D物体検出を導入したいと考える企業にとって魅力的なアプローチとして注目を集めている
source

confidential Mobility Technologies Co., Ltd. 単眼三次元物体検出の問題設定単眼三次元物体検出は、RGB画像から3D BBoxを予測する。が、 RGB画像では、奥行き情報が失われているため不良設定問題といえ、単眼3D物体検出は、高難易度のタスクである。このため、LiDARありの場合の性能と比べると、
AP(Average Precision)で60%以上もの開きがある* 9 source *source

confidential Mobility Technologies Co., Ltd. 単眼三次元物体検出における性能評価・二次元の物体検出と同様にIoUを用いる・基本的には平面で計算していたIoUを立体で計算することになる　・2Dと3Dの差分で考慮すべき点としては回転が生じる　・KITTIの場合yaw軸回転、つまり、方向のみ考慮するが、
　　方向の誤差はBBOXのIoUとは別の指標で評価される　→次スライドでKITTIのmetricsの全体と3DのIoUの関係を示す

confidential Mobility Technologies Co., Ltd. ・データセット KITTI 3D Object Detection
Evaluation 2017 がベンチマークの標準　 (上記以外の3D Object Detection Datasetは以下slideが詳しい) 　　3D Perception for Autonomous Driving - Datasets and Algorithms ・評価方法： 3D BBOX (AP) ・IoUの閾値：　0.7 ・難易度：以下の3種類　easy　　：　最小BBoxの高さ 40px、オクルージョン　なし　moderate ：　最小BBoxの高さ 25px、オクルージョン　あり　 (部分的に隠れている ) 　hard　　：　最小BBoxの高さ 25px、オクルージョン　あり　 (大部分が隠れている ) 三次元物体検出のベンチマークデータセットおよび評価指標 11

confidential Mobility Technologies Co., Ltd. KITTI metrics 2D BBOX ・overlap
on image (AP) ・oriented overlap on image (AOS) BEV BBOX ・overlap on ground-plane (AP) ・oriented overlap on ground-plane (AHS) 3D BBOX ・overlap in 3D (AP) ・oriented overlap in 3D (3D AHS) <IoU> <Orientation>

confidential Mobility Technologies Co., Ltd. ・AOS ・AHS：　・AOSをBEVで計算したもの AOSとAHS (r)：recall
∆(i)θ：推定値とground truthとの角度差 δ：過検出に対するペナルティ項　割り当てるground truthがある時は1、ない時は0

confidential Mobility Technologies Co., Ltd. 評価条件のばらつきと統一論文ごとに揺らいでいる評価条件 KITTIの指定本サーベイでの
ベンチマーク条件評価セット test or val test test 評価方法 3D BBOX or BEV (or AHS) - それぞれ独立したものとして存在 3D BBOX (比較時の分かりやすさを優先し3D BBOXに限定) IoU 0.5 or 0.7 0.7 0.7 AP interpolate R11 or R40 (初期は11点補間が主流だったが最近は 40が主流) R40 R40 対象クラス Single or Multi (Car onlyかそれ以外のクラスも含むかどうか ) - multi 難易度 easy or moderate or hard - 全パターン報告が通例になっている easy (比較時の分かりやすさを優先しeasyに限定) ・単眼3次元物体検出は、論文毎に評価条件がばらついており統一されていなかったため、　本調査では、視覚的に性能を比較できるように以下の条件で SoTAのグラフを新たに作成

単眼三次元物体検出のSoTA遷移グラフ・SoTAの更新を実線で、それ以外の論文は点で表現・但し、トップカンファレンス論文はSoTA更新でなくても論文名を表記 (全論文表記版はAppendixに記載) ・縦軸: AP, 横軸: publish date

confidential Mobility Technologies Co., Ltd. 単眼三次元物体検出はアプローチの違いで以下4つに分類できる* 1. Representation transformation (BEV,
pseudo-lidar) 2. Key points and Shapes 3. Distance estimation through 2D/3D constraints 4. Direct Generation of 3D proposal Surveyでは上記4つのカテゴリからそれぞれ代表的な論文を2~5本程度紹介単眼三次元物体検出のカテゴリ 17 *source

confidential Mobility Technologies Co., Ltd. 前ページで引用したカテゴリ毎に過去から現在にかけて時系列順で以下を紹介・SoTAを更新した論文・トップカンファレンス採択論文（論文スライドの図は論文中から引用）論文紹介の順番

ネットワークへの入力となるものの表現方法を変えることで精度を向上させるアプローチ具体的には、BEV(鳥瞰図)への変換やPseudo-LiDAR(深度マップを点群に変換した擬似的LiDAR)への変換が挙げられる。他方、Pseudo-LiDARに関しては最新の論文は MonoではなくStereoが多い傾向がある 1. Representation transformation (BEV, pseudo-lidar) 19

confidential Mobility Technologies Co., Ltd. ・課題意識：3次元空間の特徴マップを用いて物体検出をしようとすると計算量が膨大になる・提案手法：画像空間ではなく実空間に対応する特徴マップを入力とするため、カメラから遠い物体をカメラから近い物体と同様に扱い、 3D空間における特徴マップを Orthographic
space(正投影空間)に変換(3次元の特徴マップを高さ方向で圧縮して 2次元にマッピング)することで計算量の削減に成功。 Orthographic Feature Transform for Monocular 3D Object Detection 21

confidential Mobility Technologies Co., Ltd. ・課題意識：より良い損失関数の設計のため、 2d bbox, orientation, scaleの推定を3次元空間にliftingする
・提案手法：二次元物体検出を行った後、 RoIAlignし各領域の局所化された特徴を抽出する。二次元検出のためのResNet-FPNアーキテクチャと単眼深度予測ネットワークを用いて入力画像を処理する。予測された関心領域 (RoI)を使用して、3Dバウンディングボックスを回帰して推定する前に、 RoIAlign操作を介してResNet-FPNとデプスネットワークから特徴マップを抽出する。単眼データから絶対移動量等の情報を予測することは困難だがグローバルな深度情報を予測することを目的としたネットワークは全体を活用することで対応。 ROI-10D: Monocular Lifting of 2D Detection to 6D Pose and Metric Shape [CVPR2019]

confidential Mobility Technologies Co., Ltd. ・課題意識：従来手法の構成では、 2次元物体検出や深度推定といった 3次元物体検出のためサブネットワークが存在していたが、これらのアプローチではサブネットワークの性能が全体性能のボトルネックになっていた。・提案手法：各2Dアンカーの3D平均統計量を事前計算することで
2Dと3Dのbboxパラメータを同時にリグレッションする。また、独自アイデアとして、 depth-aware convolutionという形で特徴マップを縦方向に分割し、それぞれ異なるカーネルで学習しており、これにより depthに応じた特徴抽出が可能 M3D-RPN: Monocular 3D Region Proposal Network for Object Detection[ICCV2019] 25

confidential Mobility Technologies Co., Ltd. MoVi-3D:Towards Generalization Across Depth for
Monocular 3D Object Detection (ECCV 2020, from Mapillary Research et al) ・課題意識：物体の大きさはカメラからの距離に大きく依存するため、単眼の 3次元物体検出では距離が大きくなるにつれて検出の複雑さが増す。・提案手法：上記受け、元の画像に対して検出を行う代わりに、仮想画像に対して検出を行うアプローチを提案。提案手法による仮想画像は、元の画像をトリミングして拡大縮小したものとなるため、別の深度で撮影されたかのようにオブジェクトのスケールを維持できるようになる。 27

confidential Mobility Technologies Co., Ltd. MoVi-3D:Towards Generalization Across Depth for
Monocular 3D Object Detection (ECCV 2020, from Mapillary Research et al) ・手法詳細：仮装画像作成は、幾何学的な事前知識を用いて奥行きによるスケールのばらつきを考慮した画像変換を行う。各変換は、メートル単位でいくつかの前置サイズを有する空間内の予め定義された 3D view portが検出されるべき物体の前に理想的に配置される画像平面に平行な 2d windowに紐づいており、予め定められた解像度に適合するようにスケーリングされた仮想画像を提供する。・論文名の由来は、Monocular 3D object detection,---略--- by exploiting Virtual views. 28

confidential Mobility Technologies Co., Ltd. ・課題意識：単眼物体検出が難しいのは、単眼画像の情報の表現方法が LiDARやdepthと比べて不適切であるためであるとして、3次元物体検出を行うネットワークへの入力として単眼画像は使わず、単眼画像からから得られる深度情報と候補矩形を使った変換後のデータを用いている。・提案手法：具体的には、単眼画像からから得られる深度情報と候補矩形から点群情報を作り出し、作り出した
点群情報に対してセグメンテーションを行う。この結果を Det-Netと呼ぶPointNet等の点群を入力とした物体検出で用いられるアーキテクチャをベースとしたネットワークに与える形で学習する。 AM3D:Accurate Monocular Object Detection via Color-Embedded 3D Reconstruction for Autonomous Driving

confidential Mobility Technologies Co., Ltd. ・課題意識：Pseudo-LiDARの課題として、点密度が実際よりも高くなりすぎるというものがあり (具体的には実際の LiDAR点群よりも一桁程度高い )、これが精度劣化と計算量の増加に繋がっていた。・提案手法：本論文では前景点を特定してから
sparcificationを行うことでこの問題に対応した。具体的には、前景点を教師ありと教師なしの 2つのアプローチで識別し、 2次元物体検出器を訓練し 2次元bboxマスクの和を前景マスクとして使用して背景点を除去する。その後、 LoGでキーポイントを検出し最近傍を前景点として使用。 RefinedMPL: Refined Monocular PseudoLiDAR for 3D Object Detection in Autonomous Driving 32 top:baseline, middle:unsupervised, bottom:supervised

車両の一部をランドマーク／キーポイントとして使用し車両までの距離を推定し3DBBox として検出。これらの研究の多くはキーポイントを予測するために2D物体検出の代表的な手法 (YOLOやRetinaNet等1ステージあるいはFaster RCNNのような2ステージ手法)を拡張。 2. Key points and
Shapes 33

confidential Mobility Technologies Co., Ltd. ・課題意識：ピクセルレベルの深度推定は、設計上、物体の定位に焦点を当てていない。本研究では、単眼画像のRGBデータのみを用いて解くことが可能な複数のサブタスクに分離する。・提案手法：2次元画像のセマンティクスの認識および 3次元空間での幾何学的推論を行うインスタンスレベル深度推定モジュールを提案。このモジュールは、深い特徴量マップの大きな受容領域を探索して粗いインスタンス
深度を捕捉し、より高い解像度の初期特徴量を組み合わせる。これらのコンポーネントは、 3次元推論分岐を持つエンドツーエンドネットワークに統合され、グローバルコンテキストにおける 3次元バウンディングボックスの不一致を最小化する損失関数として表現する。 MonoGRNet: A Geometric Reasoning Network for Monocular 3D Object Localization 35

2D/3Dの整合性を活用して2Dを3Dにリフトアップするアプローチで、これらの手法は幾何学的制約を利用して2次元のBBoxを3次元にリフトアップすることで3次元位置を求めるための最適化問題を解く。 3. Distance estimation through 2D/3D constraints 36

confidential Mobility Technologies Co., Ltd. MonoPSR: Monocular 3D Object Detection
Leveraging Accurate Proposals and Shape Reconstruction ・課題意識：形状/ポーズ推定にCADモデルにマッチングさせるタイプの既存手法は、学習に利用可能な情報を十分に活用していない。具体的には、 3Dラベルを作成するため実施する LiDARスキャンによる深度マップが利用可能であるが、深度情報は学習に取り入れているにも関わらず 2D BBOXから得られるPriorを利用していない。・手法概要：まず3D BBOXを生成し、オブジェクトの局所的な点群を再構成する。セントロイドを提案する段階では、2D BBOXの高さと3Dオブジェクトの高さを利用して奥行きを推定し、推定された奥行きで 2D BBOXの中心を3D 空間に再投影する。再構成ブランチは、対象物の局所的な点群を回帰し、点群および GTと比較する。インスタンス中心のフォーカスにより深度推定の精度を向上させた。 38

confidential Mobility Technologies Co., Ltd. 40 ・課題意識：通常の3DODが4隅の頂点を回帰するのに対し本手法ではキーポイント 8つの頂点+中心で9点で回帰する。9点新たに付け直す訳ではなく既にある 4点から計算して9点を算出する。アーキテクチャは
CenterNet ベース。・提案手法：本手法では、距離、向き、サイズを直接回帰させており、これらの値を使って直接キューボイドを形成するのではなく、オフラインオプティマイザを初期化して 3D bboxを生成する際の初期値として利用。これにより、初のリアルタイム単眼 3D物体検出アルゴリズムであると主張 (0.055秒/frame 程度の性能) RTM3D: Real-time Monocular 3D Detection from Object Keypoints for Autonomous Driving[ECCV 2020]

直接3DBBoxを出力するアプローチ。より具体的にはRGB画像を入力としていくつかの重要な要素(例えば車と地上との距離や車の形、出現位置)をパラメータとして扱うか、マルチタスクの枠組みで解き3DBBox出力を学習する。 4. Direct Generation of 3D proposal 41

confidential Mobility Technologies Co., Ltd. Learning Depth-Guided Convolutions for Monocular
3D Object Detection[CVPR 2020] 43 ・課題意識：2D畳み込みは3D物体検出に不可欠な局所物体とそのスケール情報を捉えることができない・提案手法：3D構造をより良く表現するために、擬似 LiDAR表現を用いる代わりに、新しい局所畳み込みネットワーク(Depth-guided Dynamic-Depthwis-Dilated LCN (D4LCN))提案。より具体的には、 depth-mapを入力とした Filter generation networkを別途特徴量抽出と別に用意し、 depth-mapを入力とした情報をguideとして使って3D Detのための各情報を推論

confidential Mobility Technologies Co., Ltd. Kinematic 3D Object Detection in
Monocular Video [ECCV 2020] 45 ・課題意識：時系列を入力とした 3次元物体検出は提案されていない。しかし、物理的な動きを適切にモデル化しないと、時間の経過に伴う向きや定位の不自然な変化により上手く機能しない可能性が高い。・提案手法：3Dカルマンフィルタを用いた運動制約として向きを軸・方位・オフセットに沿って再構成する self-balancingを取る損失関数を提案することでカルマンフィルタがより効果的に動作するようにした。具体的には、オブジェクトの立方体、方向、速度を含む包括的な 3Dシーン理解に向けて不確実性、自車の運動量を考慮。・時系列情報を加味した 3DOD ・3Dカルマンフィルタを利用・損失関数として self-balancing lossを提案

confidential Mobility Technologies Co., Ltd. ・論文ごとに揺れていた単眼3次元物体検出の評価指標を統一し、時間軸でSoTAを整理し、　アプローチタイプごとのSoTA更新論文及びTier-1論文を紹介。・単眼三次元物体検出論文の特徴　・事前知識を活用することで失われた奥行き情報の推定を試みる論文が多い・単眼三次元物体検出のトレンド
　・アプローチとしてはend-to-endが増えてきている　・その他、マルチタスクや時系列利用といった形で入力情報そのものを増やす論文が増加傾向まとめ 46

confidential Mobility Technologies Co., Ltd. 論文一覧 48 ・論文一覧 Orthographic Feature
Transform for Monocular 3D Object Detection ROI-10D: Monocular Lifting of 2D Detection to 6D Pose and Metric Shape M3D-RPN: Monocular 3D Region Proposal Network for Object Detection MoVi-3D:Towards Generalization Across Depth for Monocular 3D Object Detection AM3D:Accurate Monocular Object Detection via Color-Embedded 3D Reconstruction for Autonomous Driving RefinedMPL: Refined Monocular PseudoLiDAR for 3D Object Detection in Autonomous Driving MonoGRNet: A Geometric Reasoning Network for Monocular 3D Object Localization MonoPSR: Monocular 3D Object Detection Leveraging Accurate Proposals and Shape Reconstruction RTM3D: Real-time Monocular 3D Detection from Object Keypoints for Autonomous Driving Learning Depth-Guided Convolutions for Monocular 3D Object Detection Kinematic 3D Object Detection in Monocular Video

confidential Mobility Technologies Co., Ltd. 関連スライド、参考サイト 49 ・関連スライド 3D Perception
for Autonomous Driving - Datasets and Algorithms ・参考サイト Monocular 3D Object Detection in Autonomous Driving — A Review

Survey:Monocular 3D Object Detection

Survey:Monocular 3D Object Detection

Other Decks in Research

Featured

Transcript