Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Survey:Monocular 3D Object Detection

sasakits
February 26, 2021

Survey:Monocular 3D Object Detection

Survey:Monocular 3D Object Detection

sasakits

February 26, 2021
Tweet

Other Decks in Research

Transcript

  1. confidential Mobility Technologies Co., Ltd. Tatsuya Sasaki AI Research Engineer

    at Mobility Technologies / DeNA AI R&D Group 2 Previous Job: AI Research Engineer at Konica Minolta Education: NAIST Information Science (Master’s degree) Self-Introduction 2
  2. confidential Mobility Technologies Co., Ltd. 三次元物体検出の論文数推移 6 2Dを含むobject detection全体は 論文投稿数が非常に多いが

    三次元物体検出は意外と論文数 が少なく単眼(Mono)だと更にグン と減る →まだまだ論文が少ない領域 2020/11/13にarxivの検索機能でキーワード毎に年別のヒット件数を調査
  3. confidential Mobility Technologies Co., Ltd. Camera 三次元物体検出全体 7 Stereo 3次元

    物体検出 Camera+ LiDAR Point Cloud Monocular 三次元物体検出は入力形式等 によりいくつかカテゴリが存在 ・LiDAR有り/無し ・Mono/Stereo 等
  4. confidential Mobility Technologies Co., Ltd. ・データセット KITTI 3D Object Detection

    Evaluation 2017 がベンチマークの標準   (上記以外の3D Object Detection Datasetは以下slideが詳しい)    3D Perception for Autonomous Driving - Datasets and Algorithms ・評価方法: 3D BBOX (AP) ・IoUの閾値:  0.7 ・難易度:以下の3種類  easy   : 最小BBoxの高さ 40px、オクルージョン なし  moderate : 最小BBoxの高さ 25px、オクルージョン あり  (部分的に隠れている )  hard   : 最小BBoxの高さ 25px、オクルージョン あり  (大部分が隠れている ) 三次元物体検出のベンチマークデータセットおよび評価指標 11
  5. confidential Mobility Technologies Co., Ltd. KITTI metrics 2D BBOX ・overlap

    on image (AP) ・oriented overlap on image (AOS) BEV BBOX ・overlap on ground-plane (AP) ・oriented overlap on ground-plane (AHS) 3D BBOX ・overlap in 3D (AP) ・oriented overlap in 3D (3D AHS) <IoU> <Orientation>
  6. confidential Mobility Technologies Co., Ltd. ・AOS ・AHS:  ・AOSをBEVで計算したもの AOSとAHS (r):recall

    ∆(i)θ:推定値とground truthとの角度差 δ:過検出に対するペナルティ項   割り当てるground truthがある時は1、ない時は0
  7. confidential Mobility Technologies Co., Ltd. 評価条件のばらつきと統一 論文ごとに揺らいでいる 評価条件 KITTIの指定 本サーベイでの

    ベンチマーク条件 評価セット test or val test test 評価方法 3D BBOX or BEV (or AHS) - それぞれ独立したものとして存在 3D BBOX (比較時の分かりやすさを優先し3D BBOXに限定) IoU 0.5 or 0.7 0.7 0.7 AP interpolate R11 or R40 (初期は11点補間が主流だったが最近は 40が主流) R40 R40 対象クラス Single or Multi (Car onlyかそれ以外のクラスも含むかどうか ) - multi 難易度 easy or moderate or hard - 全パターン報告が通例になっている easy (比較時の分かりやすさを優先しeasyに限定) ・単眼3次元物体検出は、論文毎に評価条件がばらついており統一されていなかったため、  本調査では、視覚的に性能を比較できるように以下の条件で SoTAのグラフを新たに作成
  8. confidential Mobility Technologies Co., Ltd. 単眼三次元物体検出はアプローチの違いで以下4つに分類できる* 1. Representation transformation (BEV,

    pseudo-lidar) 2. Key points and Shapes 3. Distance estimation through 2D/3D constraints 4. Direct Generation of 3D proposal Surveyでは上記4つのカテゴリからそれぞれ代表的な論文を2~5本程度紹介 単眼三次元物体検出のカテゴリ 17 *source
  9. confidential Mobility Technologies Co., Ltd. ・課題意識:より良い損失関数の設計のため、 2d bbox, orientation, scaleの推定を3次元空間にliftingする

    ・提案手法:二次元物体検出を行った後、 RoIAlignし各領域の局所化された特徴を抽出する。二次元検出のため のResNet-FPNアーキテクチャと単眼深度予測ネットワークを用いて入力画像を処理する。予測された関心領域 (RoI)を使用して、3Dバウンディングボックスを回帰して推定する前に、 RoIAlign操作を介してResNet-FPNとデプス ネットワークから特徴マップを抽出する。単眼データから絶対移動量等の情報を予測することは困難だがグロー バルな深度情報を予測することを目的としたネットワークは全体を活用することで対応。 ROI-10D: Monocular Lifting of 2D Detection to 6D Pose and Metric Shape [CVPR2019]
  10. confidential Mobility Technologies Co., Ltd. ・課題意識:従来手法の構成では、 2次元物体検出や深度推定といった 3次元物体検出のためサブネットワーク が存在していたが、これらのアプローチではサブネットワークの性能が全体性能のボトルネックになっていた。 ・提案手法:各2Dアンカーの3D平均統計量を事前計算することで

    2Dと3Dのbboxパラメータを同時にリグレッ ションする。また、独自アイデアとして、 depth-aware convolutionという形で特徴マップを縦方向に分割し、それ ぞれ異なるカーネルで学習しており、これにより depthに応じた特徴抽出が可能 M3D-RPN: Monocular 3D Region Proposal Network for Object Detection[ICCV2019] 25
  11. confidential Mobility Technologies Co., Ltd. MoVi-3D:Towards Generalization Across Depth for

    Monocular 3D Object Detection (ECCV 2020, from Mapillary Research et al) ・課題意識:物体の大きさはカメラからの距離に大きく依存するため、単眼の 3次元物体検出では距離が大きく なるにつれて検出の複雑さが増す。 ・提案手法:上記受け、元の画像に対して検出を行う代わりに、仮想画像に対して検出を行うアプローチを提 案。提案手法による仮想画像は、元の画像をトリミングして拡大縮小したものとなるため、別の深度で撮影され たかのようにオブジェクトのスケールを維持できるようになる。 27
  12. confidential Mobility Technologies Co., Ltd. MoVi-3D:Towards Generalization Across Depth for

    Monocular 3D Object Detection (ECCV 2020, from Mapillary Research et al) ・手法詳細:仮装画像作成は、幾何学的な事前知識を用いて奥行きによるスケールのばらつきを考慮した画像 変換を行う。各変換は、メートル単位でいくつかの前置サイズを有する空間内の予め定義された 3D view portが 検出されるべき物体の前に理想的に配置される画像平面に平行な 2d windowに紐づいており、予め定められた 解像度に適合するようにスケーリングされた仮想画像を提供する。 ・論文名の由来は、Monocular 3D object detection,---略--- by exploiting Virtual views. 28
  13. confidential Mobility Technologies Co., Ltd. ・課題意識:Pseudo-LiDARの課題として、点密度が実際よりも高くなりすぎるというものがあり (具体的には実際の LiDAR点群よりも一桁程度高い )、これが精度劣化と計算量の増加に繋がっていた。 ・提案手法:本論文では前景点を特定してから

    sparcificationを行うことでこの問題に対応した。具体的には、前 景 点を教師ありと教師なしの 2つのアプローチで識別し、 2次元物体検出器を訓練し 2次元bboxマスクの和を前景マ スクとして使用して背景点を除去する。その後、 LoGでキーポイントを検出し最近傍を前景点として使用。 RefinedMPL: Refined Monocular PseudoLiDAR for 3D Object Detection in Autonomous Driving 32 top:baseline, middle:unsupervised, bottom:supervised
  14. confidential Mobility Technologies Co., Ltd. ・課題意識:ピクセルレベルの深度推定は、設計上、物体の定位に焦点を当てていない。本研究では、単眼画 像のRGBデータのみを用いて解くことが可能な複数のサブタスクに分離する。 ・提案手法:2次元画像のセマンティクスの認識および 3次元空間での幾何学的推論を行うインスタンスレベル深 度推定モジュールを提案。このモジュールは、深い特徴量マップの大きな受容領域を探索して粗いインスタンス

    深度を捕捉し、より高い解像度の初期特徴量を組み合わせる。これらのコンポーネントは、 3次元推論分岐を持 つエンドツーエンドネットワークに統合され、グローバルコンテキストにおける 3次元バウンディングボックスの不 一致を最小化する損失関数として表現する。 MonoGRNet: A Geometric Reasoning Network for Monocular 3D Object Localization 35
  15. confidential Mobility Technologies Co., Ltd. MonoPSR: Monocular 3D Object Detection

    Leveraging Accurate Proposals and Shape Reconstruction ・課題意識:形状/ポーズ推定にCADモデルにマッチングさせるタイプの既存手法は、学習に利用可能な情報を 十分に活用していない。具体的には、 3Dラベルを作成するため実施する LiDARスキャンによる深度マップが利用 可能であるが、深度情報は学習に取り入れているにも関わらず 2D BBOXから得られるPriorを利用していない。 ・手法概要:まず3D BBOXを生成し、オブジェクトの局所的な点群を再構成する。セントロイドを提案する段階で は、2D BBOXの高さと3Dオブジェクトの高さを利用して奥行きを推定し、推定された奥行きで 2D BBOXの中心を3D 空間に再投影する。再構成ブランチは、対象物の局所的な点群を回帰し、点群および GTと比較する。インスタン ス中心のフォーカスにより深度推定の精度を向上させた。 38
  16. confidential Mobility Technologies Co., Ltd. 40 ・課題意識:通常の3DODが4隅の頂点を回帰するのに対し本手法ではキーポイント 8つの頂点+中心で9点で回 帰する。9点新たに付け直す訳ではなく既にある 4点から計算して9点を算出する。アーキテクチャは

    CenterNet ベース。 ・提案手法:本手法では、距離、向き、サイズを直接回帰させており、これらの値を使って直接キューボイドを形 成するのではなく、オフラインオプティマイザを初期化して 3D bboxを生成する際の初期値として利用。これによ り、初のリアルタイム単眼 3D物体検出アルゴリズムであると主張 (0.055秒/frame 程度の性能) RTM3D: Real-time Monocular 3D Detection from Object Keypoints for Autonomous Driving[ECCV 2020]
  17. confidential Mobility Technologies Co., Ltd. Learning Depth-Guided Convolutions for Monocular

    3D Object Detection[CVPR 2020] 43 ・課題意識:2D畳み込みは3D物体検出に不可欠な局所物体とそのスケール情報を捉えることができない ・提案手法:3D構造をより良く表現するために、擬似 LiDAR表現を用いる代わりに、新しい局所畳み込みネット ワーク(Depth-guided Dynamic-Depthwis-Dilated LCN (D4LCN))提案。より具体的には、 depth-mapを入力とした Filter generation networkを別途特徴量抽出と別に用意し、 depth-mapを入力とした情報をguideとして使って3D Detのための各情報を推論
  18. confidential Mobility Technologies Co., Ltd. Kinematic 3D Object Detection in

    Monocular Video [ECCV 2020] 45 ・課題意識:時系列を入力とした 3次元物体検出は提案されていない。しかし、物理的な動きを適切にモデル化 しないと、時間の経過に伴う向きや定位の不自然な変化により上手く機能しない可能性が高い。 ・提案手法:3Dカルマンフィルタを用いた運動制約として向きを軸・方位・オフセットに沿って再構成する self-balancingを取る損失関数を提案することでカルマンフィルタがより効果的に動作するようにした。具体的に は、オブジェクトの立方体、方向、速度を含む包括的な 3Dシーン理解に向けて不確実性、自車の運動量を考 慮。 ・時系列情報を加味した 3DOD ・3Dカルマンフィルタを利用 ・損失関数として self-balancing lossを提案
  19. confidential Mobility Technologies Co., Ltd. 論文一覧 48 ・論文一覧 Orthographic Feature

    Transform for Monocular 3D Object Detection ROI-10D: Monocular Lifting of 2D Detection to 6D Pose and Metric Shape M3D-RPN: Monocular 3D Region Proposal Network for Object Detection MoVi-3D:Towards Generalization Across Depth for Monocular 3D Object Detection AM3D:Accurate Monocular Object Detection via Color-Embedded 3D Reconstruction for Autonomous Driving RefinedMPL: Refined Monocular PseudoLiDAR for 3D Object Detection in Autonomous Driving MonoGRNet: A Geometric Reasoning Network for Monocular 3D Object Localization MonoPSR: Monocular 3D Object Detection Leveraging Accurate Proposals and Shape Reconstruction RTM3D: Real-time Monocular 3D Detection from Object Keypoints for Autonomous Driving Learning Depth-Guided Convolutions for Monocular 3D Object Detection Kinematic 3D Object Detection in Monocular Video
  20. confidential Mobility Technologies Co., Ltd. 関連スライド、参考サイト 49 ・関連スライド 3D Perception

    for Autonomous Driving - Datasets and Algorithms ・参考サイト Monocular 3D Object Detection in Autonomous Driving — A Review