Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Survey:Monocular 3D Object Detection

0afa0fa8da68232aa74f9566e01a36bf?s=47 sasakits
February 26, 2021

Survey:Monocular 3D Object Detection

Survey:Monocular 3D Object Detection

0afa0fa8da68232aa74f9566e01a36bf?s=128

sasakits

February 26, 2021
Tweet

Transcript

  1. confidential Mobility Technologies Co., Ltd. Monocular 3D Object Detection: Survey

  2. confidential Mobility Technologies Co., Ltd. Tatsuya Sasaki AI Research Engineer

    at Mobility Technologies / DeNA AI R&D Group 2 Previous Job: AI Research Engineer at Konica Minolta Education: NAIST Information Science (Master’s degree) Self-Introduction 2
  3. confidential Mobility Technologies Co., Ltd. 3 1 Introduction Agenda 2 Survey 3 Appendix

  4. confidential Mobility Technologies Co., Ltd. 三次元物体検出アプリケーション例 : 自動運転 4 source

  5. confidential Mobility Technologies Co., Ltd. 三次元物体検出アプリケーション例 : AR/VR 5 source

  6. confidential Mobility Technologies Co., Ltd. 三次元物体検出の論文数推移 6 2Dを含むobject detection全体は 論文投稿数が非常に多いが

    三次元物体検出は意外と論文数 が少なく単眼(Mono)だと更にグン と減る →まだまだ論文が少ない領域 2020/11/13にarxivの検索機能でキーワード毎に年別のヒット件数を調査
  7. confidential Mobility Technologies Co., Ltd. Camera 三次元物体検出全体 7 Stereo 3次元

    物体検出 Camera+ LiDAR Point Cloud Monocular 三次元物体検出は入力形式等 によりいくつかカテゴリが存在 ・LiDAR有り/無し ・Mono/Stereo 等
  8. confidential Mobility Technologies Co., Ltd. 単眼三次元物体検出の問題設定 8 他方、リソースが限られている状況での自動運転やAR/VRといったアプリケーションに向けて の3D物体検出を導入したいと考える企業にとって魅力的なアプローチとして注目を集めてい る

    source
  9. confidential Mobility Technologies Co., Ltd. 単眼三次元物体検出の問題設定 単眼三次元物体検出は、RGB画像から3D BBoxを予測する。が、 RGB画像では、奥行き情報が失われているため不良設定問題といえ、単眼3D物体検出は、 高難易度のタスクである。このため、LiDARありの場合の性能と比べると、

    AP(Average Precision)で60%以上もの開きがある* 9 source *source
  10. confidential Mobility Technologies Co., Ltd. 単眼三次元物体検出における性能評価 ・二次元の物体検出と同様にIoUを用いる ・基本的には平面で計算していたIoUを立体で計算することになる  ・2Dと3Dの差分で考慮すべき点としては回転が生じる  ・KITTIの場合yaw軸回転、つまり、方向のみ考慮するが、

      方向の誤差はBBOXのIoUとは別の指標で評価される  →次スライドでKITTIのmetricsの全体と3DのIoUの関係を示す
  11. confidential Mobility Technologies Co., Ltd. ・データセット KITTI 3D Object Detection

    Evaluation 2017 がベンチマークの標準   (上記以外の3D Object Detection Datasetは以下slideが詳しい)    3D Perception for Autonomous Driving - Datasets and Algorithms ・評価方法: 3D BBOX (AP) ・IoUの閾値:  0.7 ・難易度:以下の3種類  easy   : 最小BBoxの高さ 40px、オクルージョン なし  moderate : 最小BBoxの高さ 25px、オクルージョン あり  (部分的に隠れている )  hard   : 最小BBoxの高さ 25px、オクルージョン あり  (大部分が隠れている ) 三次元物体検出のベンチマークデータセットおよび評価指標 11
  12. confidential Mobility Technologies Co., Ltd. KITTI metrics 2D BBOX ・overlap

    on image (AP) ・oriented overlap on image (AOS) BEV BBOX ・overlap on ground-plane (AP) ・oriented overlap on ground-plane (AHS) 3D BBOX ・overlap in 3D (AP) ・oriented overlap in 3D (3D AHS) <IoU> <Orientation>
  13. confidential Mobility Technologies Co., Ltd. ・AOS ・AHS:  ・AOSをBEVで計算したもの AOSとAHS (r):recall

    ∆(i)θ:推定値とground truthとの角度差 δ:過検出に対するペナルティ項   割り当てるground truthがある時は1、ない時は0
  14. confidential Mobility Technologies Co., Ltd. 評価条件のばらつきと統一 論文ごとに揺らいでいる 評価条件 KITTIの指定 本サーベイでの

    ベンチマーク条件 評価セット test or val test test 評価方法 3D BBOX or BEV (or AHS) - それぞれ独立したものとして存在 3D BBOX (比較時の分かりやすさを優先し3D BBOXに限定) IoU 0.5 or 0.7 0.7 0.7 AP interpolate R11 or R40 (初期は11点補間が主流だったが最近は 40が主流) R40 R40 対象クラス Single or Multi (Car onlyかそれ以外のクラスも含むかどうか ) - multi 難易度 easy or moderate or hard - 全パターン報告が通例になっている easy (比較時の分かりやすさを優先しeasyに限定) ・単眼3次元物体検出は、論文毎に評価条件がばらついており統一されていなかったため、  本調査では、視覚的に性能を比較できるように以下の条件で SoTAのグラフを新たに作成
  15. 単眼三次元物体検出のSoTA遷移グラフ ・SoTAの更新を実線で、それ以外の論文は点で表現 ・但し、トップカンファレンス論文はSoTA更新でなくても論文名を表記 (全論文表記版はAppendixに記載) ・縦軸: AP, 横軸: publish date

  16. confidential Mobility Technologies Co., Ltd. 16 1 Introduction Agenda 2 Survey 3 Appendix

  17. confidential Mobility Technologies Co., Ltd. 単眼三次元物体検出はアプローチの違いで以下4つに分類できる* 1. Representation transformation (BEV,

    pseudo-lidar) 2. Key points and Shapes 3. Distance estimation through 2D/3D constraints 4. Direct Generation of 3D proposal Surveyでは上記4つのカテゴリからそれぞれ代表的な論文を2~5本程度紹介 単眼三次元物体検出のカテゴリ 17 *source
  18. confidential Mobility Technologies Co., Ltd. 前ページで引用したカテゴリ毎に過去から現在にかけて時系列順で以下を紹介 ・SoTAを更新した論文 ・トップカンファレンス採択論文 (論文スライドの図は論文中から引用) 論文紹介の順番

  19. ネットワークへの入力となるものの表現方法を変えることで精度を向上させるアプローチ 具体的には、BEV(鳥瞰図)への変換やPseudo-LiDAR(深度マップを点群に変換した擬 似的LiDAR)への変換が挙げられる。他方、Pseudo-LiDARに関しては最新の論文は MonoではなくStereoが多い傾向がある 1. Representation transformation (BEV, pseudo-lidar) 19

  20. 単眼三次元物体検出のSoTA遷移グラフ ・SoTAの更新を実線で、それ以外の論文は点で表現 ・但し、トップカンファレンス論文はSoTA更新でなくても論文名を表記 (全論文表記版はAppendixに記載) ・縦軸: AP, 横軸: publish date

  21. confidential Mobility Technologies Co., Ltd. ・課題意識:3次元空間の特徴マップを用いて物体検出をしようとすると計算量が膨大になる ・提案手法:画像空間ではなく実空間に対応する特徴マップを入力とするため、カメラから遠い物体をカメラから 近い物体と同様に扱い、 3D空間における特徴マップを Orthographic

    space(正投影空間)に変換(3次元の特徴 マップを高さ方向で圧縮して 2次元にマッピング)することで計算量の削減に成功。 Orthographic Feature Transform for Monocular 3D Object Detection 21
  22. 単眼三次元物体検出のSoTA遷移グラフ ・SoTAの更新を実線で、それ以外の論文は点で表現 ・但し、トップカンファレンス論文はSoTA更新でなくても論文名を表記 (全論文表記版はAppendixに記載) ・縦軸: AP, 横軸: publish date

  23. confidential Mobility Technologies Co., Ltd. ・課題意識:より良い損失関数の設計のため、 2d bbox, orientation, scaleの推定を3次元空間にliftingする

    ・提案手法:二次元物体検出を行った後、 RoIAlignし各領域の局所化された特徴を抽出する。二次元検出のため のResNet-FPNアーキテクチャと単眼深度予測ネットワークを用いて入力画像を処理する。予測された関心領域 (RoI)を使用して、3Dバウンディングボックスを回帰して推定する前に、 RoIAlign操作を介してResNet-FPNとデプス ネットワークから特徴マップを抽出する。単眼データから絶対移動量等の情報を予測することは困難だがグロー バルな深度情報を予測することを目的としたネットワークは全体を活用することで対応。 ROI-10D: Monocular Lifting of 2D Detection to 6D Pose and Metric Shape [CVPR2019]
  24. 単眼三次元物体検出のSoTA遷移グラフ ・SoTAの更新を実線で、それ以外の論文は点で表現 ・但し、トップカンファレンス論文はSoTA更新でなくても論文名を表記 (全論文表記版はAppendixに記載) ・縦軸: AP, 横軸: publish date

  25. confidential Mobility Technologies Co., Ltd. ・課題意識:従来手法の構成では、 2次元物体検出や深度推定といった 3次元物体検出のためサブネットワーク が存在していたが、これらのアプローチではサブネットワークの性能が全体性能のボトルネックになっていた。 ・提案手法:各2Dアンカーの3D平均統計量を事前計算することで

    2Dと3Dのbboxパラメータを同時にリグレッ ションする。また、独自アイデアとして、 depth-aware convolutionという形で特徴マップを縦方向に分割し、それ ぞれ異なるカーネルで学習しており、これにより depthに応じた特徴抽出が可能 M3D-RPN: Monocular 3D Region Proposal Network for Object Detection[ICCV2019] 25
  26. 単眼三次元物体検出のSoTA遷移グラフ ・SoTAの更新を実線で、それ以外の論文は点で表現 ・但し、トップカンファレンス論文はSoTA更新でなくても論文名を表記 (全論文表記版はAppendixに記載) ・縦軸: AP, 横軸: publish date

  27. confidential Mobility Technologies Co., Ltd. MoVi-3D:Towards Generalization Across Depth for

    Monocular 3D Object Detection (ECCV 2020, from Mapillary Research et al) ・課題意識:物体の大きさはカメラからの距離に大きく依存するため、単眼の 3次元物体検出では距離が大きく なるにつれて検出の複雑さが増す。 ・提案手法:上記受け、元の画像に対して検出を行う代わりに、仮想画像に対して検出を行うアプローチを提 案。提案手法による仮想画像は、元の画像をトリミングして拡大縮小したものとなるため、別の深度で撮影され たかのようにオブジェクトのスケールを維持できるようになる。 27
  28. confidential Mobility Technologies Co., Ltd. MoVi-3D:Towards Generalization Across Depth for

    Monocular 3D Object Detection (ECCV 2020, from Mapillary Research et al) ・手法詳細:仮装画像作成は、幾何学的な事前知識を用いて奥行きによるスケールのばらつきを考慮した画像 変換を行う。各変換は、メートル単位でいくつかの前置サイズを有する空間内の予め定義された 3D view portが 検出されるべき物体の前に理想的に配置される画像平面に平行な 2d windowに紐づいており、予め定められた 解像度に適合するようにスケーリングされた仮想画像を提供する。 ・論文名の由来は、Monocular 3D object detection,---略--- by exploiting Virtual views. 28
  29. 単眼三次元物体検出のSoTA遷移グラフ ・SoTAの更新を実線で、それ以外の論文は点で表現 ・但し、トップカンファレンス論文はSoTA更新でなくても論文名を表記 (全論文表記版はAppendixに記載) ・縦軸: AP, 横軸: publish date

  30. confidential Mobility Technologies Co., Ltd. ・課題意識:単眼物体検出が難しいのは、単眼画像の情報の表現方法が LiDARやdepthと比べて不適切である ためであるとして、3次元物体検出を行うネットワークへの入力として単眼画像は使わず、単眼画像からから得 られる深度情報と候補矩形を使った変換後のデータを用いている。 ・提案手法:具体的には、単眼画像からから得られる深度情報と候補矩形から点群情報を作り出し、作り出した

    点群情報に対してセグメンテーションを行う。この結果を Det-Netと呼ぶPointNet等の点群を入力とした物体検 出で用いられるアーキテクチャをベースとしたネットワークに与える形で学習する。 AM3D:Accurate Monocular Object Detection via Color-Embedded 3D Reconstruction for Autonomous Driving
  31. 単眼三次元物体検出のSoTA遷移グラフ ・SoTAの更新を実線で、それ以外の論文は点で表現 ・但し、トップカンファレンス論文はSoTA更新でなくても論文名を表記 (全論文表記版はAppendixに記載) ・縦軸: AP, 横軸: publish date

  32. confidential Mobility Technologies Co., Ltd. ・課題意識:Pseudo-LiDARの課題として、点密度が実際よりも高くなりすぎるというものがあり (具体的には実際の LiDAR点群よりも一桁程度高い )、これが精度劣化と計算量の増加に繋がっていた。 ・提案手法:本論文では前景点を特定してから

    sparcificationを行うことでこの問題に対応した。具体的には、前 景 点を教師ありと教師なしの 2つのアプローチで識別し、 2次元物体検出器を訓練し 2次元bboxマスクの和を前景マ スクとして使用して背景点を除去する。その後、 LoGでキーポイントを検出し最近傍を前景点として使用。 RefinedMPL: Refined Monocular PseudoLiDAR for 3D Object Detection in Autonomous Driving 32 top:baseline, middle:unsupervised, bottom:supervised
  33. 車両の一部をランドマーク/キーポイントとして使用し車両までの距離を推定し3DBBox として検出。 これらの研究の多くはキーポイントを予測するために2D物体検出の代表的な手法 (YOLOやRetinaNet等1ステージあるいはFaster RCNNのような2ステージ手法)を拡 張。 2. Key points and

    Shapes 33
  34. 単眼三次元物体検出のSoTA遷移グラフ ・SoTAの更新を実線で、それ以外の論文は点で表現 ・但し、トップカンファレンス論文はSoTA更新でなくても論文名を表記 (全論文表記版はAppendixに記載) ・縦軸: AP, 横軸: publish date

  35. confidential Mobility Technologies Co., Ltd. ・課題意識:ピクセルレベルの深度推定は、設計上、物体の定位に焦点を当てていない。本研究では、単眼画 像のRGBデータのみを用いて解くことが可能な複数のサブタスクに分離する。 ・提案手法:2次元画像のセマンティクスの認識および 3次元空間での幾何学的推論を行うインスタンスレベル深 度推定モジュールを提案。このモジュールは、深い特徴量マップの大きな受容領域を探索して粗いインスタンス

    深度を捕捉し、より高い解像度の初期特徴量を組み合わせる。これらのコンポーネントは、 3次元推論分岐を持 つエンドツーエンドネットワークに統合され、グローバルコンテキストにおける 3次元バウンディングボックスの不 一致を最小化する損失関数として表現する。 MonoGRNet: A Geometric Reasoning Network for Monocular 3D Object Localization 35
  36. 2D/3Dの整合性を活用して2Dを3Dにリフトアップするアプローチで、これらの手法は幾 何学的制約を利用して2次元のBBoxを3次元にリフトアップすることで3次元位置を求め るための最適化問題を解く。 3. Distance estimation through 2D/3D constraints 36

  37. 単眼三次元物体検出のSoTA遷移グラフ ・SoTAの更新を実線で、それ以外の論文は点で表現 ・但し、トップカンファレンス論文はSoTA更新でなくても論文名を表記 (全論文表記版はAppendixに記載) ・縦軸: AP, 横軸: publish date

  38. confidential Mobility Technologies Co., Ltd. MonoPSR: Monocular 3D Object Detection

    Leveraging Accurate Proposals and Shape Reconstruction ・課題意識:形状/ポーズ推定にCADモデルにマッチングさせるタイプの既存手法は、学習に利用可能な情報を 十分に活用していない。具体的には、 3Dラベルを作成するため実施する LiDARスキャンによる深度マップが利用 可能であるが、深度情報は学習に取り入れているにも関わらず 2D BBOXから得られるPriorを利用していない。 ・手法概要:まず3D BBOXを生成し、オブジェクトの局所的な点群を再構成する。セントロイドを提案する段階で は、2D BBOXの高さと3Dオブジェクトの高さを利用して奥行きを推定し、推定された奥行きで 2D BBOXの中心を3D 空間に再投影する。再構成ブランチは、対象物の局所的な点群を回帰し、点群および GTと比較する。インスタン ス中心のフォーカスにより深度推定の精度を向上させた。 38
  39. 単眼三次元物体検出のSoTA遷移グラフ ・SoTAの更新を実線で、それ以外の論文は点で表現 ・但し、トップカンファレンス論文はSoTA更新でなくても論文名を表記 (全論文表記版はAppendixに記載) ・縦軸: AP, 横軸: publish date

  40. confidential Mobility Technologies Co., Ltd. 40 ・課題意識:通常の3DODが4隅の頂点を回帰するのに対し本手法ではキーポイント 8つの頂点+中心で9点で回 帰する。9点新たに付け直す訳ではなく既にある 4点から計算して9点を算出する。アーキテクチャは

    CenterNet ベース。 ・提案手法:本手法では、距離、向き、サイズを直接回帰させており、これらの値を使って直接キューボイドを形 成するのではなく、オフラインオプティマイザを初期化して 3D bboxを生成する際の初期値として利用。これによ り、初のリアルタイム単眼 3D物体検出アルゴリズムであると主張 (0.055秒/frame 程度の性能) RTM3D: Real-time Monocular 3D Detection from Object Keypoints for Autonomous Driving[ECCV 2020]
  41. 直接3DBBoxを出力するアプローチ。より具体的にはRGB画像を入力としていくつかの 重要な要素(例えば車と地上との距離や車の形、出現位置)をパラメータとして扱うか、マ ルチタスクの枠組みで解き3DBBox出力を学習する。 4. Direct Generation of 3D proposal 41

  42. 単眼三次元物体検出のSoTA遷移グラフ ・SoTAの更新を実線で、それ以外の論文は点で表現 ・但し、トップカンファレンス論文はSoTA更新でなくても論文名を表記 (全論文表記版はAppendixに記載) ・縦軸: AP, 横軸: publish date

  43. confidential Mobility Technologies Co., Ltd. Learning Depth-Guided Convolutions for Monocular

    3D Object Detection[CVPR 2020] 43 ・課題意識:2D畳み込みは3D物体検出に不可欠な局所物体とそのスケール情報を捉えることができない ・提案手法:3D構造をより良く表現するために、擬似 LiDAR表現を用いる代わりに、新しい局所畳み込みネット ワーク(Depth-guided Dynamic-Depthwis-Dilated LCN (D4LCN))提案。より具体的には、 depth-mapを入力とした Filter generation networkを別途特徴量抽出と別に用意し、 depth-mapを入力とした情報をguideとして使って3D Detのための各情報を推論
  44. 単眼三次元物体検出のSoTA遷移グラフ ・SoTAの更新を実線で、それ以外の論文は点で表現 ・但し、トップカンファレンス論文はSoTA更新でなくても論文名を表記 (全論文表記版はAppendixに記載) ・縦軸: AP, 横軸: publish date

  45. confidential Mobility Technologies Co., Ltd. Kinematic 3D Object Detection in

    Monocular Video [ECCV 2020] 45 ・課題意識:時系列を入力とした 3次元物体検出は提案されていない。しかし、物理的な動きを適切にモデル化 しないと、時間の経過に伴う向きや定位の不自然な変化により上手く機能しない可能性が高い。 ・提案手法:3Dカルマンフィルタを用いた運動制約として向きを軸・方位・オフセットに沿って再構成する self-balancingを取る損失関数を提案することでカルマンフィルタがより効果的に動作するようにした。具体的に は、オブジェクトの立方体、方向、速度を含む包括的な 3Dシーン理解に向けて不確実性、自車の運動量を考 慮。 ・時系列情報を加味した 3DOD ・3Dカルマンフィルタを利用 ・損失関数として self-balancing lossを提案
  46. confidential Mobility Technologies Co., Ltd. ・論文ごとに揺れていた単眼3次元物体検出の評価指標を統一し、時間軸でSoTAを整理し、  アプローチタイプごとのSoTA更新論文及びTier-1論文を紹介。 ・単眼三次元物体検出論文の特徴  ・事前知識を活用することで失われた奥行き情報の推定を試みる論文が多い ・単眼三次元物体検出のトレンド

     ・アプローチとしてはend-to-endが増えてきている  ・その他、マルチタスクや時系列利用といった形で入力情報そのものを増やす論文が増加傾向 まとめ 46
  47. confidential Mobility Technologies Co., Ltd. 47 1 Introduction Agenda 2 Survey 3 Appendix

  48. confidential Mobility Technologies Co., Ltd. 論文一覧 48 ・論文一覧 Orthographic Feature

    Transform for Monocular 3D Object Detection ROI-10D: Monocular Lifting of 2D Detection to 6D Pose and Metric Shape M3D-RPN: Monocular 3D Region Proposal Network for Object Detection MoVi-3D:Towards Generalization Across Depth for Monocular 3D Object Detection AM3D:Accurate Monocular Object Detection via Color-Embedded 3D Reconstruction for Autonomous Driving RefinedMPL: Refined Monocular PseudoLiDAR for 3D Object Detection in Autonomous Driving MonoGRNet: A Geometric Reasoning Network for Monocular 3D Object Localization MonoPSR: Monocular 3D Object Detection Leveraging Accurate Proposals and Shape Reconstruction RTM3D: Real-time Monocular 3D Detection from Object Keypoints for Autonomous Driving Learning Depth-Guided Convolutions for Monocular 3D Object Detection Kinematic 3D Object Detection in Monocular Video
  49. confidential Mobility Technologies Co., Ltd. 関連スライド、参考サイト 49 ・関連スライド 3D Perception

    for Autonomous Driving - Datasets and Algorithms ・参考サイト Monocular 3D Object Detection in Autonomous Driving — A Review
  50. confidential 文章·画像等の内容の無断転載及び複製等の行為はご遠慮ください。 Mobility Technologies Co., Ltd.