Slide 1

Slide 1 text

Mobility Technologies Co., Ltd. AI技術共有会 Monocular 3D Object Detection @ CVPR2021 Takumi Karasawa 2021.07.01

Slide 2

Slide 2 text

Mobility Technologies Co., Ltd. 3 6/19~25 にオンラインで開催された CVPR 2021 に参加しました n ざっくり⽇本時間 10PM~7AM くらいの相変わらず厳しい時間帯... n 今年はマイページが⽤意され、全体的にサイト強化 n ORALは単なる称号化 CVPR2021

Slide 3

Slide 3 text

Mobility Technologies Co., Ltd. 4 “monocular” でひっかけた論⽂のうち、3D object detection の全8論⽂を紹介 タスクの課題感や最新⼿法の考え⽅など、お伝えできればと思います 紹介論⽂: n M3DSSD: Monocular 3D Single Stage Object Detector n Objects Are Different: Flexible Monocular 3D Object Detection n MonoRUn: Monocular 3D Object Detection by Reconstruction and Uncertainty Propagation n Depth-Conditioned Dynamic Message Propagation for Monocular 3D Object Detection n Categorical Depth Distribution Network for Monocular 3D Object Detection n Delving Into Localization Errors for Monocular 3D Object Detection n GrooMeD-NMS: Grouped Mathematically Differentiable NMS for Monocular 3D Object Detection n Monocular 3D Object Detection: An Extrinsic Parameter Free Approach CVPR2021 x Monocular 3D Object Detection

Slide 4

Slide 4 text

Mobility Technologies Co., Ltd. 5 n ⼊⼒:単眼画像、出⼒(各検出):位置 (𝑥, 𝑦, 𝑧)・サイズ (𝑙, ℎ, 𝑤)・向き 𝛼・カテゴリ c n KITTIベンチマーク評価対象カテゴリ:car, pedestrian, cyclist n “Monocular 3D Object Detection” というと、⾞載カメラでの撮影状況を想定することが多い n LiDARデータやステレオ画像に対して、単眼画像は明⽰的な深度情報が⽋けているため、 ⼀般的にLiDARベースの⼿法やステレオベースの⼿法に⽐べ精度が⼤きく落ちる Monocular 3D Object Detection 画像は後に紹介するMonoDLE論⽂より引⽤。KITTIデータセットへの推論例。

Slide 5

Slide 5 text

Mobility Technologies Co., Ltd. 論⽂紹介 6

Slide 6

Slide 6 text

Mobility Technologies Co., Ltd. 7 n M3DSSD: Monocular 3D Single Stage Object Detector n Objects Are Different: Flexible Monocular 3D Object Detection n MonoRUn: Monocular 3D Object Detection by Reconstruction and Uncertainty Propagation n Delving Into Localization Errors for Monocular 3D Object Detection n Depth-Conditioned Dynamic Message Propagation for Monocular 3D Object Detection n Categorical Depth Distribution Network for Monocular 3D Object Detection n GrooMeD-NMS: Grouped Mathematically Differentiable NMS for Monocular 3D Object Detection n Monocular 3D Object Detection: An Extrinsic Parameter Free Approach CVPR2021 x Monocular 3D Object Detection

Slide 7

Slide 7 text

Mobility Technologies Co., Ltd. 8 n M3DSSD: Monocular 3D Single Stage Object Detector n Objects Are Different: Flexible Monocular 3D Object Detection n MonoRUn: Monocular 3D Object Detection by Reconstruction and Uncertainty Propagation n Delving Into Localization Errors for Monocular 3D Object Detection n Depth-Conditioned Dynamic Message Propagation for Monocular 3D Object Detection n Categorical Depth Distribution Network for Monocular 3D Object Detection n GrooMeD-NMS: Grouped Mathematically Differentiable NMS for Monocular 3D Object Detection n Monocular 3D Object Detection: An Extrinsic Parameter Free Approach Monocular 3d object detectionは、やはり depth 予測への課題感が最も⼤きい LiDAR、ステレオベースの⼿法との精度差を埋めるため、 学習済み depth estimator を⽤いる⼿法や、学習時には depth データを⽤いる⼿法も多い CVPR2021 x Monocular 3D Object Detection w/ depth est./supv. ざっくり⼤別すると depth 予測への課題感に対する論⽂

Slide 8

Slide 8 text

Mobility Technologies Co., Ltd. 9 n M3DSSD: Monocular 3D Single Stage Object Detector n Objects Are Different: Flexible Monocular 3D Object Detection n MonoRUn: Monocular 3D Object Detection by Reconstruction and Uncertainty Propagation n Delving Into Localization Errors for Monocular 3D Object Detection n Depth-Conditioned Dynamic Message Propagation for Monocular 3D Object Detection n Categorical Depth Distribution Network for Monocular 3D Object Detection n GrooMeD-NMS: Grouped Mathematically Differentiable NMS for Monocular 3D Object Detection n Monocular 3D Object Detection: An Extrinsic Parameter Free Approach CVPR2021 x Monocular 3D Object Detection w/ depth est./supv.

Slide 9

Slide 9 text

Mobility Technologies Co., Ltd. “M3DSSD: Monocular 3D Single Stage Object Detector” Motivations: n 既存 anchor ベースの⼿法には2つの feature mismatching が存在することを指摘 n depth予測において、広範囲の関係性を考慮することが重要 Proposals: 2つの提案モジュールからなる M3DSSD n 2ステップの feature alignment モジュール(shape alignment, center alignment) n feature map全体の関係性を考慮する asymmetric non-local attention block (ANAB) 1. M3DSSD 10 M3DSSD 全体図

Slide 10

Slide 10 text

Mobility Technologies Co., Ltd. Two-step feature alignment: deformable convのようにカーネルにオフセットを適⽤ 1. shape alignment: anchor形状と特徴マップreceptive fieldの形状ズレ 2. center alignment: anchor/receptive field中⼼と物体中⼼のズレ Asymmetric Non-local Attention Block (ANAB): n Non-local Block (CVPRʼ18) [1]: non-local means filterを参考にした、特徴マップ全体のコンテクストを考慮するモジュール n Asymmetric Non-local Block (ICCVʼ19) [2]: key側のshapeを⼩さくし⾮対称にして効率化 n 論⽂中では、pyramid poolingとともに複数スケールで⽤いている n 単なる pyramid pooling では冗⻑と指摘し、Pyramid Average Pooling with Attention (PA2) 導⼊ 1. M3DSSD - proposals Non-local Block [1] ANB[2] shape alignment center alignment ANAB

Slide 11

Slide 11 text

Mobility Technologies Co., Ltd. Results: SOTA *全⼿法の結果サマリー最後に載せてます *KITTI, AP3D|R40, Carカテゴリ で⽐較することが⼀般的 *valは少しわからないとこあるので資料内はtestで統⼀ Ablation Study: *ablation studyはvalidation set 1. M3DSSD - results ANABの効果 Two-step shape alignment の効果 KITTI test set, “Car”, IoU=0.7

Slide 12

Slide 12 text

Mobility Technologies Co., Ltd. “Objects Are Different: Flexible Monocular 3D Object Detection” Motivations: n 既存⼿法は多様な物体を同⼀に扱ってしまっている、特にtruncated object は性質が異なる n depth 予測への課題感 Proposals: 2つの提案モジュールからなる MonoFlex n 明⽰的にtruncated objectを 区別するアーキテクチャ (Decoupled representation, Edge Fusion) n 異なる keypoints を使い分けた、 複数の depth 推定のアンサンブル (Adaptive Depth Ensemble) 2. MonoFlex

Slide 13

Slide 13 text

Mobility Technologies Co., Ltd. Decoupled representation n 3d box中⼼の投影した座標(𝑥! )の、画像の内外で物体を区別 n 外の物体は、2d box中⼼(𝑥" )と𝑥! との交点(𝑥# )を回帰 n また外の物体のみ、外れ値に強いlog-scale L1損失 Edge Fusion: n Feature mapの境界部分のみ取り出してconcat n 2つの conv1d を通して、元のfeature mapの境界部分にremapping Adaptive Depth Ensemble n 10 keypointsの定義:直⽅体 8 頂点+上⾯中⼼ + 底⾯中⼼ n depth が推定可能な3つのグループに分けてdepth推定 n 各モデルでuncertainty も併せて推定 n uncertainty で重み付けしてアンサンブル 2. MonoFlex - proposals Edge Fusion

Slide 14

Slide 14 text

Mobility Technologies Co., Ltd. Results: SOTA Ablation Study: 2. MonoFlex - results decoupled representation, edge fusionの効果 各 depth 推定器の精度と ensemble の効果 KITTI test set, “Car”, IoU=0.7

Slide 15

Slide 15 text

Mobility Technologies Co., Ltd. “MonoRUn: Monocular 3D Object Detection by Reconstruction and Uncertainty Propagation” Motivations: n 6DoF Pose 推定タスクでは、オブジェクトモデルを⽤いてPnP アルゴリズムで解決を図る⼿法 が localization における良い成果を残している n ただし全インスタンスについて正確なオブジェクトモデルを取得するのは難しい Proposals: オブジェクト幾何をself-supervisedに学習するMonoRUn n uncertainty予測を⽤いた、 reprojection errorにより self-supervisedを実現 n 外れ値に強い Robust KL lossの提案 n Uncertainty PnP により pose推定 3. MonoRUn 16

Slide 16

Slide 16 text

Mobility Technologies Co., Ltd. Self-Supervised Reconstruction Network n Normalized Object Coordinates (NOC) [3] と dimensions を予測 n NOC: 物体ごとに正規化された3D空間座標 n NOCと併せてuncertainty mapも予測 n GTのposeで再投影し、Robust KL Lossで学習 n dimensions は supervised で学習 n LiDARデータが使⽤可能な場合、NOC損失 3. MonoRUn - proposals NOC [3] 重みwは、LiDAR gt が利⽤可能かだけの意 Robust KL Loss 外れ値に強く、multi-taskの学習バランスのた めのnormalizeを加えた損失の提案 Uncertainty-driven PnP n 推論時は、uncertainty をもとにreprojection error(Mahalanobis distance)が最も⼩さく なるようposeを決定 ↓Huber lossの考え⽅の拡張 Gaussian KL loss Laplacian KL loss mixed KL loss Robust KL loss

Slide 17

Slide 17 text

Mobility Technologies Co., Ltd. Results: SOTA 3. MonoRUn - results 18 「*」はdepth estimator使⽤ Ablation Study LiDAR supv. 使うかどうか reprojection error の違い latent vector使うかどうか

Slide 18

Slide 18 text

Mobility Technologies Co., Ltd. “Delving Into Localization Errors for Monocular 3D Object Detection” Contributions & Proposals: n 各サブタスクのもたらす影響を定量化。localization error が最重要な問題であることを提⽰ n localization error に関する詳細解析を実施し、3つの改善を提案 1. 2d bounding box と 3d object の中⼼の misalignment の⾒直し 2. 既存技術では遠⽅の物体を正確にlocalizationすることは不可能で、それらはモデルに悪影響 を与えている。そのためそれらのサンプルを学習データから取り除く 3. 物体の⼤きさ推定のための、 localization error の影響を受けない IoU oriented loss の提案 4. MonoDLE ↑ 予測結果を⼀部 ground truth で置換 KITTI val, AP40, Car, Moderate

Slide 19

Slide 19 text

Mobility Technologies Co., Ltd. Revisiting Center Detection 1. coarse center は 2d box中⼼ではなく、3d boxを投影した中⼼に 2. 2d detection ブランチも特徴量の学習に必要なものとして保持 n SMOKEという⼿法では2d detection ブランチを不要として削除している Training Samples: 遠⽅物体の切り捨て IoU oriented loss for 3d size est. n IoU lossのように関係性を考慮した損失を⽤いたいが、localization errorが⼤きすぎる n size est.のみ関係性を考慮できるようにsize以外があっているものとして損失を取る 4. MonoDLE - proposals モデルの出⼒種類(CenterNet [4] より引⽤) hard (s=60) soft (c=60, T=1)

Slide 20

Slide 20 text

Mobility Technologies Co., Ltd. Results: SOTA Ablation Study n p: projected center使うかどうか n I: iou oriented lossにするかどうか n s: 遠⽅物体捨てるかどうか(hard ver.) 4. MonoDLE - results KITTI test set, “Car”, IoU=0.7 2d detectionをmulti-task learningするかどうか distant sampleの切り捨て⽅の違い

Slide 21

Slide 21 text

Mobility Technologies Co., Ltd. 22 n M3DSSD: Monocular 3D Single Stage Object Detector n Objects Are Different: Flexible Monocular 3D Object Detection n MonoRUn: Monocular 3D Object Detection by Reconstruction and Uncertainty Propagation n Delving Into Localization Errors for Monocular 3D Object Detection n Depth-Conditioned Dynamic Message Propagation for Monocular 3D Object Detection n Categorical Depth Distribution Network for Monocular 3D Object Detection n pseudo-LiDAR (CVPRʼ19) w/depth est. 論⽂として有名 n D4LCN (CVPRʼ20) CVPRʼ21でSOTAとして⽐較 CVPR2021 x Monocular 3D Object Detection w/ depth est./supv. depth estimator 3d object detector w/ depth est./supv.

Slide 22

Slide 22 text

Mobility Technologies Co., Ltd. Related work: pseudo-LiDAR 23 AVOD [7], F-POINTNET [8] ⼊⼒:LiDAR + Image KITTIセットに対する “car” カテゴリの結果 (AP_BEV/AP_3D) Mono: DORN [5], Stereo: PSMNet [6] LiDAR を 推論に使⽤ Depth Estimator 使⽤ “pseudo-LiDAR” representation の提案:LiDARベースの⼿法に持ち込む LiDAR 有無の違い: *この系列の論⽂はこれら⼆⼿法の使⽤が続く

Slide 23

Slide 23 text

Mobility Technologies Co., Ltd. Depth-guided Dynamic-Depthwise-Dilated Local Convolutional Network (D4LCN) の提案 n 直接 depth map を使⽤する pseudo-LiDARベースの⼿法は depth map の予測精度に⼤きく依存 すると指摘 n 推定された depth map を⼊⼒として、receptive field の異なる複数の最適なフィルタを⽣成す るネットワークを学習 Related work: D4LCN 24

Slide 24

Slide 24 text

Mobility Technologies Co., Ltd. “Depth-Conditioned Dynamic Message Propagation for Monocular 3D Object Detection” Motivations: n 物体のdepth予測において、広範囲の関係性を考慮することが重要(D4LCNでは不⼗分) n depth map の予測精度に⼤きく依存(D4LCNでは不正確性を解決する情報がない) Proposals: n depth-awareな特徴を学習する Depth-Conditioned Dynamic Message Propagation (DDMP) n depth map の不正確さを解決するため Center Depth Encoding (CDE) 補助タスクの導⼊ 5. DDMP 25 全体的にD4LCN⼿法への意識が強め

Slide 25

Slide 25 text

Mobility Technologies Co., Ltd. Depth-Conditioned Dynamic Message Propagation (DDMP) n “Dynamic Graph Message Passing Networks” (CVPRʼ20 oral) [9] n 特徴マップをグラフ構造で捉え、動的にサンプリング、フィルタ、アフィニティを⽣成 n 物体のコンテクスト情報を把捉 n depth 情報を元にコンテクストを把捉するよう拡張 Center Depth Encoding (CDE) 補助タスク n 3d center のみ予測(detectionブランチと同⼀GT) 5. DDMP - proposals 26 dynamic filter W dynamic affinity A DDMPモジュール Dynamic Message Propagation [9] *dynamic samplingは図中にない

Slide 26

Slide 26 text

Mobility Technologies Co., Ltd. Result: SOTA *depth情報使ってる系⼿法、extraデータ結果に記載しないがち Ablation study: 5. DDMP - results 27 KITTI test set, “Car”, IoU=0.7 学習済み Depth Estimatorの違い monocular stereo CDEタスクの違い DDMPマルチスケール、CDEの効果

Slide 27

Slide 27 text

Mobility Technologies Co., Ltd. “Categorical Depth Distribution Network for Monocular 3D Object Detection” Motivation: n depth map 推定器を⽤いる⼿法は、depth map の予測精度に⼤きく依存 n また depth 推定が 3d detectionと分離しているため detectionタスクに最適化されていない n BEV特徴表現を⽤いて depth情報を内部的に学習する⼿法はfeature smearingの問題 Proposals: 3つの⼯夫を取り⼊れた CaDDN n 信頼度を考慮できる Categorical Depth Distribution n End-to-End で depth 推定と 3d detectionを学習 n Categorical depth distribution を⽤いた BEV 特徴表現 6. CaDDN oral

Slide 28

Slide 28 text

Mobility Technologies Co., Ltd. Categorical Depth Distribution: n Focal loss [10] + separate fg/bg weights 背景に⽐べオブジェクト領域が⼩さいため 重みを別々に(fg: 3.25, bg: 0.25) n LID [11] (Linear Interval Discretization) *UD: uniform discretization 6. CaDDN - proposals oral Feature Transform: n Frustum Features: n Voxel Features: sampling w/ camera params 3D Object Detection: PointPillars [12]

Slide 29

Slide 29 text

Mobility Technologies Co., Ltd. Result: SOTA Ablation study: Categorical Depth Distribution Ablation study: End-to-End Training 6. CaDDN - results oral n D: depth network 使⽤するかどうか n 𝐿$%&'( : depthのground truth使⽤するかどうか n 𝛼)* : 背景と物体で重みを分けるかどうか n LID: 離散化の⽅法(LIDじゃない場合はUD) n BTS [13], DORN [5]: 学習済みmonocular depth estimator n Sep., Joint: 別々に/end-to-endで学習 n : depth distribution を全て使⽤するか KITTI test set, “Car”, IoU=0.7

Slide 30

Slide 30 text

Mobility Technologies Co., Ltd. 31 n M3DSSD: Monocular 3D Single Stage Object Detector n Objects Are Different: Flexible Monocular 3D Object Detection n MonoRUn: Monocular 3D Object Detection by Reconstruction and Uncertainty Propagation n Delving Into Localization Errors for Monocular 3D Object Detection n Depth-Conditioned Dynamic Message Propagation for Monocular 3D Object Detection n Categorical Depth Distribution Network for Monocular 3D Object Detection n GrooMeD-NMS: Grouped Mathematically Differentiable NMS for Monocular 3D Object Detection n Monocular 3D Object Detection: An Extrinsic Parameter Free Approach CVPR2021 x Monocular 3D Object Detection w/ depth est./supv.

Slide 31

Slide 31 text

Mobility Technologies Co., Ltd. “GrooMeD-NMS: Grouped Mathematically Differentiable NMS for Monocular 3D Object Detection” 7. GrooMeD-NMS 32 Motivations: n Detectionタスクにおける Non-Maximal Suppression (NMS) は、学習に組み込まれず推論時の み⾏われるため、学習したスコアとNMSのための適切なスコアにはミスマッチがある n また、classification score と localization scoreのミスマッチ n 特に 3D detection タスクは、2D detection タスクに⽐べそのミスマッチの影響が⼤きい Proposals: 微分可能な、すなわちend-to-endで学習可能な⽅法でベストな3D boxを選択するGrooMeD-NMS n NMSを⾏列演算で定義 n 教師なしで検出結果をグルーピング、 マスキングする⽅法を提案

Slide 32

Slide 32 text

Mobility Technologies Co., Ltd. 7. GrooMeD-NMS - proposals GrooMeD-NMS おおまかな流れ 1. soft sort [14] 2. Grouping & Masking: 重なりが IoU 閾値を超え るものをグルーピング 3. soft pruning (linear) Loss Functions: NMS前後のロスを合計して学習 n NMS後は、class imbalance に強い AP-loss[15] を改良した image-wise AP-loss を使⽤ NMS as Matrix Operation n 各予測スコアをs、prune⾏列をPとして再帰 を近似してrescoringを⾏列演算で定義 n Grouping & Maskingを含めると Mをマスキング⾏列として のため、 と定義できる、とのこと(↓イメージ図の意味) soft sort[11] ⌊ ⌉ はclipping box overlapの⾏列O↑

Slide 33

Slide 33 text

Mobility Technologies Co., Ltd. 7. GrooMeD-NMS - results 34 Results: SOTA Ablation Study: n C: Classical n S: Soft-NMS[15] n D: Distance-NMS[16] n G: GrooMeD-NMS KITTI test set, “Car”, IoU=0.7 Ablation Study: pruning function

Slide 34

Slide 34 text

Mobility Technologies Co., Ltd. “Monocular 3D Object Detection: An Extrinsic Parameter Free Approach” Motivations: 既存タスクでは、カメラ姿勢の情報を考慮しておらず(固定されたカメラ座標系が 想定されており)、実応⽤のことを⼗分に考えられていない n 実環境ではカメラ姿勢の微⼩な揺れの存在は⼀般的 n 既存の⼿法はそのズレの影響を受けやすくなってしまっている Proposals: 外部パラメータフリーな MonoEF n 消失点と⽔平⽅向を検出し、外部パラメータを予測 n 予測した外部パラメータを⽤いた feature transfer 8. MonoEF 35 Style transfer ⼿法の学習を⽤いた変換

Slide 35

Slide 35 text

Mobility Technologies Co., Ltd. Results: SOTA → unknown perturbation への有効性 *model構造関連の ablation study は特になし 8. MonoEF - results Ablation Study: ⼈⼯的なperturbationを加えて評価 n perturbation: pitch, roll ~ N(0,1) n 既存⼿法は精度が激しく落ちる “For the rest of the detailed… etc., please refer to the supplementary.” 👀?

Slide 36

Slide 36 text

Mobility Technologies Co., Ltd. 37 Summary KITTI test set, AP|R40, Car, IoU=0.7, sorted by Mod. in each block Method Easy Mod. Hard M3D-RPN ICCV’19 14.76 9.71 7.42 SMOKE CVPR’20 14.03 9.76 7.84 MonoPair CVPR’20 13.04 9.99 8.65 AM3D ICCV’19 w/ depth est. 16.50 10.74 9.52 D4LCN CVPR’20 w/ depth est. 16.65 11.72 9.51 Kinematic3D ECCV’20 4 frames 19.07 12.72 9.17 M3DSSD CVPR’21 17.51 11.46 8.98 MonoDLE CVPR’21 17.23 12.26 10.29 GrooMed-NMS CVPR’21 18.10 12.32 9.65 MonoEF CVPR’21 21.29 13.87 11.71 MonoFlex CVPR’21 19.94 13.89 12.07 (MonoRUn) CVPR’21 16.04 10.53 9.11 MonoRUn CVPR’21 w/ depth supv. 19.65 12.30 10.58 DDMP CVPR’21 w/ depth est. 19.71 12.78 9.80 CaDDN CVPR’21 w/ depth supv. 19.17 13.41 11.46

Slide 37

Slide 37 text

Mobility Technologies Co., Ltd. 38 1. M3DSSD: https://github.com/mumianyuxin/M3DSSD (empty) 2. MonoFlex: https://github.com/zhangyp15/MonoFlex (WIP) 3. MonoRUn: https://github.com/tjiiv-cprg/MonoRUn MMDetection&MMDetection3D ベース 4. MonoDLE: https://github.com/xinzhuma/monodle 5. DDMP: https://github.com/fudan-zvg/DDMP (empty) 6. CaDDN: https://github.com/TRAILab/CaDDN OpenPDDetレポジトリベース 7. Groomed-NMS: https://github.com/abhi1kumar/groomed_nms Kinematic3D レポジトリベース 8. MonoEF: https://github.com/ZhouYunsong-SJTU/MonoEF (empty) Repositories

Slide 38

Slide 38 text

Mobility Technologies Co., Ltd. 39 1. M3DSSD “M3DSSD: Monocular 3D Single Stage Object Detector.”, S. Luo et. al., CVPR2021 2. MonoFlex “Objects Are Different: Flexible Monocular 3D Object Detection.”, Y. Zhang et. al., CVPR2021 3. MonoRUn “MonoRUn: Monocular 3D Object Detection by Reconstruction and Uncertainty Propagation.”, H. Cheng et. al., CVPR2021 4. MonoDLE “Delving Into Localization Errors for Monocular 3D Object Detection.”, X. Ma et. al., CVPR2021 5. DDMP “Depth-Conditioned Dynamic Message Propagation for Monocular 3D Object Detection.”, L. Wang et. al., CVPR2021 6. CaDDN “Categorical Depth Distribution Network for Monocular 3D Object Detection.”, C. Reading et. al., CVPR2021 7. GrooMeD-NMS “GrooMeD-NMS: Grouped Mathematically Differentiable NMS for Monocular 3D Object Detection.”, A. Kumar et. al., CVPR2021 8. MonoEF “Monocular 3D Object Detection: An Extrinsic Parameter Free Approach.”, Y. Zhou et. al., CVPR2021 References: CVPRʼ21 papers

Slide 39

Slide 39 text

Mobility Technologies Co., Ltd. 40 n pseudo-LiDAR “Pseudo-LiDAR from Visual Depth Estimation: Bridging the Gap in 3D Object Detection for Autonomous Driving.”, Y. Wang et. al., CVPR2019 n D4LCN “Learning Depth-Guided Convolutions for Monocular 3D Object Detection.”, M. Ding et. al., CVPR2020 n M3D-RPN “M3D-RPN:monocular3D region proposal network for object detection.”, G. Brazil and X. Liu, ICCV2019 n SMOKE “Smoke: Single-stage monocular 3d object detection via keypoint estimation.”, Z. Liu et. al., CVPRW2020 n MonoPair “Monopair: Monocular 3d object detection using pairwise spatial relationships.”, Y. Chen et. al., CVPR2020 n AM3D “Accurate monocular 3D object detection via color-embedded 3D reconstruction for autonomous driving.”, X. Ma et. al., ICCV2019 n Kinematic3D “Kinematic 3d object detection in monocular video.”, G. Brazil et. al., ECCV2020 References: Comparison methods

Slide 40

Slide 40 text

Mobility Technologies Co., Ltd. 41 [1] Non-local block: “Non-local Neural Networks”, X. Wang et. al., CVPR2018 [2] Asymmetric Non-local Block: “Asymmetric Non-local Neural Networks for Semantic Segmentation”, Z. Zhu et. al., ICCV2019 [3] “Normalized Object Coordinate Space for Category-Level 6D Object Pose and Size Estimation”, H. Wang et. al., CVPR2019 [4] CenterNet: “Objects as Points”, X. Zhou et. al., arXiv2019 [5] DORN: “Deep Ordinal Regression Network for Monocular Depth Estimation.”, H. Fu et. al., CVPR2018 [6] PSMNet: “Pyramid stereo matching network.”, J. Chang et. al., CVPR2018 [7] AVOD: “Joint 3d proposal generation and object detection from view aggregation.”, J. Ku et. al., IROS2018 [8] F-POINTNET: “Frustum pointnets for 3d object detection from rgb-d data.”, C. R. Qi et. al., CVPR2018 [9] “Dynamic Graph Message Passing Networks”, L. Zhang et. al., CVPR2020 [10] Focal loss: “Focal Loss for Dense Object Detection”, T. Y. Lin et. al., ICCV2017 [11] “Center3D: Center-based Monocular 3D Object Detection with Joint Depth Understanding”, Y. Tang et. al., arXiv2020 [12] PointPillars: “PointPillars: Fast encoders for object detection from point clouds”, A. H. Lang et. al., CVPR2019 [13] BTS: “From big to small: Multi-scale local planar guidance for monocular depth estimation”, J. H. Lee et. al., arXiv2019 [14] “Softsort: A continuous relaxation for the argsort operator”, S. Prillo et. al., ICML2020 [15] AP-Loss: “AP-Loss for accurate one-stage object detection.”, K. Chen et. al., TPAMI2020 [16] “Soft-NMS‒improving object detection with one line of code.”, N. Bodla et. al., ICCV2017 [17] “Distance-normalized unified representation for monocular 3D object detection.”, X. Shi et. al., ECCV2020 References