Upgrade to Pro — share decks privately, control downloads, hide ads and more …

DeepSFM: Structure from Motion Via Deep Bundle Adjustment

DeepSFM: Structure from Motion Via Deep Bundle Adjustment

TSUKAMOTO Kenji

December 12, 2020
Tweet

More Decks by TSUKAMOTO Kenji

Other Decks in Technology

Transcript

  1. 2D Feature Extraction CNNの構成 ◦ カーネルサイズ3×3の7層CNN ◦ SPPモジュールを採用し、マルチスケール特徴を抽出 ◦ 4x4、8x8、16x16、32x32の4種類

    ◦ 連結した特徴に2次元CNNを適用 ◦ マルチスケール特徴を同じ解像度にアップサンプリングし、 32チャンネルの画像特徴を得る
  2. Depth Cost Volume Source Image Target Image Feature warping Depth

    Consistency DPSNetと同じ virtual plane dl をsource view座標系へ変換
  3. Experiments Implementation Details Evaluation ◦ DeMoN Datasets ◦ ETH 3D

    Datasets ◦ Tanks and Temples Parameter Value Train data 160K sequences Batch size 4 Optimizer Adam(β1 =0.9, β2 =0.999) Learning rate 2x10-4, 4x10-5 (after 2epoch Rotation sampling 0.035 Translation sampling 0.1 x norm(t*) Weight Value λ 0.7 λr 0.8 λt 0.1 λd 0.1
  4. Conclusion Deep LearningによるDepthとPoseの両方を推定するSfMの提案 ◦ PoseもCost Volume化して、DepthとPoseを相互に最適化できるようにした。 PoseのCost Volueは回転と並進に対してサンプリングして生成 ◦ Bundle

    Adjustmentの誤差最小化というより、仮説から最適なPoseを予測する。 ◦ Pose仮説生成がパラメータとして増えている(タスク依存)。 従来法と比べて、少ない枚数の画像や初期ノイズに対してロバストであることを示した
  5. Evaluation: DeMoN Dataset Table 1.に記載されている手法の説明 Method Base-Oracle Plane Sweep Stereo,

    GTのCamera Motionを使用 Base-SIFT SIFT keypoint Matching, 8-point algorithm and RANSAC, minimized the reprojection error using the ceres library Base-FF Flow Field optical flow, 8-point algorithm and RANSAC, minimized the reprojection error using the ceres library Base-Matlab Plane Sweep Stereo, KLT(matlab), 5-point algorithm and RANSAC DeMoN “DeMoN: Depth and Motion Network for Learning Monocular Stereo” LS-Net “LS-Net: Learning to Solve Nonlinear Least Squares for Monocular Stereo” BANet “BA-NET: DENSE BUNDLE ADJUSTMENT NETWORKS” “DeMoN: Depth and Motion Network for Learning Monocular Stereo”から引用
  6. Evaluation metrics on ETH3D • Absolute relative error (abs_rel) •

    Square relative difference (sq_rel) • Root mean squared error T: 画素数 y: 予測値(depth) y*: 真値(depth)