DeepSFM: Structure from Motion Via Deep Bundle Adjustment

DeepSFM: Structure From Motion Via Deep Bundle Adjustment 第五回全日本コンピュータビジョン勉強会 2020/12/12

概要論文の内容:Deep Learningを用いたStructure from Motionによる3次元計測 ◦ 複数枚の画像からデプス画像とカメラポーズを推定工夫点：繰り返し最適化によるDepthとPoseを推定 ◦ Geometryを考慮したPose推定により少ない入力数と初期化時のノイズに対して優れたロバスト性を持
つ https://arxiv.org/abs/1912.09697

Structure from Motion 複数枚の画像から3次元の情報を計測する。画像間の特徴の対応関係からカメラのPose(回転Rと並進T)を求め、3次元情報を計測する 2視点のStructure from Motion 応用例：SLAM

Structure from Motion 近年はDeep Learningを用いた手法が提案されている。課題：Pose推定は別手法ないしはGTを使っている

Bundle Adjustment 基準点とカメラを結ぶ光線束（Bundle）による調整 ◦ 復元した3次元点を画像に再投影した誤差が最小となるようにPoseを最適化 C:カメラ X:3次元点 u:投影点 u’:再投影点従来法はカメラ間の特徴点の対応関係はない

Framework 本論文では初めにDepthとPoseを算出し、初期のDepth・PoseからそれぞれDepth Cost Volume とPose Cost Volumeを作成 PoseによるDepth最適化と、DepthによるPose最適化を繰り返し行う方法を提案

Architecture (2CH+2)×P×W×H P×1×1 3D conv（3×3×3） global average pooling 3D conv(3×3×3）
(2CH+2)×L×W×H L×W×H

2D Feature Extraction CNNの構成 ◦ カーネルサイズ3×3の7層CNN ◦ SPPモジュールを採用し、マルチスケール特徴を抽出 ◦ 4x4、8x8、16x16、32x32の4種類
◦ 連結した特徴に２次元ＣＮＮを適用 ◦ マルチスケール特徴を同じ解像度にアップサンプリングし、 32チャンネルの画像特徴を得る

Depth Cost Volume Source Image Target Image Feature warping Depth
Consistency DPSNetと同じ virtual plane dl をsource view座標系へ変換

並進・回転それぞれ別でサンプリングし、複数のPose仮説を生成 ◦ 並進は3次元空間を一様にサンプリング ◦ 回転は初期の方向ベクトルに対してオイラー角空間内にサンプリング画像特徴と同次座標depth mapを連結して作成 Pose Cost Volume
Feature warping Virtual Camera Pose Target view depth 並進 X Z Y 回転

Cost Aggregation DPSNetと同じ方法でD-CVとP-CVに適用する ◦ 各CVに対してsoft-argmaxによるDepth回帰とPose（回転と並進ベクトル）を予測 Cost Volume をスライス Refined Cost
Slice Initial Cost Volumeと Refined Cost Volumeを足す 7層の3x3 Dilated Conv (RF: 1, 2, 4, 8, 16, 1, 1)

Training 各Lossの算出方法を示す ◦ スケールを維持するため、並進と深度マップにGTの並進のノルムを乗算する。 ◦ 学習・テストで4回iterationを行っており、各iterationで予測したDepthとPoseを初期値としている。：予測とGTのL1距離 H（）：Huber Loss ：predicted
coarse depth map ：refined depth map

Experiments Implementation Details Evaluation ◦ DeMoN Datasets ◦ ETH 3D
Datasets ◦ Tanks and Temples Parameter Value Train data 160K sequences Batch size 4 Optimizer Adam（β1 =0.9, β2 =0.999） Learning rate 2x10-4, 4x10-5 (after 2epoch Rotation sampling 0.035 Translation sampling 0.1 x norm(t*) Weight Value λ 0.7 λr 0.8 λt 0.1 λd 0.1

Evaluation: DeMoN Dataset

Evaluation: ETH3D DeMoN（直接回帰学習）と比べて、提案法はネットワークに幾何学的・物理的な制約を課すた全体的に精度がよい。 COLMAPの予測値には外れ値があり、外れ値の影響による性能低下がある。提案法と従来手法の比較

Evalution: Tanks and Temples 入力画像の解像度と時間フレームを変更してFscoreで比較。提案法は入力画像の品質が変わっても、性能が下がりにくい。

Model Analysis 繰り返し最適化により、DepthとPoseの誤差を低減し、コストボリュームが改善されている。繰り返し回数による誤差の比較

Model Analysis DeepSFMはCOLMAPと同じビュー数であればdepth誤差を半分に、COLMAPの半分のビュー数でも同じ程度の誤差である。入力view数を変えてのDepth誤差結果

Conclusion Deep LearningによるDepthとPoseの両方を推定するSfMの提案 ◦ PoseもCost Volume化して、DepthとPoseを相互に最適化できるようにした。 PoseのCost Volueは回転と並進に対してサンプリングして生成 ◦ Bundle
Adjustmentの誤差最小化というより、仮説から最適なPoseを予測する。 ◦ Pose仮説生成がパラメータとして増えている（タスク依存）。従来法と比べて、少ない枚数の画像や初期ノイズに対してロバストであることを示した

Evaluation: DeMoN Dataset Table 1.に記載されている手法の説明 Method Base-Oracle Plane Sweep Stereo,
GTのCamera Motionを使用 Base-SIFT SIFT keypoint Matching, 8-point algorithm and RANSAC, minimized the reprojection error using the ceres library Base-FF Flow Field optical flow, 8-point algorithm and RANSAC, minimized the reprojection error using the ceres library Base-Matlab Plane Sweep Stereo, KLT(matlab), 5-point algorithm and RANSAC DeMoN “DeMoN: Depth and Motion Network for Learning Monocular Stereo” LS-Net “LS-Net: Learning to Solve Nonlinear Least Squares for Monocular Stereo” BANet “BA-NET: DENSE BUNDLE ADJUSTMENT NETWORKS” “DeMoN: Depth and Motion Network for Learning Monocular Stereo”から引用

Evaluation metrics on ETH3D • Absolute relative error (abs_rel) •
Square relative difference (sq_rel) • Root mean squared error T: 画素数 y: 予測値（depth) y*: 真値（depth)

DeepSFM: Structure from Motion Via Deep Bundle ...

DeepSFM: Structure from Motion Via Deep Bundle Adjustment

TSUKAMOTO Kenji

More Decks by TSUKAMOTO Kenji

Other Decks in Technology

Featured

Transcript