Upgrade to Pro — share decks privately, control downloads, hide ads and more …

MapAnything: Universal Feed-Forward Metric 3D R...

Avatar for Shigeki Kobayashi Shigeki Kobayashi
November 10, 2025
7

MapAnything: Universal Feed-Forward Metric 3D Reconstruction

社内勉強会で使用した資料です。
「MapAnything: Universal Feed-Forward Metric 3D Reconstruction」という論文を紹介しています。

Avatar for Shigeki Kobayashi

Shigeki Kobayashi

November 10, 2025
Tweet

Transcript

  1. AI Community 2025.10.17 小林 茂樹 GOドライブ株式会社 MapAnything Universal Feed-Forward Metric

    3D Reconstruction 論文紹介 ※特に断りがない場合、資料内の図は紹介する論文からの引用となります
  2. 4 従来の3D基盤モデルは画像のみを入力とすることが多かった その他の情報を参照できない ▪ カメラの内部パラメータ ▪ カメラの位置姿勢 ▪ 相対 or

    絶対深度 これらはタスクによって利用可能だったりそうでなかったりする ➡ 任意の追加情報とした モチベーション
  3. 8 入出力を分解(因子化)した これにより ▪ 多様な入力構成に対応可能 ➡ 様々なタスクに対応可能 ▪ 一部の幾何情報しかないデータセットも利用可能 ▪

    絶対スケール係数を分離するモデル構成・損失とすることで性能向上 ▪ それぞれの結果を得るのに後処理が必要ない ▪ 3D基盤モデルの従来手法はポイントマップに後処理をすることで必要な 情報を得ることができた(カメラの位置姿勢・内部パラメータなど) MapAnythingがやったこと
  4. 10 MapAnything(入出力) 入力 ▪ RGB画像 任意の幾何入力 ▪ rayの方向のマップ(内部パラメータ) ▪ カメラの位置姿勢(スケール未知

    or 既知) ▪ (相対 or 絶対)深度マップ 出力 ▪ 全体の絶対スケール ▪ rayの方向のマップ(内部パラメータ) ▪ 相対深度マップ ▪ 相対深度の有効領域を示すマスク ▪ ポイントマップの自信度 ▪ カメラの位置姿勢(スケール不定)
  5. 任意の幾何入力をネットワークに与える前に入力からスケールを分離する ▪ Normalized Translation: 各フレームのカメラ位置を平均で割った値 ▪ Pose Scale: 全フレームのカメラ位置の平均 ▪

    Ray Depth: 各フレームの絶対深度を平均で割った値 ▪ Local Ray Depth Scale: 各フレームの絶対深度の平均 スケールの値はシーンによって大きく異なるのでエンコード前に対数変換する 15 幾何入力からのスケール分離
  6. 22 密な結果のデコード ▪ DPT (Dense Prediction Transformer) を用いて以下を出力 ▪ レイの方向のマップ

    ▪ 相対深度マップ ▪ 相対深度の有効領域を示すマスク ▪ ポイントマップに対する信頼度マップ R. Ranftl et al., “Vision Transformers for Dense Prediction”, ICCV’21.
  7. 23 カメラ位置姿勢のデコード ▪ 畳み込みデコーダーでカメラ位置姿勢を出力 ▪ res block (1x1conv+ReLU) -> 3層のMLPで位置姿勢を出力

    ▪ 回転はクォータニオンとして表現 ▪ 出力されるカメラ位置姿勢は参照フレーム(最初のフレーム)に対しての相対姿勢 S. Chen et al., “Map-Relative Pose Regression for Visual Re-Localization”, CVPR’24.
  8. ▪ 予測とGTのポイントマップの平均をスケーリング係数として使用する ▪ 深度、ポイントマップ、スケール係数に関しては対数空間で損失を計算 ▪ 学習データに含まれる外れ値の影響を抑えるため、画素ごとの損失の上位5%は除外する ▪ 各フレームのポイントマップ、フレーム間で結合したポイントマップそれぞれに対して損失を計算 27 ポイントマップの損失

    GTのポイントマップの平均 予測のポイントマップの平均 GTのポイントマップ の平均 予測のポイントマップの平均 ポイントマップの 信頼度 各フレームのGTの ポイントマップ 各フレームの予測の ポイントマップ フレーム間で連結したGTの ポイントマップ フレーム間で連結した予測の ポイントマップ
  9. 29 最終的な損失 ▪ 以下の損失を追加し、最終的な損失は上記の式で表される ▪ L_normal:ポイントマップに対する法線損失 ▪ L_GM:深度に対するマルチスケール勾配整合損失 ▪ L_mask:深度の有効領域を算出するマスクに対する損失

    ▪ フレーム間で結合したポイントマップの損失を強めて、マスク損失を弱めるのが有効だった R. Wang et al., “MoGe: Unlocking accurate monocular geometry estimation for open-domain images with optimal training supervision”, CVPR’25. R. Rantftl et al., “Towards robust monocular depth estimation: Mixing datasets for zero-shot cross-dataset transfer”, TPAMI’20. L. Yang et al., “Depth anythingV2”, NeurIPS’24.
  10. 30 学習時のモデル入力の確率的選択 様々な入力構成に対応できるように幾何入力を確率的に選択してモデルに与える ▪ 幾何入力が与えられる確率:0.9 ▪ 各フレームが幾何入力を持つ確率:0.95 ▪ それぞれの幾何入力の個別の入力確率:0.5 ▪

    深度が入力に選ばれた場合 ▪ 密な深度:0.5 ▪ 90%を間引いた疎な深度:0.5 ▪ 絶対スケールが分かるデータセットの場合 ▪ スケール係数をモデルに与えない:0.05
  11. 31 学習データセット ライセンス毎に2つのモデルを用意 ▪ Apache 2.0のモデル:6のデータセットで学習 ▪ CC BY-NC 4.0のモデル:13のデータセットで学習

    MPSDデータセットは本来、絶対深度のデータセットだ が、カメラ位置姿勢とカメラ情報を追加した ▪ このMPSDのメタデータは公開予定
  12. 33 実験設定 ▪ Optimizer: AdamW ▪ 学習率 ▪ DiNOv2: 5e-6

    ▪ その他: 1e-4 ▪ 入力の画像、レイ方向のマップ、深度マップは以下のように前処理 ▪ 長辺が518になるようにリサイズ ▪ アスペクト比が3:1 ~ 1:2になるようにランダムクロップ ▪ 内部パラメータ予測の性能を確かめるため ▪ 学習は2段階で実施 ▪ 6日間学習 ▪ その後に1/10のlrで4日間学習 ▪ 学習は64個のH200を用いて実施
  13. 37 絶対深度推定 ▪ 単視点絶対深度推定 ▪ 単一画像で学習していないにも関わらず SOTAに匹敵する性能を達成 ▪ 多視点絶対深度推定 ▪

    画像のみの場合でSOTAを達成 ▪ カメラの内部パラメータ、位置姿勢がある 場合さらに精度向上するがベースラインに は及ばず ▪ MVSAが強い ▪ グレーの結果:該当データセットの学習データ が学習に使われている(ゼロショットでない) S. Izquierdo et al., “MVSAnywhere: Zero-Shot Multi-View Stereo”, CVPR’25.
  14. 38 相対深度推定 ▪ 単視点相対深度推定 ▪ 競争力のある性能がある ▪ UniDepthV2が強い ▪ 多視点相対深度推定

    ▪ 画像のみの場合でも競争力のある性能が ある ▪ 内部パラメータを加えるとさらに性能向 上 ▪ グレーの結果:該当データセットの学習データ が学習に使われている(ゼロショットでない) L. Piccinelli et al., “UniDepthV2: Universal Monocular Metric Depth Estimation Made Simpler”, arxiv’25.
  15. 43 Limitationへの補足 Limitationにもある通り、今回の実験で用いられた幾何情報の入力は正確であるという前提がある ▪ 幾何情報に関してはデータセットのGTをモデルに入力している ▪ ノイズのある幾何情報を入力して、より洗練された結果を得るという使い方はできない ▪ 例:ノイズのあるカメラの位置姿勢を入力して、より高精度なカメラの位置姿勢を得る ▪

    正確な幾何情報を入力することで、別のモーダルの結果をより高精度にしたい時には有効 ▪ 例 ▪ カメラの位置姿勢を与えることで、より高精度な絶対スケールの三次元復元がしたい ▪ カメラの内部パラメータを与えることで、より高精度な深度推定がしたい ▪ 深度マップを与えることで、より高精度なカメラの位置姿勢推定がしたい