VGGT: Visual Geometry Grounded Transformer

Slide 1

Slide 1 text

VGGT:Visual Geometry Grounded Transformer 発表者：藤冨卓 Jianyuan Wang1,2 , Minghao Chen1,2 , Christian Rupprecht1 , Nikita Karaev1,2 , David Novotny2 1Visual Geometry Group, University of Oxford 2Meta AI GitHub - facebookresearch/vggt: [CVPR 2025 Oral] VGGT: Visual Geometry Grounded Transformer Spatial AI Network 勉強会（2025/4/8）論文紹介

Slide 2

Slide 2 text

どんな論文？ 2 ◼ 任意枚数の多視点RGB画像を入力とするFeed-ForwardなTransformerを提案 ◼ カメラの内部・外部parameter、point map、depth map、point trackの推定をマルチタスク学習 ◼ GTカメラを使用した他手法や同条件のDUSt3R、MASt3Rより高精度で高速

Slide 3

Slide 3 text

従来法の問題点 3 ◼ DUSt3R、MASt3R o ネットワークは一度に2枚の画像しか処理できない o より多くの枚数の画像再構成を行うには、後処理でのペアワイズ再構成の融合が必要 ◼ 提案法 o 1回のフォワードパスで任意枚数に対する3D属性を推定 ▪ まとめて処理するため高コストな後処理を不要化 DUSt3R [2312.14132] DUSt3R: Geometric 3D Vision Made Easy MASt3R [2406.09756] Grounding Image Matching in 3D with MASt3R

Slide 4

Slide 4 text

提案法：アーキテクチャ 4 1. 画像のパッチ化・トークン化 o DINOv2の事前学習済みモデル [2203.03605] DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection 2. AA（Alternating-Attention）Transformer o Global Attention & Frame Attention 3. 予測ヘッド o カメラ：Self-Attention層+線形層 o Depth map, point map, track：DPT（Dense Prediction Transformer） [2103.13413] Vision Transformers for Dense Prediction

Slide 5

Slide 5 text

画像のパッチ化・トークン化 5 ◼ 各画像を、事前学習済みDINOv2を通して画像トークンの集合にパッチ化 ◼ カメラトークンとレジスタトークン（上図未記載）を画像トークンに結合 o カメラトークンとレジスタトークンはlearnable parameterであり、それぞれ最初のフレーム専用とそれ以外のフレーム専用に2つ定義して使い分ける ▪ モデルが最初のフレームとそれ以外を識別し、最初のカメラ座標フレームで3D予測を表現可能にするため

Slide 6

Slide 6 text

◼ GlobalなSelf-AttentionとFrame単位のSelf-Attentionを交互に適用 Global Attentionは普通のSelf-Attentionと同じで、Frame Attentionの場合はLがL/(画像枚数)に変わる o 入力 o L個のトークンごとにQ, K, Vを計算 o アテンションスコアの計算 ▪ 入力と同じに戻る AA（Alternating-Attention）Transformer 6

Slide 7

Slide 7 text

予測ヘッド 7 ◼ カメラ予測 o カメラトークンから4つの追加Self-Attention層とそれに続く線形層を用いて予測 ◼ 密な予測 o DPT層を用いて画像トークンを密な特徴マップF_i（C’’×H×W）と高密度特徴T_i（C×H×W）に変換 o depth mapとpoint map：F_iから3×3畳み込み層でマッピング、それぞれの不確実性マップ（aleatoric uncertainty）も出力する ▪ [1509.05909] Modelling Uncertainty in Deep Learning for Camera Relocalization o tracking：T_iをトラッキングモジュール（CoTracker2 architecture）へ入力し予測 ▪ [2307.07635] CoTracker: It is Better to Track Together

Slide 8

Slide 8 text

トレーニング損失 8 ◼ L_camera o Huber Lossを使用 ◼ L_depth o はchannel-broadcast element-wise product ◼ L_pmap o L_depthと同じ形 ◼ L_track o y_{j, i}は画像I_q内のクエリ点y_{j}に対応する画像I_i内の点不確実性マップ

Slide 9

Slide 9 text

データセット 9 ◼ 屋内・屋外、合成・実世界の多様なデータセットで学習 o Co3Dv2、BlendedMVS、DL3DV、MegaDepth、Kubric、WildRGB、 ScanNet、HyperSim、Mapillary、Habitat、Replica、MVS-Synth、PointOdyssey、 Virtual KITTI、Aria Synthetic Environments、Aria Digital Twin、アーティストが作成したObjaverseに似た3D assetsデータセット o 3Dアノテーションは、センサーキャプチャ、合成エンジン、SfMなど複数のソースから取得 o データセットの組み合わせは、サイズと多様性においてMASt3Rとほぼ同等

Slide 10

Slide 10 text

カメラポーズ推定 10 ◼ RealEstate10K（学習に未使用）とCO3Dv2で評価 ◼ 画像ペアの相対回転精度と相対並進精度を組み合わせたAUC@30 ◼ Ours（Feed-Forward）は他の全ての従来法より高速・高精度 ◼ Bundle adjustmentを適用すると、時間は増えるが精度が上がる

Slide 11

Slide 11 text

Multi-view Depth推定 11 ◼ DTUデータセットで評価 ◼ Overallで比較すると、カメラが既知の設定のMASt3R・GeoMVSNetには劣るがカメラが未知の設定のDUSt3Rを凌駕する性能

Slide 12

Slide 12 text

Point Map推定 12 ◼ ETH3Dデータセットで評価 ◼ DUSt3R、MASt3Rを凌駕 ◼ 予測したpoint mapをそのまま使うより、予測したdepth mapとカメラからpoint mapを推定したほうが精度が良い

Slide 13

Slide 13 text

Two-view Image Matching 13 ◼ ScanNet-1500で評価 ◼ ALIKEDを用いてクエリとなるキーポイントを検出 o [2304.03608] ALIKED: A Lighter Keypoint and Descriptor Extraction Network via Deformable Transformation ◼ Romaのハイパーパラメータ（マッチ数、RANSAC閾値）を採用 ◼ 全てのベースラインの中で最も高い精度を達成

Slide 14

Slide 14 text

Ablation Study 14 ◼ Alternating-Attentionの有効性評価 o ETH3Dのpoint map推定を評価 o 同じパラメータ数のGlobal AttentionのみやCross-Attentionに比べて性能が良い ◼ point map推定におけるマルチタスク学習の有効性評価 o ETH3Dのpoint map推定を評価 o L_pmapに加え、L_camera、L_depth, L_trackの全てを適用するのが最良

Slide 15

Slide 15 text

下流タスクのためのFunetuning フィードフォワード新規視点合成 15 ◼ GSOデータセットで評価

Slide 16

Slide 16 text

下流タスクのためのFunetuning Dynamic Point Tracking 16 ◼ TAP-Vidベンチマークで評価

Slide 17

Slide 17 text

Limitations 17 ◼ いくつかの限界が存在 o 現在のモデルは魚眼画像やパノラマ画像をサポートしていない o 極端な回転を伴う条件下では再構成性能が低下 o 大幅な非剛体運動シナリオでは失敗 ◼ ターゲットとするデータセットでモデルをFinetuningすれば、提案法は軽微なアーキテクチャ変更でこれらの限界に柔軟に適応できる

Slide 18

Slide 18 text

実行時間とメモリ 18 ◼ 特徴バックボーンの実行時間とメモリ o NVIDIA H100 GPU でflash attention v3を使用して測定 o 画像サイズは336 × 518 ◼ その他 o カメラヘッドは軽量で、実行時間の約5%、GPUメモリの約2%を占める o DPTヘッドは1枚あたり平均0.03秒・0.2GB GPUメモリを使用

Slide 19

Slide 19 text

単眼再構成 19 ◼ 単眼再構成のために明示的に訓練されていないにもかかわらず良好な結果

Slide 20

Slide 20 text

予測の正規化 20 ◼ 提案法は3D点の平均ユークリッド距離を用いてground truthを正規化 ◼ DUSt3Rのようないくつかの手法はこのような正規化をネットワーク予測にも使用 ◼ ネットワーク予測への正規化適用は収束やモデル性能に有利にはならず、むしろ訓練段階で不安定性をもたらす傾向がある

Slide 21

Slide 21 text

まとめ 21 ◼ 数百の入力視点に対して主要な3Dシーンプロパティを直接推定することができるフィードフォワードネットワークのVGGTを提案 ◼ 従来のタスク特化な最適化・後処理に依存することのないシンプルで効率的な設計 ◼ カメラパラメータ推定、Multi-view depth推定、密な点群推定、 3D tracking等の複数の3DタスクでSOTAを達成