VGGT: Visual Geometry Grounded Transformer

by peisuke

Slide 1

Slide 1 text

BVUIPS+8BOH FUBM QSFTFOUFS!QFJTVLF VGGT: Visual Geometry Grounded Transformer 第64回コンピュータビジョン勉強会＠関東 CVPR2025読み会(前編)

Slide 2

Slide 2 text

⾃⼰紹介藤本敬介 ABEJA CEO室/Labs ラボ⻑ ▷ 経歴 2010-2016：⽇⽴製作所 2016-：ABEJA ▷ SNS X：@peisuke github：@peisuke Qiita：peisuke ▷ 著書ディープラーニングG検定公式テキスト AI⽩書2023, 2025

Slide 3

Slide 3 text

1 2 3 論⽂の背景‧動機⼿法の詳細実験

Slide 4

Slide 4 text

論⽂の概要 • ⽬的 • 画像からのカメラ姿勢推定‧3D復元を⾼速‧⼤規模に実現 • 貢献 • end-to-endで1つのネットワークで姿勢推定‧画像対応付け‧3D復元を同時に⾏う • 結果 • 1枚から200枚までの画像で、1秒未満〜数秒程度での実⾏が可能、DUSt3Rなどの既存⼿法よりもロバスト‧⾼精度

Slide 5

Slide 5 text

動かしてみた！ • 画像13枚からの復元

Slide 6

Slide 6 text

動かしてみた！ • 画像1枚からの復元

Slide 7

Slide 7 text

既存研究との⽐較：SfM + MVS • SfMとMVSを⽤いた3D復元 • 特徴量抽出に基づく対応付け、姿勢推定などの多段階の処理 • どこかの段階でミスが発⽣すると後の処理に影響 • ⼤規模な復元には⼤きな計算コストが必要画像特徴量抽出＆対応付け姿勢推定‧特徴点3D復元密な3D復元 Structure from Motion Multi View Stereo

Slide 8

Slide 8 text

既存研究との⽐較：機械学習 • DUSt3R • 幾何学の処理を全てニューラルネットで⾏い、複数画像から直接点群を出⼒する⼿法 • ⼀度に2枚の画像までしか処理できず、多数枚の結果を扱うには誤差が蓄積、精度が⾼くない

Slide 9

Slide 9 text

1 2 3 論⽂の背景‧動機⼿法の詳細実験

Slide 10

Slide 10 text

提案⼿法の概要 • end-to-endで多数枚の復元を実現、カメラ姿勢‧深度マップ、点群、画像対応付けの複数タスクを同時に解く画像群復元結果カメラ姿勢、深度マップ、点群、対応付け

Slide 11

Slide 11 text

ネットワークアーキテクチャ

Slide 12

Slide 12 text

Backbone network

Slide 13

Slide 13 text

Backbone network • DINO v2を⽤いてパッチ化、画像毎にK個のトークンに変換 • モデルはViT、教師なしでの⼤規模な事前学習済みモデル • ⾃⼰蒸留により良い特徴量抽出を実現

Slide 14

Slide 14 text

Add Token

Slide 15

Slide 15 text

Add Token • 座標系の中⼼となる1つめのカメラとそれ以外を区別する学習可能なトークンを付与 CameraToken: nn.Parameter(1,C) RegisterToken: nn.Parameter(R,C) Shared I1 I2 I3

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Alternating-Attention

Slide 18

Slide 18 text

Alternating-Attention • フレーム内トークンでAttentionを当てるブロックと全フレームでAttentionを当てるブロックを交互に配置 Frame Attention Global Attention

Slide 19

Slide 19 text

Alternating-Attention • 実装イメージ • Frame Attention : シーケンス⻑P（パッチ数） • Global Attention : シーケンス⻑S x P（画像数 x パッチ数）

Slide 20

Slide 20 text

カメラ姿勢

Slide 21

Slide 21 text

カメラ姿勢 • Alternating-Attentionの先頭のカメラトークンから Camera headのネットワークを通して、姿勢情報に変換各カメラの姿勢情報: qx, qy, qz, qw, tx, ty, tz, fx, fy AA Blockの出⼒Camera Token部分のみを利⽤

Slide 22

Slide 22 text

Camera Head • N個のTransformerとMLPで何度か繰り返しRefineし、カメラパラメータを出⼒ N x Transformer block MLP Scale Shift & adaLN modulation M times

Slide 23

Slide 23 text

深度マップ‧点群

Slide 24

Slide 24 text

深度マップ‧点群 • 各画像のパッチに相当するトークンからDense Prediction Transformer (DPT) を通して深度マップ/点群を直接出⼒ DPT

Slide 25

Slide 25 text

Dense Prediction Transformer • 画像パッチトークンから密な画像を出⼒するアーキテクチャ https://arxiv.org/abs/2103.13413

Slide 26

Slide 26 text

画像間対応付け

Slide 27

Slide 27 text

画像間対応付け • DPTで各ピクセルの特徴量を出⼒、画像間で類似した特徴を探すことで対応付けを⾏う • CoTracker2のアーキテクチャを利⽤ https://arxiv.org/abs/2307.07635

Slide 28

Slide 28 text

ロス関数（1/2） • 各タスクのロスを⾜し合わせ • カメラ • クォータニオン‧位置‧FOVに関するHuberロスを利⽤

Slide 29

Slide 29 text

ロス関数（2/2） • 深度マップと点群 • 正解との差異に加え、Aleatoric uncertaintyを利⽤ • 画像対応付け • 正解となる対応との画像上の距離‧可視性に関するBCEを利⽤

Slide 30

Slide 30 text

1 2 3 論⽂の背景‧動機⼿法の詳細実験

Slide 31

Slide 31 text

データセットデータセットデータ量 Co3Dv2 1.5M frames BlendMVS 17K frames DL3DV 10K frames MegaDepth 196 locations Kubric ??? WildRGB 20K videos ScanNet 2.5M frames HyperSim 77K frames データセットデータ量 Mapillary 25K Habitat 1000 locations Replica 18 locations MVS-Synth 12K frames PointOdyssey 300K frames Virtual KITTI 21K Aria Digital Twin 200 sequence Objaverse ??? ※データ量は各論⽂を参照して個別調査、数値は間違っているかもしれません • 屋内‧屋外環境を含むさまざまな領域をカバー、合成シーンと実世界のシナリオの両⽅を網羅

Slide 32

Slide 32 text

計算リソース • 1.2Bパラメータのモデル • 64枚のA100で9⽇間学習 • 各バッチ内では2-4フレームで学習

Slide 33

Slide 33 text

実験：復元結果

Slide 34

Slide 34 text

実験：復元結果

Slide 35

Slide 35 text

実験：カメラ姿勢推定 • 評価データ • CO3Dv2 • RealEstate10K • 回転精度と並進精度を統合したAUCという指標で評価 • Bundle Adjustmentと組み合わせるとより⾼精度に

Slide 36

Slide 36 text

実験：深度マップ推定 • 評価データ • DTU • 同条件のDUS3Rと⽐較して圧倒的に⾼性能 • カメラに関する情報が既知の⼿法に迫る精度 Known GT Camera Unknown GT Camera

Slide 37

Slide 37 text

実験：点群推定 • 評価データ • ETH3D • 評価⼿法 • 点群間のs, R,Tを合わせ、 Chamfer距離で評価 • 他の⼿法よりも⾼精度、特に深度マップから復元した点群が最も⾼精度

Slide 38

Slide 38 text

実験：画像対応付け • 評価データ • ScanNet • マッチングした対応点から推定したカメラ姿勢で精度評価 • 他⼿法よりも総じて良い⼿法

Slide 39

Slide 39 text

実験：速度とメモリ • 1枚のみの場合0.04s‧1.8GB、200枚でも8.75秒‧41GB

Slide 40

Slide 40 text

ダウンストリームタスク

Slide 41

Slide 41 text

おわりに • end-to-endで複数枚画像から3D復元を実現するVGGT を紹介 • ディープでポンでSfMやMVSができ、その上で⾼精度‧ 省メモリ‧⾼速 • すごい！（⼩並感）