VGGT: Visual Geometry Grounded Transformer
by
peisuke
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
BVUIPS+8BOH FUBM QSFTFOUFS!QFJTVLF VGGT: Visual Geometry Grounded Transformer 第64回 コンピュータビジョン勉強会@関東 CVPR2025読み会(前編)
Slide 2
Slide 2 text
⾃⼰紹介 藤本 敬介 ABEJA CEO室/Labs ラボ⻑ ▷ 経歴 2010-2016:⽇⽴製作所 2016-:ABEJA ▷ SNS X:@peisuke github:@peisuke Qiita:peisuke ▷ 著書 ディープラーニングG検定公式テキスト AI⽩書2023, 2025
Slide 3
Slide 3 text
1 2 3 論⽂の背景‧動機 ⼿法の詳細 実験
Slide 4
Slide 4 text
論⽂の概要 • ⽬的 • 画像からのカメラ姿勢推定‧3D復元を⾼速‧⼤規模に実現 • 貢献 • end-to-endで1つのネットワークで姿勢推定‧画像対応付 け‧3D復元を同時に⾏う • 結果 • 1枚から200枚までの画像で、1秒未満〜数秒程度での実⾏が 可能、DUSt3Rなどの既存⼿法よりもロバスト‧⾼精度
Slide 5
Slide 5 text
動かしてみた! • 画像13枚からの復元
Slide 6
Slide 6 text
動かしてみた! • 画像1枚からの復元
Slide 7
Slide 7 text
既存研究との⽐較:SfM + MVS • SfMとMVSを⽤いた3D復元 • 特徴量抽出に基づく対応付け、姿勢推定などの多段階の処理 • どこかの段階でミスが発⽣すると後の処理に影響 • ⼤規模な復元には⼤きな計算コストが必要 画像特徴量抽出&対応付け 姿勢推定‧特徴点3D復元 密な3D復元 Structure from Motion Multi View Stereo
Slide 8
Slide 8 text
既存研究との⽐較:機械学習 • DUSt3R • 幾何学の処理を全てニューラルネットで⾏い、複数画像から 直接点群を出⼒する⼿法 • ⼀度に2枚の画像までしか処理できず、多数枚の結果を扱うに は誤差が蓄積、精度が⾼くない
Slide 9
Slide 9 text
1 2 3 論⽂の背景‧動機 ⼿法の詳細 実験
Slide 10
Slide 10 text
提案⼿法の概要 • end-to-endで多数枚の復元を実現、カメラ姿勢‧深度マッ プ、点群、画像対応付けの複数タスクを同時に解く 画像群 復元結果 カメラ姿勢、深度マップ、点群、対応付け
Slide 11
Slide 11 text
ネットワークアーキテクチャ
Slide 12
Slide 12 text
Backbone network
Slide 13
Slide 13 text
Backbone network • DINO v2を⽤いてパッチ化、画像毎にK個のトークンに変換 • モデルはViT、教師なしでの⼤規模な事前学習済みモデル • ⾃⼰蒸留により良い特徴量抽出を実現
Slide 14
Slide 14 text
Add Token
Slide 15
Slide 15 text
Add Token • 座標系の中⼼となる1つめのカメラとそれ以外を区別する 学習可能なトークンを付与 CameraToken: nn.Parameter(1,C) RegisterToken: nn.Parameter(R,C) Shared I1 I2 I3
Slide 16
Slide 16 text
Register Token • 画像パッチのトークンに加えて、余分なトークンを追 加すると、特徴抽出の精度が向上する⼯夫 w/o w/ Headの1つから抽出された特徴、RegToken を利⽤すると低ノイズでの抽出が可能
Slide 17
Slide 17 text
Alternating-Attention
Slide 18
Slide 18 text
Alternating-Attention • フレーム内トークンでAttentionを当てるブロックと全 フレームでAttentionを当てるブロックを交互に配置 Frame Attention Global Attention
Slide 19
Slide 19 text
Alternating-Attention • 実装イメージ • Frame Attention : シーケンス⻑P(パッチ数) • Global Attention : シーケンス⻑S x P(画像数 x パッチ数)
Slide 20
Slide 20 text
カメラ姿勢
Slide 21
Slide 21 text
カメラ姿勢 • Alternating-Attentionの先頭のカメラトークンから Camera headのネットワークを通して、姿勢情報に変換 各カメラの姿勢情報: qx, qy, qz, qw, tx, ty, tz, fx, fy AA Blockの出⼒Camera Token部分のみを利⽤
Slide 22
Slide 22 text
Camera Head • N個のTransformerとMLPで何度か繰り返しRefineし、 カメラパラメータを出⼒ N x Transformer block MLP Scale Shift & adaLN modulation M times
Slide 23
Slide 23 text
深度マップ‧点群
Slide 24
Slide 24 text
深度マップ‧点群 • 各画像のパッチに相当するトークンからDense Prediction Transformer (DPT) を通して深度マップ/点 群を直接出⼒ DPT
Slide 25
Slide 25 text
Dense Prediction Transformer • 画像パッチトークンから密な画像を出⼒するアーキテ クチャ https://arxiv.org/abs/2103.13413
Slide 26
Slide 26 text
画像間対応付け
Slide 27
Slide 27 text
画像間対応付け • DPTで各ピクセルの特徴量を出⼒、画像間で類似した 特徴を探すことで対応付けを⾏う • CoTracker2のアーキテクチャを利⽤ https://arxiv.org/abs/2307.07635
Slide 28
Slide 28 text
ロス関数(1/2) • 各タスクのロスを⾜し合わせ • カメラ • クォータニオン‧位置‧FOVに関するHuberロスを利⽤
Slide 29
Slide 29 text
ロス関数(2/2) • 深度マップと点群 • 正解との差異に加え、Aleatoric uncertaintyを利⽤ • 画像対応付け • 正解となる対応との画像上の距離‧可視性に関するBCEを利⽤
Slide 30
Slide 30 text
1 2 3 論⽂の背景‧動機 ⼿法の詳細 実験
Slide 31
Slide 31 text
データセット データセット データ量 Co3Dv2 1.5M frames BlendMVS 17K frames DL3DV 10K frames MegaDepth 196 locations Kubric ??? WildRGB 20K videos ScanNet 2.5M frames HyperSim 77K frames データセット データ量 Mapillary 25K Habitat 1000 locations Replica 18 locations MVS-Synth 12K frames PointOdyssey 300K frames Virtual KITTI 21K Aria Digital Twin 200 sequence Objaverse ??? ※データ量は各論⽂を参照して個別調査、数値は間違っているかもしれません • 屋内‧屋外環境を含むさまざまな領域をカバー、合成 シーンと実世界のシナリオの両⽅を網羅
Slide 32
Slide 32 text
計算リソース • 1.2Bパラメータのモデル • 64枚のA100で9⽇間学習 • 各バッチ内では2-4フレームで学習
Slide 33
Slide 33 text
実験:復元結果
Slide 34
Slide 34 text
実験:復元結果
Slide 35
Slide 35 text
実験:カメラ姿勢推定 • 評価データ • CO3Dv2 • RealEstate10K • 回転精度と並進精度を統合 したAUCという指標で評価 • Bundle Adjustmentと組み 合わせるとより⾼精度に
Slide 36
Slide 36 text
実験:深度マップ推定 • 評価データ • DTU • 同条件のDUS3Rと⽐較 して圧倒的に⾼性能 • カメラに関する情報が 既知の⼿法に迫る精度 Known GT Camera Unknown GT Camera
Slide 37
Slide 37 text
実験:点群推定 • 評価データ • ETH3D • 評価⼿法 • 点群間のs, R,Tを合わせ、 Chamfer距離で評価 • 他の⼿法よりも⾼精度、特 に深度マップから復元した 点群が最も⾼精度
Slide 38
Slide 38 text
実験:画像対応付け • 評価データ • ScanNet • マッチングした対応点から 推定したカメラ姿勢で精度 評価 • 他⼿法よりも総じて良い⼿ 法
Slide 39
Slide 39 text
実験:速度とメモリ • 1枚のみの場合0.04s‧1.8GB、200枚でも8.75秒‧41GB
Slide 40
Slide 40 text
ダウンストリームタスク
Slide 41
Slide 41 text
おわりに • end-to-endで複数枚画像から3D復元を実現するVGGT を紹介 • ディープでポンでSfMやMVSができ、その上で⾼精度‧ 省メモリ‧⾼速 • すごい!(⼩並感)