Upgrade to Pro — share decks privately, control downloads, hide ads and more …

VGGT: Visual Geometry Grounded Transformer

VGGT: Visual Geometry Grounded Transformer

第64回 コンピュータビジョン勉強会@関東「CVPR2025読み会(前編)」

VGGT: Visual Geometry Grounded Transformer
author: J. Wang, et al.

Avatar for peisuke

peisuke

July 10, 2025
Tweet

More Decks by peisuke

Other Decks in Technology

Transcript

  1. ⾃⼰紹介 藤本 敬介 ABEJA CEO室/Labs ラボ⻑ ▷ 経歴 2010-2016:⽇⽴製作所 2016-:ABEJA

    ▷ SNS X:@peisuke github:@peisuke Qiita:peisuke ▷ 著書 ディープラーニングG検定公式テキスト AI⽩書2023, 2025
  2. 論⽂の概要 • ⽬的 • 画像からのカメラ姿勢推定‧3D復元を⾼速‧⼤規模に実現 • 貢献 • end-to-endで1つのネットワークで姿勢推定‧画像対応付 け‧3D復元を同時に⾏う

    • 結果 • 1枚から200枚までの画像で、1秒未満〜数秒程度での実⾏が 可能、DUSt3Rなどの既存⼿法よりもロバスト‧⾼精度
  3. 既存研究との⽐較:SfM + MVS • SfMとMVSを⽤いた3D復元 • 特徴量抽出に基づく対応付け、姿勢推定などの多段階の処理 • どこかの段階でミスが発⽣すると後の処理に影響 •

    ⼤規模な復元には⼤きな計算コストが必要 画像特徴量抽出&対応付け 姿勢推定‧特徴点3D復元 密な3D復元 Structure from Motion Multi View Stereo
  4. データセット データセット データ量 Co3Dv2 1.5M frames BlendMVS 17K frames DL3DV

    10K frames MegaDepth 196 locations Kubric ??? WildRGB 20K videos ScanNet 2.5M frames HyperSim 77K frames データセット データ量 Mapillary 25K Habitat 1000 locations Replica 18 locations MVS-Synth 12K frames PointOdyssey 300K frames Virtual KITTI 21K Aria Digital Twin 200 sequence Objaverse ??? ※データ量は各論⽂を参照して個別調査、数値は間違っているかもしれません • 屋内‧屋外環境を含むさまざまな領域をカバー、合成 シーンと実世界のシナリオの両⽅を網羅
  5. 実験:点群推定 • 評価データ • ETH3D • 評価⼿法 • 点群間のs, R,Tを合わせ、

    Chamfer距離で評価 • 他の⼿法よりも⾼精度、特 に深度マップから復元した 点群が最も⾼精度