Understanding multi-view transformers (and VGGT)

Understanding Multi-view Transformers Michal Stary, Julien Gaubil, Ayush Tewari, Vincent
Sitzmann ICCV 2025 End-to-End 3D Learning Workshop arxiv.org/pdf/2510.24907 ⼩林颯介 (Preferred Networks) 2025/12/2 Spatial AI勉強会特に説明がない図は論⽂からの引⽤です and VGGT github.com/soskek/understand_vggt

2 Multi-view Transformer による複数画像の点群推定 - DUSt3R 以後 Multi-view Transformer が発展中
- [2312.14132] DUSt3R: Geometric 3D Vision Made Easy - 本勉強会でもおなじみ - speakerdeck.com/spatial_ai_network/dust3r-mast3r-mast3r-sfm - speakerdeck.com/spatial_ai_network/vggt-20250408-fujitomi arxiv.org/pdf/2503.11651 - カメラポーズを与えずに画像のみから {画像, 画像, 画像, ...} → {点群, 点群, 点群, ...} を⼀発で推論するパラダイム

3 DUSt3R による推定結果すごい

4 DUSt3R による推定結果すごい

5 DUSt3R モデル構造 speakerdeck.com/spatial_ai_netw ork/dust3r-mast3r-mast3r-sfm

6 どうやって推定しているのか - ⼗分に⼤きいTransformerで (といってもまだ1B程度) - ⼗分に⼤きい学習データで - ⼗分に⼤きい計算リソースで訓練 → できる！！
- でも何が起きているのか知りたい → 多層のTransformerでどう情報が変化していくかを観察 - 特に multi-view の相互作⽤が⼊る decoder の部分

7 Transformerの観察 - NLPやViTでは以前から活発な取り組み https://speakerdeck.com/eumesy/analysis_and_interpretation_of_language_models - 言語モデルの内部機序：解析と解釈 - Speaker Deck

8 Transformerの観察 - NLPやViTでは以前から活発な取り組み

9 Transformerの観察 - DUSt3R で観察をしてみよう！ - Decoder Transformer x 12ブロック
- 各層のresidualな隠れ層から点群を予測させて観察する - 元のモデルは最終出⼒ヘッドしかないため元のモデル本体を固定したままパッチ-to-点群のMLPヘッドを層ごとに追加訓練

10 Transformerの観察細かい話 - 元のモデル本体を固定したままパッチ-to-点群の「MLPヘッド」を層ごとに追加訓練 - ここは「適度な関数」にする必要がある - 強すぎる関数だと...
e.g., 多層multi-view ViTヘッド - その層で表現していた以上の情報を推論した出⼒が可能になって過⼤評価になるおそれ - 弱すぎる関数だと... e.g., 線形ヘッド - その層の表現を観察対象として適切に書き出せず過⼩評価になるおそれ - 直感的理解 (※個⼈の感想): 元モデルの点群出⼒ヘッドはDPT [Ranftl et al., 2021] を使っていて隠れ層-to-点群の変換には多少の⾮線形変換が必要そう - なお NLPなど既存のprobingではしばしば線形ヘッドが使われる - (既存の最終Headを使いまわすのはだめなの？) - あり (※個⼈の感想) だけど論⽂には⾔及なし - LLMのlogit lensとよばれる⽅法に近い: 途中層に出⼒⾏列かけて次単語予測 - 層ごとの分布が結構違うなら微妙かも (線形+softmaxとかならまだしも回帰にとっては致命的な可能性) - DPTは1層のみでなく事前の中間層も使うのでやや⾮⾃明かも - 固定とはいえDPTは⾮線形Convもあり表現⼒が⾼く追加の推論ができてしまうのかも

11 実験 (観察) 1. decoderの多層ブロックの内部状態はどのように変化するか？ 2. 1ブロック内の各層はどのような役割か？ 3. ネットワークはカメラ姿勢を推定して利⽤していそうか？ 4.
対応関係を利⽤していそうか？観察画像ペア (視点が近いケース) (視点が遠い(ほぼ逆⽅向)ケース)

12 多層での内部状態の変化単⼀画像ViTのあと (multi-viewを互いに⾒る前) すでに各画像の単眼でdepth, intrinsic 推定がラフに済んでいる

13 多層での内部状態の変化 hydrant: 回転が序盤から⼀気に調整され、そのあとに並進やスケールが微調整されていく chair: 途中まで苦戦しつつ姿勢が特定されていく

14 多層での内部状態の変化その他

15 多層での内部状態の変化その他

16 ブロック内の層の役割 - Cross-attention: 基準視点(1枚⽬)のパッチが “stable anchor” 2枚⽬視点の対応する各パッチがそこへ引っ張られて動く - Self-attention:
2枚⽬視点内で形状を再構築する。特に cross-attentionで動かなかったパッチを動いたパッチの位置とつじつまを合わせる

17 カメラポーズを推定して活⽤していそうか - 形状修正の幅が⼤きかった第⼆ブロックのself-attentionのmulti headを観察 - 関係性考慮していそうなhead v.s. クエリ内容にかかわらず固定の箇所に注⽬するhead - 後者のheadやregister
tokenっぽいものを強制無視させてみたけど出⼒の⼤域的な構造はそこまで変わらなかった → 結局このあたりの役割は謎...

18 対応関係の活⽤と洗練 - cross-attentionを観察 - 浅い層では意味的類似や外観が同じ位置に分散して注⽬ - 深くなると
実際に3Dで対応した位置へと洗練されていく

19 まとめ - DUSt3Rの推論時の表現の変化を層ごとに追加訓練した点群出⼒headやattentionで分析 - 単⼀画像ViTでdepth, intrinsic 推定がラフに⾏われる -
Multi-view Transformer で少しずつ相対的な位置関係を合わせていく - Cross-attention: 参照画像の対応点を⾒つけてそこに向かって移動 - Self-attention: 視点内での形状の⼀貫性を(再)補正 - 対応点も段々と洗練されていく - (⼤域的なポーズ情報がどこかに⽣まれているかは調べたけど不明だった)

20 おまけ VGGTの観察 - ⾃分で実装して [2503.11651] VGGT: Visual Geometry Grounded Transformer
でも雑に可視化してみた - 層ごとにheadを訓練するの⾯倒なので既存の DPT と camera head を使い回す試せます https://github.com/soskek/understand_vggt/

21 おまけ VGGTの観察 - ⾃分で実装して [2503.11651] VGGT: Visual Geometry Grounded Transformer
でも雑に可視化してみた - 層ごとにheadを訓練するの⾯倒なので既存の DPT と camera head を使い回す - DPTは [4, 11, 17, 23] 番⽬のブロックの出⼒をマージして点群を出している - 雑に [4,4,4,4] [4,11,11,11] [4,11,17,17] [4,11,17,23] を与えて出⼒してみる

22 寿司を⾷べさせてみる

23 寿司の観察

24 寿司の観察

25 寿司の観察 4段階の結果を内挿で連続的にアニメーションGIF 参照 https://github.com/soskek/understand_vggt/

26 寿司の観察単眼でもVGGTは動くのでそれも可視化

27 寿司の観察関係ない画像ペアを与えたときの努⼒

28 おまけまとめ - ⽅法の妥当性の議論はあるので雑な知⾒として... - VGGTでもポーズ‧点群ともに漸近的な改善が⾒られる - どちらかといえば後半の頑張りが⼤きいように⾒える - とはいえ
「既に潜在的に理解はしているけど出⼒しやすい形式にはしていない」だけかも

Understanding multi-view transformers (and VGGT)

Understanding multi-view transformers (and VGGT)

Spatial AI Network

More Decks by Spatial AI Network

Featured

Transcript

Understanding Multi-view Transformers Michal Stary, Julien Gaubil, Ayush Tewari, Vincent

2 Multi-view Transformer による複数画像の点群推定 - DUSt3R 以後 Multi-view Transformer が発展中

3 DUSt3R による推定結果すごい

4 DUSt3R による推定結果すごい

5 DUSt3R モデル構造 speakerdeck.com/spatial_ai_netw ork/dust3r-mast3r-mast3r-sfm

6 どうやって推定しているのか - ⼗分に⼤きいTransformerで (といってもまだ1B程度) - ⼗分に⼤きい学習データで - ⼗分に⼤きい計算リソースで訓練 → できる！！

7 Transformerの観察 - NLPやViTでは以前から活発な取り組み https://speakerdeck.com/eumesy/analysis_and_interpretation_of_language_models - 言語モデルの内部機序：解析と解釈 - Speaker Deck

8 Transformerの観察 - NLPやViTでは以前から活発な取り組み

9 Transformerの観察 - DUSt3R で観察をしてみよう！ - Decoder Transformer x 12ブロック

10 Transformerの観察細かい話 - 元のモデル本体を固定したままパッチ-to-点群の「MLPヘッド」を層ごとに追加訓練 - ここは「適度な関数」にする必要がある - 強すぎる関数だと...

11 実験 (観察) 1. decoderの多層ブロックの内部状態はどのように変化するか？ 2. 1ブロック内の各層はどのような役割か？ 3. ネットワークはカメラ姿勢を推定して利⽤していそうか？ 4.

12 多層での内部状態の変化単⼀画像ViTのあと (multi-viewを互いに⾒る前) すでに各画像の単眼でdepth, intrinsic 推定がラフに済んでいる

13 多層での内部状態の変化 hydrant: 回転が序盤から⼀気に調整され、そのあとに並進やスケールが微調整されていく chair: 途中まで苦戦しつつ姿勢が特定されていく

14 多層での内部状態の変化その他

15 多層での内部状態の変化その他

16 ブロック内の層の役割 - Cross-attention: 基準視点(1枚⽬)のパッチが “stable anchor” 2枚⽬視点の対応する各パッチがそこへ引っ張られて動く - Self-attention:

17 カメラポーズを推定して活⽤していそうか - 形状修正の幅が⼤きかった第⼆ブロックのself-attentionのmulti headを観察 - 関係性考慮していそうなhead v.s. クエリ内容にかかわらず固定の箇所に注⽬するhead - 後者のheadやregister

18 対応関係の活⽤と洗練 - cross-attentionを観察 - 浅い層では意味的類似や外観が同じ位置に分散して注⽬ - 深くなると

19 まとめ - DUSt3Rの推論時の表現の変化を層ごとに追加訓練した点群出⼒headやattentionで分析 - 単⼀画像ViTでdepth, intrinsic 推定がラフに⾏われる -

20 おまけ VGGTの観察 - ⾃分で実装して [2503.11651] VGGT: Visual Geometry Grounded Transformer

21 おまけ VGGTの観察 - ⾃分で実装して [2503.11651] VGGT: Visual Geometry Grounded Transformer

22 寿司を⾷べさせてみる

23 寿司の観察

24 寿司の観察

25 寿司の観察 4段階の結果を内挿で連続的にアニメーションGIF 参照 https://github.com/soskek/understand_vggt/

26 寿司の観察単眼でもVGGTは動くのでそれも可視化

27 寿司の観察関係ない画像ペアを与えたときの努⼒

28 おまけまとめ - ⽅法の妥当性の議論はあるので雑な知⾒として... - VGGTでもポーズ‧点群ともに漸近的な改善が⾒られる - どちらかといえば後半の頑張りが⼤きいように⾒える - とはいえ