Understanding multi-view transformers https://arxiv.org/abs/2312.14132 カメラ位置姿勢なしの画像ペアから3D点群を求めるDUSt3Rの推論時のTransformerの挙動を分析。
おまけとしてVGGTでも実験。 https://github.com/soskek/understand_vggt