Continuous 3D Perception Model with Persistent State

Continuous 3D Perception Model with Persistent State Qianqian Wang1,2∗, Yifei
Zhang1∗, Aleksander Holynski1,2, Alexei A. Efros1, Angjoo Kanazawa1 1University of California, Berkeley 2Google DeepMind CVPR 2025 (Oral) 2025/5/27　Spatial AI Network 勉強会（株）サイバーエージェント　片桐敬太

論文情報 Project page：https://cut3r.github.io/ 論文（arXiv）：https://arxiv.org/abs/2501.12387 コード（GitHub）：https://github.com/CUT3R/CUT3R ※以下、本論文の画像を引用論文選定のモチベーション　3DGSをビジネス活用している立場で”社会実装”にフォーカスして論文を選定

概要 CUT3R：　Continuous Updating Transformer for 3D Reconstruction 新しい入力画像が観測される度に更新する三次元再構成のフレームワーク入力：　動画、画像群（順不同）出力：　静的・動的な三次元空間（三次元点群）、カメラの内部・外部パラメータ

背景タブラ・ラサ（白紙状態）からの再構成　SfMやSLAMはゼロから再構成する必要があり、動的シーンに対応困難学習ベースの再構成　少ない画像ペアからの再構成DUSt3Rなどは静的シーンに特化人間の視覚認知に基づくアプローチ　・人間は過去の知識を活用し、継続的に新しい観測から学習　・少ない情報から3Dの世界を解釈し、観測が増えるにつれて精緻化　・観測していない領域も推論

特徴【状態更新】新しい画像が入力される度に状態（空間）を更新【オンライン処理】オンラインで密な三次元再構成【柔軟な入出力】動画や順不同な写真を入力して、動物体を含むシーンにも対応【未観測領域の推論】観測していない視点の三次元構造を予測

パイプライン：概要

パイプライン：入力からの状態更新＆読み出し・各入力画像はViTエンコーダで画像トークンに変換・状態トークンは現在の3Dシーンの情報を保持・入力の画像トークンは相互接続されたViTデコーダにより状態トークンと相互作用・State Update：　現在の画像情報を状態に統合・State Readout：　状態に保存された過去の状態を読み出して予測に利用

パイプライン：出力・カメラ座標系のポイントマップからワールド座標系へ変換（ワールド座標系のポイントマップのみ可視化）・各タイムステップで累積された密な三次元再構成

パイプライン：推論・未観測（仮想視点）のビューを予測・クエリ（Ray map）により状態から情報を読み出し、クエリに対応するポイントマップを生成・推論では状態を更新せず、仮想的なポイントマップ（hallucinated pointmap）を生成（青枠）

提案手法：State-Input Interaction Mechanism ・状態の更新と読み出しは式(2)のCross-Attentionで相互作用　状態更新：　現在の画像情報から状態を更新　状態読み出し：　過去の情報を状態から読み出す画像トークンと相互作用する前後の状態トークンカメラのポーズトークン ViTによる画像トークン
状態に基づくカメラのポーズトークン状態に基づく画像トークン入力画像

提案手法：State-Input Interaction Mechanism ・相互作用後にペアの入力画像から3D表現（ポイントマップ）を抽出・新たな観測により不確かだった領域の信頼度は向上していく DPT (Dense Prediction Transformer)で実装 MLPで実装
世界座標系の位置姿勢（剛体）ポイントマップポイントマップに対応する信頼度マップ

提案手法：Querying the State with Unseen Views ・仮想視点の内部・外部パラを各ピクセルの光線の原点と方向をエンコードしたレイマップで表現・レイマップはクエリとしてのみ機能して状態は更新されないクエリカメラのレイマップ
レイマップのトークンレイマップの各光線の色式(2)と同様に状態を読み込んだトークン

提案手法：Training Objective ・L_conf：　MASt3Rによるポイントマップに信頼度cを考慮した回帰損失を適用・L_pose：　カメラポーズを四元数qと並進τとして、予測と真値のL2ノルムを最小化・L_rgb：　色Iの予測と真値を一致させるMSE損失も適用低い信頼度の学習を防止レイマップが入力される場合に適用三次元構造の予測カメラポーズの予測
光線の色を予測

提案手法：Training Strategy 【学習データ】・合成と実世界、静的と動的、空間と物体、屋内と屋外をカバーした32のデータセット・静的シーンでは4ビューシーケンス（224×224）・動的シーンと部分的なアノテーション（カメラポーズ...）も組込み・様々な解像度（最大幅：512）とアスペクト比

提案手法：Training Strategy 【実装】・画像エンコーダにはViT-Largeモデルを使用・DUSt3Rの学習済みの重みで初期化・デコーダにはViT-Baseを使用・エンコーダとデコーダは16×16ピクセルのパッチで動作・状態は768次元の768トークンで構成・レイマップエンコーダは2ブロックの軽量エンコーダ・初期学習率1e-4のAdam-Wオプティマイザを使用

実験：Single-frame Depth Evaluation ・各データセットで最先端または競争力のあるパフォーマンスを達成 Table 1. Single-frame Depth Evaluation.

実験：Video Depth Evaluation ・GAは静的シーンが前提のため静的領域の再構成は改善するが、動的オブジェクトの再構成は低下する可能性・提案手法はMonST3Rと比較して約50倍高速（赤枠） Table 2. Video Depth
Evaluation.

実験：Evaluation on Camera Pose Estimation ・オンラインベースでは提案手法が全体的に最高のパフォーマンスを達成（赤枠）・特に動的シーンでの性能が優れる Table 3. Evaluation
on Camera Pose Estimation

実験：3D Reconstruction ・オンラインの提案手法でもGAを採用したオフラインの手法と同等以上のパフォーマンスを達成・NRGBDで有効なDUSt3R-GAの約25倍の動作速度（赤枠） Table 4. 3D reconstruction comparison
on 7-Scenes [83] and NRGBD [4] datasets.

実験：3D Reconstruction（可視化） Figure 4. Qualitative Results on In-the-wild Internet Videos.

制限・長いシーケンスではグローバルアラインメントがないためドリフトの可能性・生成的ではなく決定論的アプローチのため、視点から遠く離れた視点を外挿する場合にボケやすい・再帰型ネットワークのトレーニングでは時間がかかる

まとめ・状態表現を更新可能なオンラインの三次元再構成モデル（CUT3R）を提案・ビデオや写真コレクションの入力と、静的・動的シーンの出力に対応所感・CUT3Rから3DGS等の自由視点画像生成のタスクへ応用できると価値が高まる・大容量、高解像度のデータセットにも適用できると実運用しやすい・動的シーンの中でも長い年月で変化する環境に対してもワークできると面白い

Continuous 3D Perception Model with Persistent ...

Continuous 3D Perception Model with Persistent State

Spatial AI Network

More Decks by Spatial AI Network

Other Decks in Technology

Featured

Transcript