CVPR2026論文紹介：Efficiently Reconstructing Dynamic Scenes One D4RT at a Time

CVPR2026 Best paper award Efficiently Reconstructing Dynamic Scenes One D4RT
at a Time 中京大学工学研究科工学専攻博士2年村上尚生名古屋CV・PRML勉強会 June 20, 2026 プロジェクトページ： https://d4rt-paper.github.io/

 この論文が扱う課題 1. このピクセルの点は，次の時刻で3D的にどこへ行ったか？ 2. カメラが動いたのか，物体が動いたのかをどう分けて考えるか？ 3. 深度・点群・カメラ姿勢・3D軌跡を同じ枠組みで出せるか？背景： 3D復元から4D復元へ
3D復元形状・奥行き・カメラ動画では人・車・動物も動く 4D復元 3D + 時間の対応キーワード：Dynamic 4D Reconstruction and Tracking

1. タスクごとに処理が分かれている  D復元・深度推定・カメラ推定・点追跡を別々のモジュールで処理 2. 動く物体の対応づけが苦手  生き物や車などな動的物体は，フレームごとの点群を重ねるだけだと残像や穴が出る 3. 後処理や最適化が重い
 複数のモデルから出た結果を統合するため計算コストが高くなる従来手法の課題

 入力 1. RGB動画全体： Encoderでシーン全体の情報を持つ Global Scene Representation を生成 2.
クエリ：どの点について知りたいかという情報  出力  指定した点が，指定した時刻・カメラ座標で３D空間のどこにあるかという座標情報 D4RT の全体像

 「どの点を，どの時刻で，どのカメラ座標で見るか」を指定  𝒒𝒒 = (𝑢𝑢, 𝑣𝑣, 𝑡𝑡𝑠𝑠𝑠𝑠𝑠𝑠 , 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡
, 𝑡𝑡𝑐𝑐𝑐𝑐𝑐𝑐 ) クエリ情報 𝒒𝒒 = (𝑢𝑢, 𝑣𝑣, 𝑡𝑡𝑠𝑠𝑠𝑠𝑠𝑠 , 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 , 𝑡𝑡𝑐𝑐𝑐𝑐𝑐𝑐 ) (𝑢𝑢, 𝑣𝑣) 画像上の点 𝑡𝑡𝑠𝑠𝑠𝑠𝑠𝑠 点を指定した元フレーム 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 知りたい時刻 𝑡𝑡𝒄𝒄𝒄𝒄𝒄𝒄 表現するカメラ座標  目的のタスクに応じてクエリの使い方を変更

 エンコーダ  Per-Frame Self-Attention：各フレーム内の情報を見る  Global Self-Attention：フレーム間の情報の関係を見る
 デコーダ  Cross-Attention： Query tokenとGlobal Scene Representationの関係 D4RT のモデル構造

 全ピクセルを追跡するための工夫  従来：全ピクセルの全時刻を推定 O(T²HW)  D4RT：未調査ピクセルからだけ新しい追跡を開始 
Occupancy Grid  動画中のどのピクセルが既に推定済みかを記録する表を利用 D4RT の工夫

 動的なシーンに対して従来よりも高精度な再構成が実現実験結果①：４D再構成の比較

 D4RTは動的シーン中の点を3D空間で正確に追跡可能  特に共通世界座標でのtrackingに強い  クエリとして 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 と 𝑡𝑡𝑐𝑐𝑐𝑐𝑐𝑐 を分けていることが要因か
実験結果②：３Dトラッキング精度の比較

 クエリでは座標情報だけでなく局所的な見た目情報も利用  目的  点の局所的な見た目を与える  物体境界や細部の復元を改善  結果
 Depth推定，Camera Pose推定の両方で性能向上  特に物体境界がシャープになるアブレーション実験： Local RGB patchの効果

 動画全体を入力し，クエリをもとに3D位置を推定する統一的4D復元モデル  特徴  クエリを変更するだけで様々なタスクに適用可能  深度・点群・カメラ姿勢・3Dトラックを共通のDecoderで推定  実験結果
 ３D trackingでSOTA まとめ

Thank you for your attention!

CVPR2026論文紹介：Efficiently Reconstructing Dynamic...

CVPR2026論文紹介：Efficiently Reconstructing Dynamic Scenes One D4RT at a Time

hinako0123

More Decks by hinako0123

Featured

Transcript

CVPR2026 Best paper award Efficiently Reconstructing Dynamic Scenes One D4RT

 入力 1. RGB動画全体： Encoderでシーン全体の情報を持つ Global Scene Representation を生成 2.

 「どの点を，どの時刻で，どのカメラ座標で見るか」を指定  𝒒𝒒 = (𝑢𝑢, 𝑣𝑣, 𝑡𝑡𝑠𝑠𝑠𝑠𝑠𝑠 , 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡

 エンコーダ  Per-Frame Self-Attention：各フレーム内の情報を見る  Global Self-Attention：フレーム間の情報の関係を見る

 全ピクセルを追跡するための工夫  従来：全ピクセルの全時刻を推定 O(T²HW)  D4RT：未調査ピクセルからだけ新しい追跡を開始 

 動的なシーンに対して従来よりも高精度な再構成が実現実験結果①：４D再構成の比較

 D4RTは動的シーン中の点を3D空間で正確に追跡可能  特に共通世界座標でのtrackingに強い  クエリとして 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 と 𝑡𝑡𝑐𝑐𝑐𝑐𝑐𝑐 を分けていることが要因か

 クエリでは座標情報だけでなく局所的な見た目情報も利用  目的  点の局所的な見た目を与える  物体境界や細部の復元を改善  結果

 動画全体を入力し，クエリをもとに3D位置を推定する統一的4D復元モデル  特徴  クエリを変更するだけで様々なタスクに適用可能  深度・点群・カメラ姿勢・3Dトラックを共通のDecoderで推定  実験結果

Thank you for your attention!