CL-Splats: Continual Learning of Gaussian Splatting with Local Optimization

CL-Splats: Continual Learning of Gaussian Splatting with Local Optimization (Akkerman+,
ICCV2025) 2025/11/04 東京⼤学⼤隣嵩 * 特に注釈がなければ図表は論⽂から引⽤しています

概要 What: 3Dシーンの⼀部だけが変化した時に、シーン全体を再学習するのではなく、その「変化した部分だけ」を効率的に更新する「CL-Splats」を提案 Why: シーンが更新された際、シーン全体のデータで⼀から再学習するのは⾼コスト How: 3DGSをベースとした、「変更箇所の検出」、「局所的な最適化」により、⾼速かつ未更新部分の破滅的忘却の起こらない局所的な更新を実現 2
Add Delete Move Add Delete Move Multi

タスク・前時刻の3DGS 3 ⼊⼒・更新画像のカメラパラメータ・更新画像 Cosine Similarity DinoV2 Feature
Extraction Predicting 2D Change Masks Render (t0) GT (t1) Input 1 2 4 t1 Cosine Similarity DinoV2 Feature Extraction Predicting 2D Change Masks Render (t0) GT (t1) Input 3DGS Reconstruction (t0) 3D Mask Camera Poses Sampling Voting Section 3.1 Lifting Masks to 3D 1 2 3 t1 t0 Similarity Feature Extraction 3DGS Reconstruction (t0) 3D Mask Camera Poses Sampling Voting Section 3.1 Section 3.2 Lifting Masks to 3D 3 t1 t0 ・更新後の3DGS 出⼒ Time 0 Time 1 Time 2 Time 3 Time 0 à Time 1 Time 1 à Time 2 Time 2 à Time 3

タスク更新時刻ごとに再構築するのではなく、変更箇所のみを撮影・更新するため効率的 Remove an Object 4

関連研究: CL-NeRF、CLNeRF CLNeRF [Cai+, ICCV2023] ・NeRFの破滅的忘却を防ぐため、過去のカメラパラメータを保存しておいて、過去の情報も継続的に学習・時間による形状・外観の変化をAppearance & Geometry
Embeddingで表現（NeRF-WやBlock-NeRFと似たアプローチ） CL-NeRF [Wu+, NeurIPS2023] ・変化領域を学習する軽量のMLPを別途追加・変化の残差 & 変化している確率を出⼒・過去の情報も継続的に学習結論: NeRFだと過去の情報を変えずに保存するのが⼤変だった 5

CL-Splats: アーキテクチャ Cosine Similarity DinoV2 Feature Extraction Predicting 2D Change
Masks Render (t0) GT (t1) Input Local Optimization Dynamic- Static-Split Pruning Local Kernel 3DGS Reconstruction (t0) 3D Mask Camera Poses Sampling Voting Section 3.1 Section 3.2 Section 3.3 Lifting Masks to 3D 1 2 3 4 t1 t0 ・前時刻の3DGSと新時刻の画像群&カメラパラメータから局所的にシーンを更新・変化領域の検出（2D & 3D） → 変化領域のみの3DGS最適化で更新 * カメラパラメータは全時刻間でCOLMAPによる位置合わせができている前提 * 照明の変化は考慮していない 6

CL-Splats: 変更箇所の検出・新画像の視点で前時刻の3DGSからレンダリング・レンダリング画像(t0)と新画像(t1)のDinoV2特徴量間のコサイン類似度を計算・2値化 & アップスケール & 取りこぼしを防ぐため、マスクを膨張処理 Cosine
Similarit DinoV2 Feature Extraction Predicting 2D Change Mask Render (t0) GT (t1) Input Camera Poses Section 3.1 Lifting Masks to 3D 1 2 3 t1 t0 Cosine Similarity DinoV2 Feature Extraction Predicting 2D Change Masks er (t0) GT (t1) put 2 4 Render (t0) GT (t1) DINOv2 Cosine Similarity DinoV2 Feature Extraction Predicting 2D Change Masks Render (t0) GT (t1) Input Camera Poses Section 3.1 Lifting Masks to 3D 1 2 3 t1 t0 Cosine Similarity DinoV2 Feature Extraction Predicting 2D Change Masks 0) GT (t1) L 2 4 DINOv2 feature (t0) DINOv2 feature(t1) Cosine Similarity DinoV2 Feature Extraction Predicting 2D Change Masks r (t0) GT (t1) put Section 3.1 2 コサイン類似度 7

CL-Splats: 2Dマスク → 3Dマスクマスクをそのまま使うだけでは、背景領域など（例えば、更新物体の裏にある机）も含めて更新してしまう → 2Dマスク群から更新対象の3D領域を特定する必要がある各Gaussianが2Dマスク領域内に投影された回数を数える →
マスク内の投影回数が半分以上の場合に、更新対象のGaussianとする Diﬀerentia Tile Rasteri Adaptive Density Control Projection 3D Gaussians Camera Operation 3D Gaussians 2Dマスク内に⼊った回数をカウント (Voting) Similarity Feature Extraction 3D Mask Sampling Voting Section 3.1 Section 3.2 Lifting Masks to 3D 3 Cosine Similarity DinoV2 Feature Extraction 3D Mask Sampling Voting Section 3.1 Section 3.2 Lifting Masks to 3D 3 3Dマスク 8 🤔 複数の更新物体がある場合、更新物体が映らないことが増えるので、このアルゴリズムだとうまくいかないかもしれない

CL-Splats: 2Dマスク → 3Dマスク物体が追加された場合は、既存のGaussianを更新するだけでは不⼗分 → 新たに点をサンプリングする・⼗分な数の更新対象のGaussianがある（物体が削除された場合） → サンプリングしない
・1個も更新対象のGaussianがない → ランダムサンプリング・更新対象のGaussianはあるが、⼗分な数がない場合 → 既存の点の周辺に再帰的にサンプリングするサンプリングした点を2Dマスクに投影し、多数決を取ることで、更新対象から外れた点は追加されないようにしている 9

CL-Splats: 3DGS空間の更新更新対象の点をクラスタリングし、クラスタごとに球を作成して、球の範囲内でガウシアンの最適化を⾏う * 1クラスタあたり1000個以上のガウシアンが属する Unconstrained Optimization (3DGS) Local
Optimization (ours) … Densification While Optimizing … Densification While Optimizing Prune Drifters Drifters Leave Bounding Spheres: Optimizable Gaussians: Pruned Gaussians: 10

実験: データセット CL-Splats CL-NeRF（Synthetic） 11 Synthetic Real 合成データ、実データの両⽅で評価

CL-Splats Dataset 12 ・既存⼿法よりも⼀貫して精度改善・NeRFベースの既存⼿法よりも⾼速かつ⾼精度 * 3DGS+M: 3DGSをベースにCL-Splatsで作成した2Dマスク領域のみを最適化

12 ・定性的にも改善 : 変更箇所 : 未変更箇所 CL-Splats Dataset

実験: CL-NeRF Dataset 14 既存のデータセットでも⼀番いい結果 : 変更箇所 : 未変更箇所

実験: 収束速度の⽐較 NeRFベースの既存⼿法よりもより少ないステップ数で更新可能 CL-NeRF（25K steps: 50分）よりCL-Splats（5K steps: 40秒）の⽅が⾼品質 → 3DGSになったこと、局所的な最適化が要因
15

実験: 2D Maskの精度更新対象を⾒逃すことが問題（過剰に検出することはそこまで問題にならない） → Recallが⾼いことが⼤事 (a) DINOv2のコサイン類似度で作成された初期2Dマスク (b) 3Dマスク（膨張処理なし）
(c) 提案⼿法 16

Applications 各時刻の変化を保存することで、複数時刻の変化を統合することも可能 17

Limitation and Future Work ・3DGSの再構成能⼒に依存・シーン全体の変化（照明変化等）は対応していない → GaussianUpdate [Zeng+, ICCV2025]
では照明変化にも対応・更新対象の検出漏れに弱い（対象物体が薄い場合に発⽣しやすいらしい） Optimization @ 5000 Ground Truth 18

まとめ背景シーンが変化した際に、シーン全体を再撮影・再学習するのは⾮効率 → 変化した領域のみを効率的に更新可能とする3DGSの提案⼿法 2D変化検出: DINOv2で更新前後の画像を⽐較し、2Dマスクを作成 3D変化検出: 2Dマスクを3Dに投影し、多数決で更新対象のGaussianを特定
局所的最適化: 更新対象Gaussianをクラスタリング→球を作成し、球の範囲内で最適化結果 NeRFベースの既存⼿法よりも⾼速かつ⾼精度所感グローバルな変化への対応が次の課題？（照明変化など）影は扱えないかもしれない更新対象のGaussianを特定する部分はもう少し良くできそうに思った 19

CL-Splats: Continual Learning of Gaussian Splat...

CL-Splats: Continual Learning of Gaussian Splatting with Local Optimization

Spatial AI Network

More Decks by Spatial AI Network

Other Decks in Technology

Featured

Transcript