Upgrade to Pro — share decks privately, control downloads, hide ads and more …

CL-Splats: Continual Learning of Gaussian Splat...

Avatar for Spatial AI Network Spatial AI Network
November 24, 2025
0

CL-Splats: Continual Learning of Gaussian Splatting with Local Optimization

- シーンが変化した際にGaussian Splattingを効率的に更新するCL-Splatsを提案。変化領域のみを局所的に最適化することで既存手法の75倍高速な処理を実現。
- DINOv2による2D変化検出と多数決投票による3Dマッピングを組み合わせ、変化部分のGaussianのみを最適化し高品質な再構成を達成。
- 明示的な3D表現により過去のシーン状態の効率的な復元を可能にし、リアルタイムレンダリングも可能。

Avatar for Spatial AI Network

Spatial AI Network

November 24, 2025
Tweet

More Decks by Spatial AI Network

Transcript

  1. CL-Splats: Continual Learning of Gaussian Splatting with Local Optimization (Akkerman+,

    ICCV2025) 2025/11/04 東京⼤学 ⼤隣 嵩 * 特に注釈がなければ図表は論⽂から引⽤しています
  2. タスク ・前時刻の3DGS 3 ⼊⼒ ・更新画像のカメラパラメータ ・更新画像 Cosine Similarity DinoV2 Feature

    Extraction Predicting 2D Change Masks Render (t0) GT (t1) Input 1 2 4 t1 Cosine Similarity DinoV2 Feature Extraction Predicting 2D Change Masks Render (t0) GT (t1) Input 3DGS Reconstruction (t0) 3D Mask Camera Poses Sampling Voting Section 3.1 Lifting Masks to 3D 1 2 3 t1 t0 Similarity Feature Extraction 3DGS Reconstruction (t0) 3D Mask Camera Poses Sampling Voting Section 3.1 Section 3.2 Lifting Masks to 3D 3 t1 t0 ・更新後の3DGS 出⼒ Time 0 Time 1 Time 2 Time 3 Time 0 à Time 1 Time 1 à Time 2 Time 2 à Time 3
  3. 関連研究: CL-NeRF、CLNeRF CLNeRF [Cai+, ICCV2023] ・NeRFの破滅的忘却を防ぐため、過去のカメラパラメータを保存しておいて、 過去の情報も継続的に学習 ・時間による形状・外観の変化をAppearance & Geometry

    Embeddingで表現 (NeRF-WやBlock-NeRFと似たアプローチ) CL-NeRF [Wu+, NeurIPS2023] ・変化領域を学習する軽量のMLPを別途追加 ・変化の残差 & 変化している確率を出⼒ ・過去の情報も継続的に学習 結論: NeRFだと過去の情報を変えずに保存するのが⼤変だった 5
  4. CL-Splats: アーキテクチャ Cosine Similarity DinoV2 Feature Extraction Predicting 2D Change

    Masks Render (t0) GT (t1) Input Local Optimization Dynamic- Static-Split Pruning Local Kernel 3DGS Reconstruction (t0) 3D Mask Camera Poses Sampling Voting Section 3.1 Section 3.2 Section 3.3 Lifting Masks to 3D 1 2 3 4 t1 t0 ・前時刻の3DGSと新時刻の画像群&カメラパラメータから局所的にシーンを更新 ・変化領域の検出(2D & 3D) → 変化領域のみの3DGS最適化で更新 * カメラパラメータは全時刻間でCOLMAPによる位置合わせができている前提 * 照明の変化は考慮していない 6
  5. CL-Splats: 変更箇所の検出 ・新画像の視点で前時刻の3DGSからレンダリング ・レンダリング画像(t0)と新画像(t1)のDinoV2特徴量間のコサイン類似度を計算 ・2値化 & アップスケール & 取りこぼしを防ぐため、マスクを膨張処理 Cosine

    Similarit DinoV2 Feature Extraction Predicting 2D Change Mask Render (t0) GT (t1) Input Camera Poses Section 3.1 Lifting Masks to 3D 1 2 3 t1 t0 Cosine Similarity DinoV2 Feature Extraction Predicting 2D Change Masks er (t0) GT (t1) put 2 4 Render (t0) GT (t1) DINOv2 Cosine Similarity DinoV2 Feature Extraction Predicting 2D Change Masks Render (t0) GT (t1) Input Camera Poses Section 3.1 Lifting Masks to 3D 1 2 3 t1 t0 Cosine Similarity DinoV2 Feature Extraction Predicting 2D Change Masks 0) GT (t1) L 2 4 DINOv2 feature (t0) DINOv2 feature(t1) Cosine Similarity DinoV2 Feature Extraction Predicting 2D Change Masks r (t0) GT (t1) put Section 3.1 2 コサイン類似度 7
  6. CL-Splats: 2Dマスク → 3Dマスク マスクをそのまま使うだけでは、背景領域など(例えば、更新物体の裏にある机) も含めて更新してしまう → 2Dマスク群から更新対象の3D領域を特定する必要がある 各Gaussianが2Dマスク領域内に投影された回数を数える →

    マスク内の投影回数が半分以上の場合に、更新対象のGaussianとする Differentia Tile Rasteri Adaptive Density Control Projection 3D Gaussians Camera Operation 3D Gaussians 2Dマスク内に⼊った回数をカウント (Voting) Similarity Feature Extraction 3D Mask Sampling Voting Section 3.1 Section 3.2 Lifting Masks to 3D 3 Cosine Similarity DinoV2 Feature Extraction 3D Mask Sampling Voting Section 3.1 Section 3.2 Lifting Masks to 3D 3 3Dマスク 8 🤔 複数の更新物体がある場合、更新物体が映らないことが増えるので、 このアルゴリズムだとうまくいかないかもしれない
  7. CL-Splats: 2Dマスク → 3Dマスク 物体が追加された場合は、既存のGaussianを更新するだけでは不⼗分 → 新たに点をサンプリングする ・⼗分な数の更新対象のGaussianがある(物体が削除された場合) → サンプリングしない

    ・1個も更新対象のGaussianがない → ランダムサンプリング ・更新対象のGaussianはあるが、⼗分な数がない場合 → 既存の点の周辺に再帰的にサンプリングする サンプリングした点を2Dマスクに投影し、多数決を取ることで、 更新対象から外れた点は追加されないようにしている 9
  8. Limitation and Future Work ・3DGSの再構成能⼒に依存 ・シーン全体の変化(照明変化等)は対応していない → GaussianUpdate [Zeng+, ICCV2025]

    では照明変化にも対応 ・更新対象の検出漏れに弱い(対象物体が薄い場合に発⽣しやすいらしい) Optimization @ 5000 Ground Truth 18
  9. まとめ 背景 シーンが変化した際に、シーン全体を再撮影・再学習するのは⾮効率 → 変化した領域のみを効率的に更新可能とする3DGSの提案 ⼿法 2D変化検出: DINOv2で更新前後の画像を⽐較し、2Dマスクを作成 3D変化検出: 2Dマスクを3Dに投影し、多数決で更新対象のGaussianを特定

    局所的最適化: 更新対象Gaussianをクラスタリング→球を作成し、球の範囲内で最適化 結果 NeRFベースの既存⼿法よりも⾼速かつ⾼精度 所感 グローバルな変化への対応が次の課題?(照明変化など) 影は扱えないかもしれない 更新対象のGaussianを特定する部分はもう少し良くできそうに思った 19