Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Journal club] FreeTimeGS: Free Gaussian Primit...

[Journal club] FreeTimeGS: Free Gaussian Primitives at Anytime and Anywhere for Dynamic Scene Reconstruction

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. FreeTimeGS: Free Gaussian Primitives at Anytime and Anywhere for Dynamic

    Scene Reconstruction Yifan Wang1, Peishan Yang1, Zhen Xu1, Jiaming Sun1, Zhanhua Zhang2, Yong Chen2, Hujun Bao1, Sida peng1, Xiaowei Zhou1 1Zhejiang University, 2Geely Automobile Research Institute CVPR2025 慶應義塾大学 杉浦孔明研究室 木暮緋南 Yifan Wnag, et al. "FreeTimeGS: Free Gaussian Primi9ves at Any9me and Anywhere for Dynamic Scene Reconstruc9on" CVPR 2025. 01
  2. 概要 u背景 • レンダリング効率と品質の両立が困難 • 高速・複雑な運動を扱えない u提案手法 • ガウシアンの位置を単純な等速直線運動で表現 •

    4D正則化損失、 周期的再配置で安定した最適化と高品質なレンダリングを 実現 u結果 • Neural3DV、 ENeRF-Outdoorおよび自作データセットにおいて、 既存手法を上回った 02
  3. 背景:レンダリング速度と品質の両立が課題 uNeRFベース • MLPを用いて時間ごとの色や密度を予測 • 🙅計算コストが非常に高い • 🙅レンダリングが遅い u Gaussianベース

    • 3DGSを動的シーンに拡張 • 時間軸での変化をもつガウスを導入 • 🙅NeRFベースよりもレンダリングは速いが、品質が不十分 • 🙅位置と速度を同時に学習する必要があるため、最適化が不安定になる • 🙅複雑な運動に弱い どちらも実用的に不十分 03 Neural3DV [Li+, CVPR22]
  4. 関連研究:既存手法では複雑な動きを捉えられない ベース 手法 概要 問題点 NeRF HyperReel [Attal+, CVPR23] カメラ視点や時刻に応じてサンプルを選択

    🙅レンダリング速度が遅い 🙅ストレージ・リソース要求が大きい 🙅動的・複雑な運動を追えない NeRFPlayer [Song+, TVCG23] 表現を圧縮・分割して順次読み込む Gaussian 4DGS [Yang+, 23] 各Gaussianに「空間 + 時間」の位置と 運動パラメータを持たせる 🙅高速運動で不安定 🙅モデルサイズが大きい STGS [Li+, CVPR23] 各Gaussianに多項式+各速度を割り当て 運動をモデル化 🙅パラメータが多い 🙅複雑運動で過学習・最適化が困難 4DGS HyperReel 04
  5. 提案手法(2/5):パラメータ u 各ガウシアンが持つパラメータ • : 位置、ガウス空間上の中心座標 • : 時間、そのガウスがもっとも強く寄与する時刻 •

    : 持続時間、そのガウスが寄与する時間の長さ • : 速度、時間とともに移動する向きと速さ • : スケール、ガウスの広がり方 • : 向き、ガウスの楕円体がどの方向に伸びているかを決める回転行列 • : 不透明度、ガウスの濃さを決める値 • : 球面調和係数(SH係数)、ガウスが放つ色を方向依存で表す係数 「どこにある」「いつ存在する」「どの方向に動く」「どのくらいの時間 有効である」「どんな色を放つ」のかが定義可能 06
  6. 提案手法(3/5):位置の時間変化 u 位置の基本式 • 各ガウシアンは等速直線運動をすると仮定 u 等速直線運動 • 既存手法は「角速度」や「多項式」で動きを表現 •

    🙅複雑すぎて最適化が不安定 • 🙅速い動きだと収束しにくい • 単純な等速直線運動を採用 • 🙆近距離の動きだけを学習すれば良い • 🙆速度のみ最適化すれば良い • 🙆計算が安定、局所解にはまりにくい 複雑な曲線を、小刻みな直線運動を積み重ねることで表現 07
  7. 提案手法(4/5):色の計算 u色の計算式 • : 学習されるSH係数 • : 球面調和関数 • :

    時刻tにおけるカメラから見たガウス中心への方向ベクトル • : 球面調和展開の次数(大きいほど表現力↑) 時間で移動した位置を参照しているため、動くシーンでも正しい 方向依存色が出せる 08
  8. 提案手法(5/5):不透明度の時間変動 u 不透明度の定義 • : スケールと回転で決まる共分散行列 • : 時間方向の不透明度 u

    時間依存の不透明度 • 時間方向でも中心時刻から離れるほど寄与が小さくなる仕組み 時間方向、基準、空間方向の掛け算 09
  9. 学習(1/3):損失関数 u損失関数 • : 画像レベルの損失 • : 構造類似度(SSIM)の損失 • :

    知覚損失 • 今回の設定は 再構成の正確さ、構造保持、自然さを同時に満たすための損失関数 ただし、この損失関数のみでは速い動きや複雑なシーンには不向き 10
  10. 学習(3/3):周期的再配置 u課題 • 正則化の副作用で、シーンを表現するガウシアンの総数が増えすぎる u対策 • ガウシアンが必要な場所に、定期的にワープさせるサンプリングを行う • : サンプリングスコア

    • : 勾配の大きさ • : 重み(今回の設定はどちらも0.5) どのガウスが重要かを数値化 3DGSの密度制御と同様に、スコアが低い領域の ガウシアンの値を高い領域のものに置き換える 12
  11. データセット uNeural3DV [Li+, CVPR22] • 6シーン、19-21台のカメラ • 解像度 2704×2028、30 fps

    uENeRF-Outdoor [Lin+, SIGGRAPH Asia22] • 3シーン、18台のカメラ • 解像度 1920×1080、60 fps uSelfCap • 独自に収集したデータセット • 8シーン、22-24台のカメラ • 解像度 3840×2160、60 fps 13 Neural3DV [Li+, CVPR22] ENeRF-Outdoor [Lin+, SIGGRAPH Asia22] SelfCap
  12. 実験設定 u学習環境 • GPU : NVIDIA RTX 4090 × 1台

    • 学習時間 : 約1時間 u評価指標 • PSNR : 生成された画像がGTの画像にどれくらい近いかを測る • DSSIM : 画像の構造的な類似度を測定 • LPIPS : 人間の知覚に近い画像の類似性を測定 14
  13. Ablation Study:各コンポーネントの影響 • our motion : FreeTimeGS独自の運動表現 • 4d regularization

    : 4D正則化 • periodic relocation : 周期的再配置 • 4d initialization : 4D初期化 17
  14. まとめ 19 u背景 • レンダリング効率と品質の両立が困難 • 高速・複雑な運動を扱えない u提案手法 • ガウシアンの位置を単純な等速直線運動で表現

    • 4D正則化損失、 周期的再配置で安定した最適化と高品質なレンダリングを 実現 u結果 • Neural3DV、 ENeRF-Outdoorおよび自作データセットにおいて、 既存手法を上回った
  15. Appendix(1/3):4D初期化 21 u 初期化の理由 • ガウシアンの「位置」「時間」「速度」をランダムにすると最適化が不安定になる 動画のフレームとマルチビュー画像を使って 合理的な初期値を与える u 初期化の流れ

    1. ROMA [Edstedt+, CVPR24]を使って2D対応点を見つける 2. 3D三角測量で3D点を計算 3. フレーム番号をそのまま時間の初期値にする 4. 速度の初期化 u 速度の最適化 「速度の学習率」を時間に応じて徐々に変化 学習初期 (t=0) → 粗い大きな動きをモデリング 学習後期 (t=1) → 細かく複雑な動きをキャプチャ