[Journal club] FreeTimeGS: Free Gaussian Primitives at Anytime and Anywhere for Dynamic Scene Reconstruction

FreeTimeGS: Free Gaussian Primitives at Anytime and Anywhere for Dynamic
Scene Reconstruction Yifan Wang1, Peishan Yang1, Zhen Xu1, Jiaming Sun1, Zhanhua Zhang2, Yong Chen2, Hujun Bao1, Sida peng1, Xiaowei Zhou1 1Zhejiang University, 2Geely Automobile Research Institute CVPR2025 慶應義塾大学杉浦孔明研究室木暮緋南 Yifan Wnag, et al. "FreeTimeGS: Free Gaussian Primi9ves at Any9me and Anywhere for Dynamic Scene Reconstruc9on" CVPR 2025. 01

概要 u背景 • レンダリング効率と品質の両立が困難 • 高速・複雑な運動を扱えない u提案手法 • ガウシアンの位置を単純な等速直線運動で表現 •
4D正則化損失、周期的再配置で安定した最適化と高品質なレンダリングを実現 u結果 • Neural3DV、 ENeRF-Outdoorおよび自作データセットにおいて、既存手法を上回った 02

背景：レンダリング速度と品質の両立が課題 uNeRFベース • MLPを用いて時間ごとの色や密度を予測 • 🙅計算コストが非常に高い • 🙅レンダリングが遅い u Gaussianベース
• 3DGSを動的シーンに拡張 • 時間軸での変化をもつガウスを導入 • 🙅NeRFベースよりもレンダリングは速いが、品質が不十分 • 🙅位置と速度を同時に学習する必要があるため、最適化が不安定になる • 🙅複雑な運動に弱いどちらも実用的に不十分 03 Neural3DV [Li+, CVPR22]

関連研究：既存手法では複雑な動きを捉えられないベース手法概要問題点 NeRF HyperReel [Attal+, CVPR23] カメラ視点や時刻に応じてサンプルを選択
🙅レンダリング速度が遅い 🙅ストレージ・リソース要求が大きい 🙅動的・複雑な運動を追えない NeRFPlayer [Song+, TVCG23] 表現を圧縮・分割して順次読み込む Gaussian 4DGS [Yang+, 23] 各Gaussianに「空間 + 時間」の位置と運動パラメータを持たせる 🙅高速運動で不安定 🙅モデルサイズが大きい STGS [Li+, CVPR23] 各Gaussianに多項式+各速度を割り当て運動をモデル化 🙅パラメータが多い 🙅複雑運動で過学習・最適化が困難 4DGS HyperReel 04

提案手法(1/5)：FreeTimeGS u新規性 • ガウシアンの位置・不透明度の時間変動を用いる • 位置を単純な等速直線運動で表現 05

提案手法(2/5)：パラメータ u 各ガウシアンが持つパラメータ • : 位置、ガウス空間上の中心座標 • : 時間、そのガウスがもっとも強く寄与する時刻 •
: 持続時間、そのガウスが寄与する時間の長さ • : 速度、時間とともに移動する向きと速さ • : スケール、ガウスの広がり方 • : 向き、ガウスの楕円体がどの方向に伸びているかを決める回転行列 • : 不透明度、ガウスの濃さを決める値 • : 球面調和係数(SH係数)、ガウスが放つ色を方向依存で表す係数「どこにある」「いつ存在する」「どの方向に動く」「どのくらいの時間有効である」「どんな色を放つ」のかが定義可能 06

提案手法(3/5)：位置の時間変化 u 位置の基本式 • 各ガウシアンは等速直線運動をすると仮定 u 等速直線運動 • 既存手法は「角速度」や「多項式」で動きを表現 •
🙅複雑すぎて最適化が不安定 • 🙅速い動きだと収束しにくい • 単純な等速直線運動を採用 • 🙆近距離の動きだけを学習すれば良い • 🙆速度のみ最適化すれば良い • 🙆計算が安定、局所解にはまりにくい複雑な曲線を、小刻みな直線運動を積み重ねることで表現 07

提案手法(4/5)：色の計算 u色の計算式 • : 学習されるSH係数 • : 球面調和関数 • :
時刻tにおけるカメラから見たガウス中心への方向ベクトル • : 球面調和展開の次数(大きいほど表現力↑) 時間で移動した位置を参照しているため、動くシーンでも正しい方向依存色が出せる 08

提案手法(5/5)：不透明度の時間変動 u 不透明度の定義 • : スケールと回転で決まる共分散行列 • : 時間方向の不透明度 u
時間依存の不透明度 • 時間方向でも中心時刻から離れるほど寄与が小さくなる仕組み時間方向、基準、空間方向の掛け算 09

学習(1/3)：損失関数 u損失関数 • : 画像レベルの損失 • : 構造類似度(SSIM)の損失 • :
知覚損失 • 今回の設定は再構成の正確さ、構造保持、自然さを同時に満たすための損失関数ただし、この損失関数のみでは速い動きや複雑なシーンには不向き 10

学習(2/3)：4D正則化損失 u課題 • 3DGSのレンダリング後の画像とGT画像を比べる損失関数のみだと動きの速い領域で局所解に陥りやすい u原因 • 時間変動を増やしたことにより、無駄に不透明がガウシアンが残ってしまう u対策 •
: その学習ステップで使われる画像数 • : stop-gradient演算子時刻tにおいて、不透明度が高いガウシアンの不透明度の最大値に制限をかける 11

学習(3/3)：周期的再配置 u課題 • 正則化の副作用で、シーンを表現するガウシアンの総数が増えすぎる u対策 • ガウシアンが必要な場所に、定期的にワープさせるサンプリングを行う • : サンプリングスコア
• : 勾配の大きさ • : 重み(今回の設定はどちらも0.5) どのガウスが重要かを数値化 3DGSの密度制御と同様に、スコアが低い領域のガウシアンの値を高い領域のものに置き換える 12

データセット uNeural3DV [Li+, CVPR22] • 6シーン、19-21台のカメラ • 解像度 2704×2028、30 fps
uENeRF-Outdoor [Lin+, SIGGRAPH Asia22] • 3シーン、18台のカメラ • 解像度 1920×1080、60 fps uSelfCap • 独自に収集したデータセット • 8シーン、22-24台のカメラ • 解像度 3840×2160、60 fps 13 Neural3DV [Li+, CVPR22] ENeRF-Outdoor [Lin+, SIGGRAPH Asia22] SelfCap

実験設定 u学習環境 • GPU : NVIDIA RTX 4090 × 1台
• 学習時間 : 約1時間 u評価指標 • PSNR : 生成された画像がGTの画像にどれくらい近いかを測る • DSSIM : 画像の構造的な類似度を測定 • LPIPS : 人間の知覚に近い画像の類似性を測定 14

定量的結果(1/2)：Neural3DV(小〜中程度の動き)で既存手法を上回る • NeRFベース、Gaussianベースどちらの既存手法も上回る 15 +1.08 ±0 -0.001 -0.008

定量的結果(2/2)：SelfCap(高速・複雑な動き)で既存手法を上回る • 高速かつ複雑な動きでも全ての評価指標で既存手法を上回る • FPSも最大 • 計算効率・描画速度の指標 • 画像全体に対して計算/動的領域のみに対して計算 16

Ablation Study：各コンポーネントの影響 • our motion : FreeTimeGS独自の運動表現 • 4d regularization
: 4D正則化 • periodic relocation : 周期的再配置 • 4d initialization : 4D初期化 17

定性的結果：細部まで再構成可能 • ENeRF-Outdoorにおける定性結果 • 細かい部分も既存手法に比べて綺麗に再構成できている 18

まとめ 19 u背景 • レンダリング効率と品質の両立が困難 • 高速・複雑な運動を扱えない u提案手法 • ガウシアンの位置を単純な等速直線運動で表現
• 4D正則化損失、周期的再配置で安定した最適化と高品質なレンダリングを実現 u結果 • Neural3DV、 ENeRF-Outdoorおよび自作データセットにおいて、既存手法を上回った

Appendix 20

Appendix(1/3)：4D初期化 21 u 初期化の理由 • ガウシアンの「位置」「時間」「速度」をランダムにすると最適化が不安定になる動画のフレームとマルチビュー画像を使って合理的な初期値を与える u 初期化の流れ
1. ROMA [Edstedt+, CVPR24]を使って2D対応点を見つける 2. 3D三角測量で3D点を計算 3. フレーム番号をそのまま時間の初期値にする 4. 速度の初期化 u 速度の最適化「速度の学習率」を時間に応じて徐々に変化学習初期 (t=0) → 粗い大きな動きをモデリング学習後期 (t=1) → 細かく複雑な動きをキャプチャ

Appendix(2/3)：定量的結果 22 • ENeRF-Outdoor(屋外シーンかつ大きな動きあり)データセットでの定量的結果 • 全ての評価指標で既存手法を上回る

Appendix(3/3)：Ablation Study • 4D正則化損失の強さ（λreg）を変えたときの影響 23

[Journal club] FreeTimeGS: Free Gaussian Primit...

[Journal club] FreeTimeGS: Free Gaussian Primitives at Anytime and Anywhere for Dynamic Scene Reconstruction

Semantic Machine Intelligence Lab., Keio Univ. PRO

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript

FreeTimeGS: Free Gaussian Primitives at Anytime and Anywhere for Dynamic

概要 u背景 • レンダリング効率と品質の両立が困難 • 高速・複雑な運動を扱えない u提案手法 • ガウシアンの位置を単純な等速直線運動で表現 •

背景：レンダリング速度と品質の両立が課題 uNeRFベース • MLPを用いて時間ごとの色や密度を予測 • 🙅計算コストが非常に高い • 🙅レンダリングが遅い u Gaussianベース

関連研究：既存手法では複雑な動きを捉えられないベース手法概要問題点 NeRF HyperReel [Attal+, CVPR23] カメラ視点や時刻に応じてサンプルを選択

提案手法(1/5)：FreeTimeGS u新規性 • ガウシアンの位置・不透明度の時間変動を用いる • 位置を単純な等速直線運動で表現 05

提案手法(2/5)：パラメータ u 各ガウシアンが持つパラメータ • : 位置、ガウス空間上の中心座標 • : 時間、そのガウスがもっとも強く寄与する時刻 •

提案手法(3/5)：位置の時間変化 u 位置の基本式 • 各ガウシアンは等速直線運動をすると仮定 u 等速直線運動 • 既存手法は「角速度」や「多項式」で動きを表現 •

提案手法(4/5)：色の計算 u色の計算式 • : 学習されるSH係数 • : 球面調和関数 • :

提案手法(5/5)：不透明度の時間変動 u 不透明度の定義 • : スケールと回転で決まる共分散行列 • : 時間方向の不透明度 u

学習(1/3)：損失関数 u損失関数 • : 画像レベルの損失 • : 構造類似度(SSIM)の損失 • :

学習(3/3)：周期的再配置 u課題 • 正則化の副作用で、シーンを表現するガウシアンの総数が増えすぎる u対策 • ガウシアンが必要な場所に、定期的にワープさせるサンプリングを行う • : サンプリングスコア

データセット uNeural3DV [Li+, CVPR22] • 6シーン、19-21台のカメラ • 解像度 2704×2028、30 fps

実験設定 u学習環境 • GPU : NVIDIA RTX 4090 × 1台

定量的結果(1/2)：Neural3DV(小〜中程度の動き)で既存手法を上回る • NeRFベース、Gaussianベースどちらの既存手法も上回る 15 +1.08 ±0 -0.001 -0.008

Ablation Study：各コンポーネントの影響 • our motion : FreeTimeGS独自の運動表現 • 4d regularization

定性的結果：細部まで再構成可能 • ENeRF-Outdoorにおける定性結果 • 細かい部分も既存手法に比べて綺麗に再構成できている 18

まとめ 19 u背景 • レンダリング効率と品質の両立が困難 • 高速・複雑な運動を扱えない u提案手法 • ガウシアンの位置を単純な等速直線運動で表現

Appendix 20

Appendix(1/3)：4D初期化 21 u 初期化の理由 • ガウシアンの「位置」「時間」「速度」をランダムにすると最適化が不安定になる動画のフレームとマルチビュー画像を使って合理的な初期値を与える u 初期化の流れ

Appendix(2/3)：定量的結果 22 • ENeRF-Outdoor(屋外シーンかつ大きな動きあり)データセットでの定量的結果 • 全ての評価指標で既存手法を上回る

Appendix(3/3)：Ablation Study • 4D正則化損失の強さ（λreg）を変えたときの影響 23