Compact 3D Scene Representation via Self-Organizing Gaussian Grids

Slide 1

Slide 1 text

論文紹介： Compact 3D Scene Representation via Self-Organizing Gaussian Grids (ECCV 2024) Tianhan Xu, Preferred Networks, Inc. 2024/10/16

Slide 2

Slide 2 text

2 What：ファイルサイズが小さいコンパクトな3DGS表現の獲得 Why：オリジナル3DGSの通常のファイルサイズは数十〜数百MBと非常に大きい How：類似性の高いGaussianを2次元グリッドの近い位置に配置し、このデータ構造を多次元画像として扱い、画像圧縮技術でファイルサイズを圧縮概要 ※とくに断りのない場合、図、表はいずれも Compact 3D Scene Representation via Self-Organizing Gaussian Grids (ECCV 2024) の論文からの引用となります

Slide 3

Slide 3 text

3 複数視点画像から三次元シーンを最適化 - 3D表現としては複数の3D Gaussianを使用 - 中心点の位置、共分散、透明度、方向依存の色情報を持つ - レンダリングには、Gaussianを画像平面に投影（splat）し、順序を考慮した色の重ね合わせ（alpha blending）により画像を形成 - 非常に高速でリアルタイムレンダリングが可能 3D Gaussian Splatting (3DGS) [Kerbl+, 2023]

Slide 4

Slide 4 text

4 3D表現のファイルサイズの比較 (in MB)

Slide 5

Slide 5 text

5 シーンを構成する要素（i.e., Gaussians）の情報を全て元データのまま保持している（画像のbitmap imageと同じ） 3DGSはなぜファイルサイズが大きいのか 3DGS 画像 - bitmap: ファイルサイズ大 - JPEG圧縮：ファイルサイズ小 [The USC-SIPI Image Database]

Slide 6

Slide 6 text

6 画像圧縮アルゴリズムの一例：JPEG compression 画像圧縮の仕組み考え方：画像空間では近接する領域の色が近い操作：高周波成分を無視 credit: S.Ri+

Slide 7

Slide 7 text

7 3DGSを同じ考え方で圧縮したい本日紹介する論文: Self-organizing Gaussian Grids [Morgenstern+, ECCV 2024] - 問題設定はオリジナル 3DGSと同じ（＝複数視点画像から 3DGSを最適化） - 3DGS自体の表現も変化なし（中心点の位置、共分散、透明度、方向依存の色） - データのフォーマットとしては圧縮画像を用いる（上記のパラメータをJPEGで保存） - ※圧縮は3DGSの学習と同時に行う必要があり、学習済み 3DGS をpost-processingで圧縮する手法ではない

Slide 8

Slide 8 text

8 前提：GSのシーンの表現はGaussianの順序に依存しない操作：各Gaussian（高次元の特徴量）を2次元の正方形グリッドに配置し、近い特徴量を持つものは近いグリッドにソート（効率的な圧縮が可能）基本的なアイデア Gaussianは順序交換可能手法概要

Slide 9

Slide 9 text

9 目標：隣接するグリッドの特徴量の距離の合計が最小となる配置を決定 2次元グリッドのソート Input Sorted - 目的関数： https://www.polarmicrobes.org/tutorial-self-organizing-maps-in-r/

Slide 10

Slide 10 text

10 Self-organizing Map (SOM) [Kohonen+ 1988] 2次元グリッドのソート X*Y=N個のデータをグリッド上に配置 - グリッドのデータをランダムに初期化 - N個のデータから1つ選び、グリッドで最も近いデータの場所を計算し、そこにデータを配置 - 近傍のグリッドに対して、距離に応じて、データの特徴量に近づけるように更新を行う - 上記ステップ2−3を繰り返して全てのデータをグリッド上に配置

Slide 11

Slide 11 text

11 Linear Assignment Sorting (LAS) 2次元グリッドのソート SOMとの違い - 最初にデータをグリッド上にランダムに配置する - Blur処理後、最適な配置を最大マッチング問題として求め、データの位置交換を行う - Blurの半径を小さくして上記ステップを繰り返す Fast Linear Assignment Sorting (FLAS) LASとの違い - データのサブセットをランダムに選び、サブセット内で最適な配置を求め、位置交換を行う [Barthel+, 2023]

Slide 12

Slide 12 text

12 3DGSでは数百万〜のGaussianのソートが必要 FLASを改良→PLAS（=Pararell LAS） 2Dグリッドをタイルに分割して、タイル毎に並列して処理提案手法： PLAS 計算上の工夫 - block間の情報交換のため、分割の際にblockにランダムシフト (ΔX, ΔY)を施す - block sizeはblurring半径とともに減少 (coarse-to-ﬁne)

Slide 13

Slide 13 text

13 - タイミング：学習の最初のステップとGS densiﬁcationの後 - グリッドの解像度：L^2 < len(Gaussians)を満たす最大のL - GS densiﬁcationの後でGaussianの数が変わるため、都度ソートが必要 - 高次元Gaussianの「近さ」を測る距離メトリック - 各物理量を[0, 1]の範囲に正規化し、無次元量として扱う 2次元グリッドのソート

Slide 14

Slide 14 text

14 考え方：似たようなGaussianが多数存在するはず→2D grid上で近隣のGaussian が似たような特徴量を持つように正則化をかけるメリット：2D gridを画像圧縮するときの圧縮効率が良い提案手法： smoothness正則化 Loss

Slide 15

Slide 15 text

15 実験結果 ~19.5x ~21.2x ~41.6x ~17.5x

Slide 16

Slide 16 text

16 実験結果

Slide 17

Slide 17 text

17 新規視点のレンダリング品質は同等でありながら、ファイルサイズはオリジナル 3DGSの17x~42x小さい - SHあり・なしの設定どちらにも効果ありオリジナルGSに比べてGaussianの数が大幅に減っている（＝少ないGaussianで元のシーンを表現可能） - Truckシーン：オリジナルは2.58M, 本手法は1.55M - Gaussianの数が少なくなったことで学習速度が上がり、ソート計算のオーバーヘッドはあるものの、全体の学習時間はオリジナルGSと変わらない - 推論時のレンダリング速度も向上（オリジナルの385fpsに対して、本手法では 515fps）実験結果

Slide 18

Slide 18 text

18 実験結果ソートの可視化（RGB）

Slide 19

Slide 19 text

19 - Opacityが小さいGaussian：下位30%を捨ててもレンダリングへの影響はほとんどなし - ソートの計算時間：数秒〜十数秒程度 Ablation・その他 Ablation on opacity Sorting time

Slide 20

Slide 20 text

20 - 3DGSには2種類の「冗長性」が存在 - 元のシーンのGaussianの冗長性（＝不必要・不正確なGaussianが多数存在） - 順序に依存しない高次元データの冗長性（＝効率的な圧縮方法があるはず） - 1つ目の冗長性も実はかなり重要？ - SplatField [Mihajlovic+, ECCV 2024] も似たような主張（i.e., オリジナル3DGSは近隣空間の相関性情報を上手く利用できていない） - ソートを毎回やり直すのは少々無駄かもしれない - 最終のソート以外では、smoothness正則化の方が重要であると言えるかもしれない - 圧縮は学習と同時に行われるため、既存の3DGSファイル（.ply）には直接適用できない - GSのplyを受け取って圧縮できるような手法だとより使いやすい - もしくは新たなGSの標準フォーマットが今後できるかもしれない感想

Slide 21

Slide 21 text

21 - 3DGS.zip: 3DGSの圧縮関連手法をまとめた論文・プロジェクトページ Appendix

Slide 22

Slide 22 text

Making the real world computable