Slide 1

Slide 1 text

論文紹介: Compact 3D Scene Representation via Self-Organizing Gaussian Grids (ECCV 2024) Tianhan Xu, Preferred Networks, Inc. 2024/10/16

Slide 2

Slide 2 text

2 What:ファイルサイズが小さいコンパクトな3DGS表現の獲得 Why:オリジナル3DGSの通常のファイルサイズは数十〜数百MBと非常に大きい How:類似性の高いGaussianを2次元グリッドの近い位置に配置し、このデータ構 造を多次元画像として扱い、画像圧縮技術でファイルサイズを圧縮 概要 ※とくに断りのない場合、図、表はいずれも Compact 3D Scene Representation via Self-Organizing Gaussian Grids (ECCV 2024) の論文からの引用となります

Slide 3

Slide 3 text

3 複数視点画像から三次元シーンを最適化 - 3D表現としては複数の3D Gaussianを使用 - 中心点の位置、共分散、透明度、方向依存の色情報を持つ - レンダリングには、Gaussianを画像平面に投影(splat)し、順序を考慮した色 の重ね合わせ(alpha blending)により画像を形成 - 非常に高速でリアルタイムレンダリングが可能 3D Gaussian Splatting (3DGS) [Kerbl+, 2023]

Slide 4

Slide 4 text

4 3D表現のファイルサイズの比較 (in MB)

Slide 5

Slide 5 text

5 シーンを構成する要素(i.e., Gaussians)の情報を全て元データのまま保持してい る(画像のbitmap imageと同じ) 3DGSはなぜファイルサイズが大きいのか 3DGS 画像 - bitmap: ファイルサイズ大 - JPEG圧縮:ファイルサイズ小 [The USC-SIPI Image Database]

Slide 6

Slide 6 text

6 画像圧縮アルゴリズムの一例:JPEG compression 画像圧縮の仕組み 考え方:画像空間では近接する領域の色が近い 操作:高周波成分を無視 credit: S.Ri+

Slide 7

Slide 7 text

7 3DGSを同じ考え方で圧縮したい 本日紹介する論文: Self-organizing Gaussian Grids [Morgenstern+, ECCV 2024] - 問題設定はオリジナル 3DGSと同 じ(=複数視点画像から 3DGSを 最適化) - 3DGS自体の表現も変化なし(中 心点の位置、共分散、透明度、方 向依存の色) - データのフォーマットとしては圧縮 画像を用いる(上記のパラメータ をJPEGで保存) - ※圧縮は3DGSの学習と同時に 行う必要があり、学習済み 3DGS をpost-processingで圧縮する手 法ではない

Slide 8

Slide 8 text

8 前提:GSのシーンの表現はGaussianの順序に依存しない 操作:各Gaussian(高次元の特徴量)を2次元の正方形グリッドに配置し、近い特 徴量を持つものは近いグリッドにソート(効率的な圧縮が可能) 基本的なアイデア Gaussianは順序交換可能 手法概要

Slide 9

Slide 9 text

9 目標:隣接するグリッドの特徴量の距離の合計が最小となる配置を決定 2次元グリッドのソート Input Sorted - 目的関数: https://www.polarmicrobes.org/tutorial-self-organizing-maps-in-r/

Slide 10

Slide 10 text

10 Self-organizing Map (SOM) [Kohonen+ 1988] 2次元グリッドのソート X*Y=N個のデータをグリッド上に配置 - グリッドのデータをランダムに初期 化 - N個のデータから1つ選び、グリッド で最も近いデータの場所を計算し、 そこにデータを配置 - 近傍のグリッドに対して、距離に応 じて、データの特徴量に近づけるよ うに更新を行う - 上記ステップ2−3を繰り返して全て のデータをグリッド上に配置

Slide 11

Slide 11 text

11 Linear Assignment Sorting (LAS) 2次元グリッドのソート SOMとの違い - 最初にデータをグリッド上にランダムに配置する - Blur処理後、最適な配置を最大マッチング問題として 求め、データの位置交換を行う - Blurの半径を小さくして上記ステップを繰り返す Fast Linear Assignment Sorting (FLAS) LASとの違い - データのサブセットをランダムに選び、サブセット内で 最適な配置を求め、位置交換を行う [Barthel+, 2023]

Slide 12

Slide 12 text

12 3DGSでは数百万〜のGaussianのソートが必要 FLASを改良→PLAS(=Pararell LAS) 2Dグリッドをタイルに分割して、タイル毎に並列して処理 提案手法: PLAS 計算上の工夫 - block間の情報交換のため、分割 の際にblockにランダムシフト (ΔX, ΔY)を施す - block sizeはblurring半径とともに 減少 (coarse-to-fine)

Slide 13

Slide 13 text

13 - タイミング:学習の最初のステップとGS densificationの後 - グリッドの解像度:L^2 < len(Gaussians)を満たす最大のL - GS densificationの後でGaussianの数が変わるため、都度ソートが必要 - 高次元Gaussianの「近さ」を測る距離メトリック - 各物理量を[0, 1]の範囲に正規化し、無次元量として扱う 2次元グリッドのソート

Slide 14

Slide 14 text

14 考え方:似たようなGaussianが多数存在するはず→2D grid上で近隣のGaussian が似たような特徴量を持つように正則化をかける メリット:2D gridを画像圧縮するときの圧縮効率が良い 提案手法: smoothness正則化 Loss

Slide 15

Slide 15 text

15 実験結果 ~19.5x ~21.2x ~41.6x ~17.5x

Slide 16

Slide 16 text

16 実験結果

Slide 17

Slide 17 text

17 新規視点のレンダリング品質は同等でありながら、ファイルサイズはオリジナル 3DGSの17x~42x小さい - SHあり・なしの設定どちらにも効果あり オリジナルGSに比べてGaussianの数が大幅に減っている(=少ないGaussianで 元のシーンを表現可能) - Truckシーン:オリジナルは2.58M, 本手法は1.55M - Gaussianの数が少なくなったことで学習速度が上がり、ソート計算のオーバー ヘッドはあるものの、全体の学習時間はオリジナルGSと変わらない - 推論時のレンダリング速度も向上(オリジナルの385fpsに対して、本手法では 515fps) 実験結果

Slide 18

Slide 18 text

18 実験結果 ソートの可視化(RGB)

Slide 19

Slide 19 text

19 - Opacityが小さいGaussian:下位30%を捨ててもレンダリングへの影響はほと んどなし - ソートの計算時間:数秒〜十数秒程度 Ablation・その他 Ablation on opacity Sorting time

Slide 20

Slide 20 text

20 - 3DGSには2種類の「冗長性」が存在 - 元のシーンのGaussianの冗長性(=不必要・不正確なGaussianが多数存在) - 順序に依存しない高次元データの冗長性(=効率的な圧縮方法があるはず) - 1つ目の冗長性も実はかなり重要? - SplatField [Mihajlovic+, ECCV 2024] も似たような主張(i.e., オリジナル3DGSは近隣 空間の相関性情報を上手く利用できていない) - ソートを毎回やり直すのは少々無駄かもしれない - 最終のソート以外では、smoothness正則化の方が重要であると言えるかもしれない - 圧縮は学習と同時に行われるため、既存の3DGSファイル(.ply)には直接適用できない - GSのplyを受け取って圧縮できるような手法だとより使いやすい - もしくは新たなGSの標準フォーマットが今後できるかもしれない 感想

Slide 21

Slide 21 text

21 - 3DGS.zip: 3DGSの圧縮関連手法をまとめた論文・プロジェクトページ Appendix

Slide 22

Slide 22 text

Making the real world computable