LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation

Slide 1

Slide 1 text

LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation (ECCV2024 oral) 2024/10/16 野口敦裕

Slide 2

Slide 2 text

2 ● テキストや画像から3Dのモデルを生成 ● ゲーム、VR、映像制作などでの活用が期待 ● ここ数年で急に進展 3Dコンテンツ生成 a DSLR photo of a squirrel DreamFusion [Poole+, ICLR2023]

Slide 3

Slide 3 text

3 ECCV2024 oral 多視点画像からの3D Gaussian Splattingの生成手法既存の多視点画像生成と組みわせることで、高かつ高精細な image/text to 3DGSを実現 Demo LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation Image-to-3D text-to-3D A toy bear 以降とくに断りのない場合、図、表はいずれも LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation (ECCV 2024) の論文からの引用となります

Slide 4

Slide 4 text

4 3D生成のアプローチ最適化ベースの手法じっくり時間をかけて3D表現を綺麗に DreamFusion [Poole+, ICLR2023] Feedforwardな手法 3D表現を直接推定 LRM [Hong+, ICLR2024] LGM [Tang+ ECCV2024]

Slide 5

Slide 5 text

5 3D表現(NeRF, 3D gaussian splatting, mesh)などを見た目の自然さやテキスト一致度が改善する方に反復的に更新 Score Distillation Sampling (SDS) [Poole+, ICLR2023] ● 訓練済みのtext-to-2D image拡散モデルを用いて更新方向を推定 3D生成のアプローチ：最適化ベース a DSLR photo of a squirrel 2D拡散モデル 3D表現ランダム視点レンダリング

Slide 6

Slide 6 text

6 質の高い3D表現を得られるが学習に時間がかかる 3D生成のアプローチ：最適化ベース NeRFベース DreamFusion [Poole+, ICLR2023] 訓練時間 1.5h Meshベース Fantasia3D [Chen+, ICCV2023] 訓練時間 ~30min 3D GSベース DreamGaussian [Tang+, ICLR2024] 訓練時間 ~2min

Slide 7

Slide 7 text

7 3D表現を直接推定するアプローチ。高（数秒） LRM [Hong+, ICLR2024] ● single image→TriplaneベースのNeRF推定 ● 多様な物体の多視点画像を用いて、新規視点の再構成により学習 TriplaneGaussian[Zou+ CVPR2024] ● single image → 3D Gaussian Splattingパラメータを直接推定 3D生成のアプローチ： Feedforwardな手法 single-view recon. Rendering novel view input

Slide 8

Slide 8 text

8 ✔ 推論のみのため、高な3D生成が可能 ● LRM ~5s, TriplaneGaussian ~0.14s ❌ 3D表現の解像度が限定的 ❌ 裏面がぼやけがち ● 回帰ベースのモデルであり新たな情報を生成するのは苦手 3D生成のアプローチ： Feedforwardな手法

Slide 9

Slide 9 text

9 既存の多視点拡散モデルを用いて4視点の多視点画像を生成し、画像とカメラ姿勢から3D Gaussian Splattingのパラメータを推定するメッシュへの変換手法も提案 LGM：パイプライン

Slide 10

Slide 10 text

10 ● 2D diffusion model ○ 大量の画像で訓練され、見た目やテキストに対する事前情報を持つ ● 多視点拡散モデル ○ 2D diffusion modelを多視点画像でfinetuneし、同じ物体を複数の角度からみた画像を生成 ○ 生成画像同士の3D一貫性はないかもしれない背景：多視点画像生成モデルテキストからの多視点画像生成 MVDream [Shi+, ICLR2024] 画像/テキストからの多視点画像生成 ImageDream [Wang+, 2023]

Slide 11

Slide 11 text

11 入力：4視点画像 [0°, 90°, 180°, 270°]、カメラ姿勢出力：ピクセル毎のGSのcolor(w/o spherical harmonics), opacity, scale, rotation 3D GS推定器：全体像

Slide 12

Slide 12 text

12 Plücker ray embedding ● o: カメラの視点, d: 視線方向 ● rayの直線を、視点の位置によらず一意なベクトルとして表現でき、特異点がない連続な表現 (Light Field Networks [Sitzmann+ NeurIPS2021]) 各画素に対応するray embeddingを入力RGB画像にチャンネル方向に結合し、9 channelの画像として扱う 1つ目のカメラが正面の固定の位置になるようにカメラ姿勢を座標変換 3D GS推定器：カメラ姿勢の条件付け

Slide 13

Slide 13 text

13 U-Netベースのモデル ● 入力：RGB + ray embedding, 解像度256 ● 出力：ピクセル毎のGaussian, 解像度128 ● 解像度を下げることでgaussianの個数を削減出力は14チャンネル ● position(3), color(3), opacity(1), rotation(4), scale(3) ● 3d positionは直接予測する（ray上にあることは前提としない） ● 背景は特別視しない（opacityが0になる/物体の内側を埋めることを期待？） 3D GS推定器：ネットワーク

Slide 14

Slide 14 text

14 Cross-view attention ● 複数のviewの情報を受け渡す構 ● 4枚の画像特徴をﬂattenし、self-attentionをかける ● メモリ削減のため低解像度(32以下)な層のみ適用 3D GS推定器：ネットワーク

Slide 15

Slide 15 text

15 ピクセル毎に推定されたGSパラメータを1つにまとめて、シーンの3D表現とする ● Gaussianの個数 128^2 x 4view = 65536 GSの微分可能ラスタライザを用いて任意視点の画像をレンダリングできる → end2endな画像レベルの最適化 3D GS推定器：シーンの表現

Slide 16

Slide 16 text

16 ● 入力4視点、novel-view 4視点の計8視点について、正解との再構成損失をとる（実装は4入力、8出力） ○ レンダリング解像度は512 ● 正解RGBとの間のmean squared errorとLPIPS loss ● alpha画像についてもmean squared errorをとる ○ 形状に対する教師情報が得られるため、訓練が高化 Loss Function

Slide 17

Slide 17 text

17 訓練時は3D CGデータセット (Objavserse) をレンダリングした画像で 3D一貫性があるが、推論時は多視点拡散モデルの出力を使うのでドメインキャップ有 Data Augmentationで回避 ● Grid Distortion ○ 多視点拡散モデルの出力の微小な一貫性のなさをシミュレート ○ １枚目の画像は大抵基準の正面画像なので、１枚目以外を歪ませる ● Orbital Camera Jitter ○ 多視点拡散モデルがカメラ姿勢を正確に反映しないケースに対応 ○ 1枚目以外のカメラ姿勢（回転）に変動を加える Robust Training

Slide 18

Slide 18 text

18 3D GSをメッシュに変換する既存手法 (DreamGaussian [Yi+ CVPR2024]) ● 3D GSをopacity gridに変換し、marching cubeでメッシュを抽出 ● GSレンダリングRGB値をテクスチャ画像にback projection ● 3D GSが滑らかな表面を形成することを前提とする ○ LGMで生成されるGSは疎なので、メッシュに穴が開くメッシュ抽出

Slide 19

Slide 19 text

19 提案手法：GS rendering画像でNeRFを訓練し、NeRF2Mesh[Tang+ ICCV20203] メッシュ抽出

Slide 20

Slide 20 text

20 データセット ● objaverseから選別したsubset 80K物体 ● それぞれ100視点のRGBA画像を解像度512でレンダリング訓練 ● 32 A100 80Gで4日 ● バッチサイズ256 推論 ● 多視点拡散モデルとしては、訓練済みImageDream [Wang+, 2023] (image-to-3d)と MVDeram [Shi+, ICLR2024] (text-to-3d)をそれぞれ使用実験設定

Slide 21

Slide 21 text

21 vs. TriplaneGaussian [Zou+ CVPR2024], DreamGaussian [Yi+ CVPR2024] 精細で, 入力画像を反映した生成ができている結果：Image-to-3DGS手法との比較生成時間（各論文より引用） 5s ~2min 0.14s

Slide 22

Slide 22 text

22 vs. TriplaneGaussian [Zou+ CVPR2024], DreamGaussian [Yi+ CVPR2024] 人手による定量評価 ● 30物体 x 20人 ● 画像の一貫性と生成結果の質について1~5点で評価自動評価による定量評価はなし結果：Image-to-3DGS生成手法との比較

Slide 23

Slide 23 text

23 feedforward手法では、裏面のテクスチャや形状推定が苦手提案手法では多視点拡散モデルの能力により、詳細な生成が可能結果：LRM [Hong+, ICLR2024]との比較

Slide 24

Slide 24 text

24 vs. Shap-E [Jun+ 2023], DreamGaussian 結果：Text-to-3D手法との比較 ~10s 5s ~2min

Slide 25

Slide 25 text

25 訓練済みの多視点拡散モデルのおかげで多様な生成を行うことができる結果：生成結果の多様性

Slide 26

Slide 26 text

26 DreamGaussianの手法と比較すると、穴が開かない滑らかな表面が得られる GSのレンダリング結果と比較するとテクスチャや形状の細かさは失われている main paperではmesh抽出の結果について触れられていないメッシュ抽出 GSのレンダリング画像

Slide 27

Slide 27 text

27 多視点生成画像を入力としない場合の実験単視点画像を入力として、出力ピクセルにつき2つgaussianを生成前面は忠実に再構成できるが、背面はぼやけてしまう再構成タスクで訓練しているため、汎化能力には乏しい Ablation study：単視点入力との比較

Slide 28

Slide 28 text

28 Grid DistortionとOrbital Camera Jitterをしない場合 ● 訓練画像には歪みや視点のずれはないので、訓練損失は小さくなる一方 ● 多視点生成画像は一貫性がないので、推論時にはﬂoaterや形状推定の性能が悪い Ablation study：Data augmentation

Slide 29

Slide 29 text

29 unetの出力解像度を64とし、訓練解像度を 256とした場合、ぼやけた画像が生成されがち提案する高解像度な訓練の方が詳細な生成が可能 Ablation study：訓練解像度

Slide 30

Slide 30 text

30 ● 拡散モデルの解像度が低く詳細が潰れる ● 多視点画像が一貫していない時、 ﬂoaterが生成される ● 入力画像のelevationが大きい時、拡散モデルの生成性能が悪い Limitation

Slide 31

Slide 31 text

31 ● 画像、テキストからの3D GSを生成する新規手法の提案 ○ 多視点拡散モデルの出力から、3D GSのパラメータを回帰 ○ 高に高精細な3Dモデル出力が可能 ● ロバストなメッシュ抽出手法の提案 ○ 3DGS生成(5s)に対して遅い(1min)のでより高な方法が期待される ● 拡散モデルの画像生成能力を活用できるので、強い一方 ○ 多視点拡散モデルの性能に律されており、多視点拡散モデルの一貫性や解像度の向上による性能向上が期待されるまとめ

Slide 32

Slide 32 text

Making the real world computable