Slide 1

Slide 1 text

LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation (ECCV2024 oral) 2024/10/16 野口敦裕

Slide 2

Slide 2 text

2 ● テキストや画像から3Dのモデルを生成 ● ゲーム、VR、映像制作などでの活用が期待 ● ここ数年で急 に進展 3Dコンテンツ生成 a DSLR photo of a squirrel DreamFusion [Poole+, ICLR2023]

Slide 3

Slide 3 text

3 ECCV2024 oral 多視点画像からの3D Gaussian Splattingの生成手法 既存の多視点画像生成と組みわせることで、高 かつ高精細な image/text to 3DGSを実現 Demo LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation Image-to-3D text-to-3D A toy bear 以降とくに断りのない場合、図、表はいずれも LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation (ECCV 2024) の論文からの引用となります

Slide 4

Slide 4 text

4 3D生成のアプローチ 最適化ベースの手法 じっくり時間をかけて3D表現を綺麗に DreamFusion [Poole+, ICLR2023] Feedforwardな手法 3D表現を直接推定 LRM [Hong+, ICLR2024] LGM [Tang+ ECCV2024]

Slide 5

Slide 5 text

5 3D表現(NeRF, 3D gaussian splatting, mesh)などを 見た目の自然さやテキスト一致度が改善する方に反復的に更新 Score Distillation Sampling (SDS) [Poole+, ICLR2023] ● 訓練済みのtext-to-2D image拡散モデルを用いて更新方向を推定 3D生成のアプローチ:最適化ベース a DSLR photo of a squirrel 2D拡散モデル 3D表現 ランダム視点 レンダリング

Slide 6

Slide 6 text

6 質の高い3D表現を得られるが学習に時間がかかる 3D生成のアプローチ:最適化ベース NeRFベース DreamFusion [Poole+, ICLR2023] 訓練時間 1.5h Meshベース Fantasia3D [Chen+, ICCV2023] 訓練時間 ~30min 3D GSベース DreamGaussian [Tang+, ICLR2024] 訓練時間 ~2min

Slide 7

Slide 7 text

7 3D表現を直接推定するアプローチ。高 (数秒) LRM [Hong+, ICLR2024] ● single image→TriplaneベースのNeRF推定 ● 多様な物体の多視点画像を用いて、新規視点の再構成により学習 TriplaneGaussian[Zou+ CVPR2024] ● single image → 3D Gaussian Splattingパラメータを直接推定 3D生成のアプローチ: Feedforwardな手法 single-view recon. Rendering novel view input

Slide 8

Slide 8 text

8 ✔ 推論のみのため、高 な3D生成が可能 ● LRM ~5s, TriplaneGaussian ~0.14s ❌ 3D表現の解像度が限定的 ❌ 裏面がぼやけがち ● 回帰ベースのモデルであり 新たな情報を生成するのは 苦手 3D生成のアプローチ: Feedforwardな手法

Slide 9

Slide 9 text

9 既存の多視点拡散モデルを用いて4視点の多視点画像を生成し、 画像とカメラ姿勢から3D Gaussian Splattingのパラメータを推定する メッシュへの変換手法も提案 LGM:パイプライン

Slide 10

Slide 10 text

10 ● 2D diffusion model ○ 大量の画像で訓練され、見た目やテキストに対する事前情報を持つ ● 多視点拡散モデル ○ 2D diffusion modelを多視点画像でfinetuneし、 同じ物体を複数の角度からみた画像を生成 ○ 生成画像同士の3D一貫性はないかもしれない 背景:多視点画像生成モデル テキストからの多視点画像生成 MVDream [Shi+, ICLR2024] 画像/テキストからの多視点画像生成 ImageDream [Wang+, 2023]

Slide 11

Slide 11 text

11 入力:4視点画像 [0°, 90°, 180°, 270°]、カメラ姿勢 出力:ピクセル毎のGSのcolor(w/o spherical harmonics), opacity, scale, rotation 3D GS推定器:全体像

Slide 12

Slide 12 text

12 Plücker ray embedding ● o: カメラの視点, d: 視線方向 ● rayの直線を、視点の位置によらず一意なベクトル として表現でき、特異点がない連続な表現 (Light Field Networks [Sitzmann+ NeurIPS2021]) 各画素に対応するray embeddingを入力RGB画像に チャンネル方向に結合し、9 channelの画像として扱う 1つ目のカメラが正面の固定の位置になるようにカメラ姿勢を座 標変換 3D GS推定器:カメラ姿勢の条件付け

Slide 13

Slide 13 text

13 U-Netベースのモデル ● 入力:RGB + ray embedding, 解像度256 ● 出力:ピクセル毎のGaussian, 解像度128 ● 解像度を下げることでgaussianの個数を削 減 出力は14チャンネル ● position(3), color(3), opacity(1), rotation(4), scale(3) ● 3d positionは直接予測する (ray上にあることは前提としない) ● 背景は特別視しない(opacityが0になる/物 体の内側を埋めることを期待?) 3D GS推定器:ネットワーク

Slide 14

Slide 14 text

14 Cross-view attention ● 複数のviewの情報を受け渡す構 ● 4枚の画像特徴をflattenし、self-attentionをかける ● メモリ削減のため低解像度(32以下)な層のみ適用 3D GS推定器:ネットワーク

Slide 15

Slide 15 text

15 ピクセル毎に推定されたGSパラメータを1つにまと めて、シーンの3D表現とする ● Gaussianの個数 128^2 x 4view = 65536 GSの微分可能ラスタライザを用いて任意視点の 画像をレンダリングできる → end2endな画像レベルの最適化 3D GS推定器:シーンの表現

Slide 16

Slide 16 text

16 ● 入力4視点、novel-view 4視点の計8視点について、正解との再構成損失をと る(実装は4入力、8出力) ○ レンダリング解像度は512 ● 正解RGBとの間のmean squared errorとLPIPS loss ● alpha画像についてもmean squared errorをとる ○ 形状に対する教師情報が得られるため、訓練が高 化 Loss Function

Slide 17

Slide 17 text

17 訓練時は3D CGデータセット (Objavserse) をレンダリングした画像で 3D一貫性があるが、推論時は多視点拡散モデルの出力を使うのでドメインキャップ 有 Data Augmentationで回避 ● Grid Distortion ○ 多視点拡散モデルの出力の微小な一貫性のなさをシミュレート ○ 1枚目の画像は大抵基準の正面画像なので、1枚目以外を歪ませる ● Orbital Camera Jitter ○ 多視点拡散モデルがカメラ姿勢を正確に反映しないケースに対応 ○ 1枚目以外のカメラ姿勢(回転)に変動を加える Robust Training

Slide 18

Slide 18 text

18 3D GSをメッシュに変換する 既存手法 (DreamGaussian [Yi+ CVPR2024]) ● 3D GSをopacity gridに変換し、marching cubeでメッシュを抽出 ● GSレンダリングRGB値をテクスチャ画像にback projection ● 3D GSが滑らかな表面を形成することを前提とする ○ LGMで生成されるGSは疎なので、メッシュに穴が開く メッシュ抽出

Slide 19

Slide 19 text

19 提案手法:GS rendering画像でNeRFを訓練し、NeRF2Mesh[Tang+ ICCV20203] メッシュ抽出

Slide 20

Slide 20 text

20 データセット ● objaverseから選別したsubset 80K物体 ● それぞれ100視点のRGBA画像を解像度512でレンダリング 訓練 ● 32 A100 80Gで4日 ● バッチサイズ256 推論 ● 多視点拡散モデルとしては、 訓練済みImageDream [Wang+, 2023] (image-to-3d)と MVDeram [Shi+, ICLR2024] (text-to-3d)をそれぞれ使用 実験設定

Slide 21

Slide 21 text

21 vs. TriplaneGaussian [Zou+ CVPR2024], DreamGaussian [Yi+ CVPR2024] 精細で, 入力画像を反映した生成ができている 結果:Image-to-3DGS手法との比較 生成時間(各論文より引用) 5s ~2min 0.14s

Slide 22

Slide 22 text

22 vs. TriplaneGaussian [Zou+ CVPR2024], DreamGaussian [Yi+ CVPR2024] 人手による定量評価 ● 30物体 x 20人 ● 画像の一貫性と生成結果の質について1~5点で評価 自動評価による定量評価はなし 結果:Image-to-3DGS生成手法との比較

Slide 23

Slide 23 text

23 feedforward手法では、裏面のテクスチャや形状推定が苦手 提案手法では多視点拡散モデルの能力により、詳細な生成が可能 結果:LRM [Hong+, ICLR2024]との比較

Slide 24

Slide 24 text

24 vs. Shap-E [Jun+ 2023], DreamGaussian 結果:Text-to-3D手法との比較 ~10s 5s ~2min

Slide 25

Slide 25 text

25 訓練済みの多視点拡散モデルのおかげで多様な生成を行うことができる 結果:生成結果の多様性

Slide 26

Slide 26 text

26 DreamGaussianの手法と比較 すると、穴が開かない滑らかな表 面が得られる GSのレンダリング結果と比較する とテクスチャや形状の細かさは失 われている main paperではmesh抽出の結果 について触れられていない メッシュ抽出 GSのレンダリング画像

Slide 27

Slide 27 text

27 多視点生成画像を入力としない場合の実験 単視点画像を入力として、出力ピクセルにつき2つgaussianを生成 前面は忠実に再構成できるが、 背面はぼやけてしまう 再構成タスクで訓練しているため、 汎化能力には乏しい Ablation study:単視点入力との比較

Slide 28

Slide 28 text

28 Grid DistortionとOrbital Camera Jitterをしない場合 ● 訓練画像には歪みや視点のずれはないので、訓練損失は小さくなる一方 ● 多視点生成画像は一貫性がないので、推論時にはfloaterや形状推定の性能 が悪い Ablation study:Data augmentation

Slide 29

Slide 29 text

29 unetの出力解像度を64とし、訓練解像度を 256とした場合、ぼやけた画像が生成されが ち 提案する高解像度な訓練の方が詳細な 生成が可能 Ablation study:訓練解像度

Slide 30

Slide 30 text

30 ● 拡散モデルの解像度が 低く詳細が潰れる ● 多視点画像が一貫 していない時、 floaterが生成される ● 入力画像のelevationが 大きい時、拡散モデルの 生成性能が悪い Limitation

Slide 31

Slide 31 text

31 ● 画像、テキストからの3D GSを生成する新規手法の提案 ○ 多視点拡散モデルの出力から、3D GSのパラメータを回帰 ○ 高 に高精細な3Dモデル出力が可能 ● ロバストなメッシュ抽出手法の提案 ○ 3DGS生成(5s)に対して遅い(1min)のでより高 な方法が期待される ● 拡散モデルの画像生成能力を活用できるので、強い一方 ○ 多視点拡散モデルの性能に律 されており、多視点拡散モデルの一貫 性や解像度の向上による性能向上が期待される まとめ

Slide 32

Slide 32 text

Making the real world computable