Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LGM: Large Multi-View Gaussian Model for High-R...

LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation

- 画像・テキストから3D Gaussian Splatting表現を生成する手法
- 複数視点の画像からGaussian Splattingのパラメータを直接推定するモデルを提案
- 既存の複数視点画像生成モデルと組みわせることで、高速かつ高精細な3DGS生成を実現

Spatial AI Network

October 23, 2024
Tweet

More Decks by Spatial AI Network

Other Decks in Technology

Transcript

  1. 3 ECCV2024 oral 多視点画像からの3D Gaussian Splattingの生成手法 既存の多視点画像生成と組みわせることで、高 かつ高精細な image/text to

    3DGSを実現 Demo LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation Image-to-3D text-to-3D A toy bear 以降とくに断りのない場合、図、表はいずれも LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation (ECCV 2024) の論文からの引用となります
  2. 5 3D表現(NeRF, 3D gaussian splatting, mesh)などを 見た目の自然さやテキスト一致度が改善する方に反復的に更新 Score Distillation Sampling

    (SDS) [Poole+, ICLR2023] • 訓練済みのtext-to-2D image拡散モデルを用いて更新方向を推定 3D生成のアプローチ:最適化ベース a DSLR photo of a squirrel 2D拡散モデル 3D表現 ランダム視点 レンダリング
  3. 7 3D表現を直接推定するアプローチ。高 (数秒) LRM [Hong+, ICLR2024] • single image→TriplaneベースのNeRF推定 •

    多様な物体の多視点画像を用いて、新規視点の再構成により学習 TriplaneGaussian[Zou+ CVPR2024] • single image → 3D Gaussian Splattingパラメータを直接推定 3D生成のアプローチ: Feedforwardな手法 single-view recon. Rendering novel view input
  4. 8 ✔ 推論のみのため、高 な3D生成が可能 • LRM ~5s, TriplaneGaussian ~0.14s ❌

    3D表現の解像度が限定的 ❌ 裏面がぼやけがち • 回帰ベースのモデルであり 新たな情報を生成するのは 苦手 3D生成のアプローチ: Feedforwardな手法
  5. 10 • 2D diffusion model ◦ 大量の画像で訓練され、見た目やテキストに対する事前情報を持つ • 多視点拡散モデル ◦

    2D diffusion modelを多視点画像でfinetuneし、 同じ物体を複数の角度からみた画像を生成 ◦ 生成画像同士の3D一貫性はないかもしれない 背景:多視点画像生成モデル テキストからの多視点画像生成 MVDream [Shi+, ICLR2024] 画像/テキストからの多視点画像生成 ImageDream [Wang+, 2023]
  6. 12 Plücker ray embedding • o: カメラの視点, d: 視線方向 •

    rayの直線を、視点の位置によらず一意なベクトル として表現でき、特異点がない連続な表現 (Light Field Networks [Sitzmann+ NeurIPS2021]) 各画素に対応するray embeddingを入力RGB画像に チャンネル方向に結合し、9 channelの画像として扱う 1つ目のカメラが正面の固定の位置になるようにカメラ姿勢を座 標変換 3D GS推定器:カメラ姿勢の条件付け
  7. 13 U-Netベースのモデル • 入力:RGB + ray embedding, 解像度256 • 出力:ピクセル毎のGaussian,

    解像度128 • 解像度を下げることでgaussianの個数を削 減 出力は14チャンネル • position(3), color(3), opacity(1), rotation(4), scale(3) • 3d positionは直接予測する (ray上にあることは前提としない) • 背景は特別視しない(opacityが0になる/物 体の内側を埋めることを期待?) 3D GS推定器:ネットワーク
  8. 15 ピクセル毎に推定されたGSパラメータを1つにまと めて、シーンの3D表現とする • Gaussianの個数 128^2 x 4view = 65536

    GSの微分可能ラスタライザを用いて任意視点の 画像をレンダリングできる → end2endな画像レベルの最適化 3D GS推定器:シーンの表現
  9. 16 • 入力4視点、novel-view 4視点の計8視点について、正解との再構成損失をと る(実装は4入力、8出力) ◦ レンダリング解像度は512 • 正解RGBとの間のmean squared

    errorとLPIPS loss • alpha画像についてもmean squared errorをとる ◦ 形状に対する教師情報が得られるため、訓練が高 化 Loss Function
  10. 17 訓練時は3D CGデータセット (Objavserse) をレンダリングした画像で 3D一貫性があるが、推論時は多視点拡散モデルの出力を使うのでドメインキャップ 有 Data Augmentationで回避 •

    Grid Distortion ◦ 多視点拡散モデルの出力の微小な一貫性のなさをシミュレート ◦ 1枚目の画像は大抵基準の正面画像なので、1枚目以外を歪ませる • Orbital Camera Jitter ◦ 多視点拡散モデルがカメラ姿勢を正確に反映しないケースに対応 ◦ 1枚目以外のカメラ姿勢(回転)に変動を加える Robust Training
  11. 18 3D GSをメッシュに変換する 既存手法 (DreamGaussian [Yi+ CVPR2024]) • 3D GSをopacity

    gridに変換し、marching cubeでメッシュを抽出 • GSレンダリングRGB値をテクスチャ画像にback projection • 3D GSが滑らかな表面を形成することを前提とする ◦ LGMで生成されるGSは疎なので、メッシュに穴が開く メッシュ抽出
  12. 20 データセット • objaverseから選別したsubset 80K物体 • それぞれ100視点のRGBA画像を解像度512でレンダリング 訓練 • 32

    A100 80Gで4日 • バッチサイズ256 推論 • 多視点拡散モデルとしては、 訓練済みImageDream [Wang+, 2023] (image-to-3d)と MVDeram [Shi+, ICLR2024] (text-to-3d)をそれぞれ使用 実験設定
  13. 21 vs. TriplaneGaussian [Zou+ CVPR2024], DreamGaussian [Yi+ CVPR2024] 精細で, 入力画像を反映した生成ができている

    結果:Image-to-3DGS手法との比較 生成時間(各論文より引用) 5s ~2min 0.14s
  14. 22 vs. TriplaneGaussian [Zou+ CVPR2024], DreamGaussian [Yi+ CVPR2024] 人手による定量評価 •

    30物体 x 20人 • 画像の一貫性と生成結果の質について1~5点で評価 自動評価による定量評価はなし 結果:Image-to-3DGS生成手法との比較
  15. 31 • 画像、テキストからの3D GSを生成する新規手法の提案 ◦ 多視点拡散モデルの出力から、3D GSのパラメータを回帰 ◦ 高 に高精細な3Dモデル出力が可能

    • ロバストなメッシュ抽出手法の提案 ◦ 3DGS生成(5s)に対して遅い(1min)のでより高 な方法が期待される • 拡散モデルの画像生成能力を活用できるので、強い一方 ◦ 多視点拡散モデルの性能に律 されており、多視点拡散モデルの一貫 性や解像度の向上による性能向上が期待される まとめ