Slide 1

Slide 1 text

生成AIと3次元ビジョン ~3次元生成AIの最先端の理論~ 2024.6.12 池畑 諭(NII・東工大)

Slide 2

Slide 2 text

テキストやを入力すると対応する3次元 モデルが生成される。 汎用的なゲームのアセット等に用いる応 用等が期待されている。 「ハンバーガーを食べる幽霊」 3次元生成AI テキストからの3次元モデル生成

Slide 3

Slide 3 text

https://github.com/threestudio-project/threestudio 3次元生成AIは群雄割拠! DreamFusionは2022年9月なので、2年未満で爆発的な発展

Slide 4

Slide 4 text

Meshy Rodin Gen1 sudoAI Tripo Alpha3D 3DFY.ai ・・・・ 3次元生成AIは群雄割拠! DreamFusionは2022年9月なので、2年未満で爆発的な発展

Slide 5

Slide 5 text

Dream FieldsとDreamFusionとSDS テキストからの3D生成とスコア蒸留サンプリング(SDS) SDSの問題点とその解決 テクスチャ品質の向上のためのSDSの改善 ヤヌス問題(多顔問題)解決のための多視点生成モデル 高速な3次元生成のためのアモータリゼーションと直接推定手法 一枚の画像から3次元を生成する 単一画像からの任意視点生成手法 単一画像からの多視点生成手法 本チュートリアルの目次 1 2 3 まとめと今後の展望 4

Slide 6

Slide 6 text

• 陰関数表現 (NeRF [Mildenhall+2020]) • 陽関数表現(3D Gaussian Splatting[Kerbl+2023], Voxel) • ハイブリッド(DMTet [Shen+2021],Triplane [Chan2022]) • テキスト/イメージモデル(e.g., CLIP [Radford+2021]) • 画像・映像拡散モデル(e.g., Latent Diffusion [Rombach+2022], Video Diffusion [e.g., Chai2023], LoRA [Hu2021], ControlNet [Zhan2023]) 大規模学習済みモデル 微分可能レンダリング対応の3次元表現 Attentionと埋め込み技術 • Transformer [Vaswani+2017] • 各種情報埋め込み (テキストの埋め込み、カメラの埋め込み) 3次元生成AIの重要な要素技術 要素技術についてはある程度理解されている前提で話します。 x y z x y z x y z x y z x y z

Slide 7

Slide 7 text

Dream Fields + DreamFusion スコア蒸留の基礎 第一章:テキストからの3D生成とスコア蒸留サンプリング(SDS)

Slide 8

Slide 8 text

更新方向 (Δ𝜃)の計算 フィードバック 3次元表現 (𝜃) 3次元表現 (𝜃) 生成 「椅子の上に座った猫」 入力(𝑦) 「椅子の上に座った猫」 入力(𝑦) 𝜃0 最適化によるアプローチ フィードフォワードアプローチ 例:点群、メッシュ、 NeRF、3DGSなど 初期値 3次元表現を直接回帰する 初期値を徐々に更新する ◎効率性、△品質 △効率性、◎品質 3次元生成には大きく二つのアプローチが存在する。 例:点群、メッシュ、 NeRF、3DGSなど

Slide 9

Slide 9 text

3次元表現 (𝜃) 「椅子の上に座った猫」 入力(𝑦) 𝜃0 更新方向 (Δ𝜃)の計算 フィードバック 初期値 3次元の学習データは限られている。 効率的に更新方向を計算できないだろうか? テキストと一致するように3次元モデルのパラメータ(例:NeRF)を更新したい。 例:NeRF, 3DGS 最適化ベースの3次元生成 適切な損失関数は? 学習データは?

Slide 10

Slide 10 text

3次元表現 (𝜃) 「椅子の上に座った猫」 入力(𝑦) 𝜃0 例:NeRF, 3DGS 更新方向 (Δ𝜃)の計算 フィードバック 初期値 レンダリング 任意視点からレンダリングされた画 像がより尤もらしくなるように3次元 モデルを更新したい。 ランダムな視点 2次元画像に関する事前学習済みモデルを用いて、「レンダリングされた画像」の良し悪しを評価する。 最適化ベースの3次元生成 ※レンダリングの方法は3次元表現によって異なる。NeRFならボリュームレン ダリング、3DGSならラスタライゼーションなど。いずれも画像をθで微分可能。

Slide 11

Slide 11 text

3次元表現 (𝜃) 「椅子の上に座った猫」 𝜃0 NeRF フィードバック 初期値 レンダリング 画像エンコーダ テキストエンコーダ CLIP損失 ランダムな視点 ※実際の損失はCLIP損失に加えてNeRFの密度分布の正規化 を行うTransmittance損失を用いる。 レンダリングされた画像と入力テキストのCLIP損失を小さくする方向にθを更新する。 Dream Fields [Jain+,CVPR2022] 「CLIPを利用した3次元パラメータの更新」 画像とテキストの関連性の評価

Slide 12

Slide 12 text

a tray that has meat and carrots on a table. a snowboard standing upright in a snow bank a robotic dog. a robot in the shape of a dog. レンダリング画像とテキストの意味的な一致性だけを見て いるので、生成品質は非常に低い。 レンダリングされた画像と入力テキストのCLIP損失を小さくする方向にθを更新する。 Dream Fields [Jain+,CVPR2022] 「CLIPを利用した3次元パラメータの更新」

Slide 13

Slide 13 text

Poole, B., Jain, A., Barron, J. T., & Mildenhall, B. (2023). DreamFusion: Text-to-3D using 2D Diffusion. ICLR2023. 現在の3次元生成AIの火付け役ともいえる革新的なSDS(Score Distillation Sampling;スコア蒸留サンプリング)を提案※ DreamFusion [Poole+,ICLR2023] 「より高品質な生成のためのパラメータ更新手法」 ※同時期にSJC (Score Jacobian Chaining) [Wang+CVPR2023]という ほぼ同等のアイデアが提案されている。

Slide 14

Slide 14 text

よくある誤解、「拡散モデルでテキストから色々な視点の画像を生成して、それでNeRFをする研究?」 3次元表現 (𝜃) NeRF (※物理ベースのアレンジあり) スコア蒸留 (SDS) 革新的なSDS(Score Distillation Sampling;スコア蒸留サンプリングを提案※ ) DreamFusion [Poole+,ICLR2023] 「より高品質な生成のためのパラメータ更新手法」

Slide 15

Slide 15 text

3Dパラメータの更新方向(スコア関数)を事前学習済みの2次元拡散モデルを用いて推定する手法 スコア蒸留サンプリング (Score Distillation Sampling;SDS) 3次元表現 (𝜃) 「椅子の上に座った猫」 入力(𝑦) 𝜃0 例:NeRF, 3DGS 更新方向 (Δ𝜃)の計算 フィードバック 初期値 レンダリング 任意視点からレンダリングされた画 像がより尤もらしくなるように3次元 モデルを更新したい。 ランダムな視点

Slide 16

Slide 16 text

スコア関数 = 確率密度分布の対数のサンプル微分 (∇𝑥 log 𝑝 𝑥 )→より確率密度が高くなるサンプルの方向 ここでは,𝜽は3Dパラメータ,𝒙は視点𝑐から関数𝑔によってレンダリングされた画像, 𝒚はテキストプロンプト。 ∇𝜽 log 𝑝 𝜽 𝑦 = ∇𝑥 log 𝑝 𝒙 𝑦 𝜕𝒙 𝜕𝜽 = ∇𝒙 log 𝑝 𝒙 𝑦 𝜕𝑔 𝜕𝜽 3Dスコア 2Dスコア 3Dパラメータの勾配(解析的) 3次元スコア関数 +チェーンルールの適用 +レンダリング関数の利用 ∇𝒙 log 𝑝 𝒙 𝒚 がわかればよい。 学習済みの拡散モデルを利用可能 (=蒸留) 𝒙 = 𝑔(𝜽, 𝑐) 3Dパラメータの更新方向(スコア関数)を事前学習済みの2次元拡散モデルを用いて推定する手法 スコア蒸留サンプリング・スコアヤコビアン連鎖 (SDS, SJC) 「より尤もらしい」3次元パラメータへの更新方向 2Dスコア

Slide 17

Slide 17 text

スコア関数 𝑥 𝑝 𝒙 𝑦 ∇𝒙 log 𝑝 𝒙 𝒚 𝑥0 • 画像生成は,テキストを条件とする画像分布の確率密度関数のピークを見つけるタスク。 • 確率密度関数を直接求めるのは困難なので,対数確率密度関数の微分(スコア関数)を予測するネット ワークをスコアマッチングにより学習し,初期値からより確率密度の高いサンプルへと遷移させる。 • ただし,直接スコア関数を学習するのは困難なので,画像に与えられたノイズ量を予測するネットワー クを学習し,スコア関数を近似する。(デノイジングスコアマッチング) ∇log 𝑝 𝒙 + 𝝐 𝒚 𝑥 + 𝜖 スコア関数 (ノイズ画像) 𝑝 𝒙 + 𝝐 𝑦 𝑥0 おさらい:画像生成におけるスコア関数とデノイジングスコアマッチング 画像の分布 ノイズ画像の分布

Slide 18

Slide 18 text

∇𝜃 ℒ𝑆𝐷𝑆 𝜽 ≔ ∇𝜽 log 𝑝 𝜽 𝑦 = 𝔼𝑡,𝑐,𝝐𝑡 𝜔 𝑡 𝝐𝜙 𝒙𝑡 , 𝑡, 𝑦 − 𝝐𝑡 𝜕𝑔 𝜕𝜽 ノイズ量の予測 (学習済みモデル:蒸留) ∇𝑥 log 𝑝 𝒙 𝒚 = 𝔼𝑡,𝑐,𝝐𝑡 𝜔(𝑡) 𝝐𝜙 𝒙𝑡 ; 𝑡, 𝑦 − 𝝐𝑡 実際に与えたノイズ (平均するとキャンセルされるがあった方が良い) • 2Dスコアの計算 スコア蒸留に基づく更新(SDS, SDS = “score distillation Sampling” ) 𝝐𝜙 𝒙𝑡 , 𝑡, ∅ − 𝝐𝑡 + 𝑠 𝝐𝜙 𝒙𝑡 , 𝑡, 𝑦 − 𝝐𝜙 𝒙𝑡 , 𝑡, ∅ 識別器フリーガイダンス (Classifier-Free Guidance;CFG) 全ての時刻(ノイズレベル)の平均 𝒙𝑡 = 𝒙 + 𝝐𝑡 = 𝑔 𝜽, 𝑐 + 𝝐𝑡 3Dパラメータの更新方向(スコア関数)を事前学習済みの2次元拡散モデルを用いて推定する。 SDSにおける3Dパラメータの更新方法 Or 𝝐𝜙 𝒙𝑡 , 𝑡, 𝑦

Slide 19

Slide 19 text

∇𝜽 ℒ𝑆𝐷𝑆 𝜽 ≔ 𝔼𝑡,𝑐,𝜖𝑡 𝜔 𝑡 𝝐𝜙 𝒙𝑡 , 𝑡, ∅ − 𝝐𝑡 + 𝜔 𝝐𝜙 𝒙𝑡 , 𝑡, 𝑦 − 𝝐𝜙 𝒙𝑡 , 𝑡, ∅ 𝜕𝑔 𝜕𝜽 レンダリング ノイズ予測 (学習済みモデル) 3Dスコアを 計算してBP おおまかなカメラ情報もテキストで追加 (View-dependent prompt)𝑦 → 𝑦𝑐 3Dパラメータの更新方向(スコア関数)を事前学習済みの2次元拡散モデルを用いて推定する。 DreamFusionのまとめ 物理ベースレンダリングで 幾何情報を考慮 ノイズ付与

Slide 20

Slide 20 text

DreamFusionの実装と結果 15,000反復 / 1.5時間 (TPUv4) 視点依存プロンプト 仰角∈ [−10°, 90°] 方位角∈ [0°, 360°] 焦点距離∈ 𝒰[0.7,1.35] 64画素 × 64画素 (Imagen) 識別器フリーガイダンス重み(𝜔 = 100) 計算コスト カメラ設定 レンダリング視点 Front/back/side/overhead その他

Slide 21

Slide 21 text

第二章:SDSの問題点とその解決

Slide 22

Slide 22 text

テクスチャ 品質が低い 計算効率が低い ヤヌス問題 全体的に不明瞭 コントラストが高い モデル毎の最適化 1度の推論に20分 (8+GPU) 多顔的な生成 3次元の一致性の欠如 3D生成の歴史はDreamFusionの課題の解決 第二章:SDSの問題点とその解決 バリエーションが少ない

Slide 23

Slide 23 text

テクスチャ品質の向上のための SDSの改善

Slide 24

Slide 24 text

シード値による変化が少ない。 「画像として自然である」よりも「テキスト の内容を反映している」が優先される。 生成を成功させるためには、経験的にCFGの大き な重み(ω)が必要(100程度) レンダリングされる画像の解像度が低い SDS損失の勾配はスコア蒸留項と識別器フリーガイダンス項で構成されている。 SDSによる生成結果のテクスチャ品質が低い理由 結果として細部がぼけたテクスチャとなる。 本質的にこの式が何を最適化しているのか?を考 えると更なる問題も…。 生成項 ∇𝜽 ℒ𝑆𝐷𝑆 𝜽 = 𝔼𝑡,𝑐 𝜔 𝑡 𝝐𝜙 𝒙𝑡 , 𝑡, ∅ − 𝝐 + 𝜔(𝝐𝜙 𝑥𝑡 , 𝑡, 𝑦𝑐 − 𝝐𝜙 𝑥𝑡 , 𝑡, ∅ ) 𝜕𝑔 𝜕𝜽 識別器フリーガイダンス項(CFG) 生成項が無くてもそもそも動作する [Yu+, ICLR2024]

Slide 25

Slide 25 text

SDSのテクスチャ品質がなぜ低いのか(特になぜCFGの高い重みが必要なのか)に対して色々な意見が示されている。 指摘されているSDSの問題点(のほんの一部) 点推定(単一のθの最適化)である事が問題 1 「単一のθのみを最適化する事はMode-Seekingであり,多様性を損なう要因になる。」 Prolific Dreamer [Wang+, NeurIPS2023] レンダリング画像+ノイズが分布外(OOD)である事を認識していないのが問題 「スコア関数にはサンプルを分布内に遷移させる力があり,それが本質的に重要。」 NFSD [Katzir+, ICLR2024] SDSの損失は不安定な正解ラベルに基づいているのが問題 「SDSは本質的にレンダリング画像と不安定な”疑似正解画像”の誤差を評価している。」 LucidDreamer [Liang+, CVPR2024] 2 3

Slide 26

Slide 26 text

1 2 Prolific Dreamer [Wang+, NeurIPS2023] NFSD [Katzir+, ICLR2024]

Slide 27

Slide 27 text

点推定(単一のθの最適化)である事が問題 1 SDSにおける𝜽の点推定は滑らかな確率密度場のMode-Seekingのため常に停留点が類似する。 Prolific Dreamer [Wang+, NeurIPS2023] 𝑥 + 𝜖 𝑥0 「単一のθのみを最適化する事はMode-Seekingであり,多様性を損なう要因になる。」 あるテキストプロンプトに対応する𝜃の確率密度分布からサンプリングを行いたい。 点推定 分布推定 𝑝(𝜃) 変分スコア蒸留(VSD; Variational Score Distillation)で3Dパラメータの分布を最適化。

Slide 28

Slide 28 text

変分スコア蒸留(VSD, Variational Score Distillation) +𝝐2.𝑡 点推定(単一のθの最適化)である事が問題 1 𝜽の点推定から分布推定(𝜇𝜽 , 𝜎𝜽 )へ。複数の𝜽に分布を代表させる。 分布内のデータのみで拡散モデルを LoRAでファインチューニング。 カメラの明示的な埋め込み。 𝜃4 𝜃1 𝜃2 𝜃3 𝜃1 𝜇𝜃 , 𝜎𝜃 𝜃2 LoRA LoRA 𝑔(𝜃1 , 𝑐1 ) 𝑔(𝜃2 , 𝑐2 ) +𝝐1,𝑡 𝝐𝜙𝐿𝑜𝑅𝐴 𝒙1,𝑡 , 𝑡1 , 𝑦, 𝑐1 𝝐𝜙𝐿𝑜𝑅𝐴 𝒙2,𝑡 , 𝑡2 , 𝑦, 𝑐2 min 𝛷LoRA 𝝐𝜙𝐿𝑜𝑅𝐴 𝒙2,𝑡 , 𝑡2 , 𝑦, 𝑐2 − 𝜖𝑡 2 2 min 𝛷LoRA 𝝐𝜙𝐿𝑜𝑅𝐴 𝒙1,𝑡 , 𝑡1 , 𝑦, 𝑐1 − 𝜖𝑡 2 2 Prolific Dreamer [Wang+, NeurIPS2023] ∇𝜃 ℒVSD 𝜃 = 𝔼𝑡,𝑐,𝝐 𝜔 𝑡 𝝐𝜙 𝒙𝑡 , 𝑡, 𝑦𝑐 − 𝝐𝜙𝐿𝑜𝑅𝐴 𝒙𝑡 , 𝑡, 𝑦, 𝑐 𝜕𝑔 𝜕𝜃 任意のサンプル/視点をレンダリングした画像のスコアと事前学習モデルのスコアが一致 𝝐𝜙𝐿𝑜𝑅𝐴 は全てのサンプルで共通

Slide 29

Slide 29 text

点推定(単一のθの最適化)である事が問題 1 複数のθを同時 に最適化 ランダムに一 つのθを選択 分布内データのスコアと 事前学習されたスコアが 一致するように最適化 変分スコア蒸留(VSD, Variational Score Distillation) ∇𝜃 ℒVSD 𝜃 = 𝔼𝑡,𝑐,𝝐 𝜔 𝑡 𝝐𝜙 𝒙𝑡 , 𝑡, 𝑦𝑐 − 𝝐𝜙𝐿𝑜𝑅𝐴 𝒙𝑡 , 𝑡, 𝑦, 𝑐 𝜕𝑔 𝜕𝜃 任意のサンプル/視点をレンダリングした画像のスコアと事前学習モデルのスコアが一致 Prolific Dreamer [Wang+, NeurIPS2023] Prolific Dreamer [Wang+, NeurIPS2023]

Slide 30

Slide 30 text

A high-detailed sand castle A hot-dog in tutu skirt

Slide 31

Slide 31 text

レンダリング画像+ノイズが分布外(OOD)である事を認識していないのが問題 2 「スコア関数にはサンプルを分布内に遷移させる力があり,それが本質的に重要。」 ノイズフリースコア蒸留(NFSD, Noise-Free Score Distilation) ∇𝜃 ℒNFSD 𝜃 = 𝔼𝑡,𝑐,𝝐 𝜔 𝑡 𝛿𝐷 − 𝜔 𝝐𝜙 𝒙𝑡 , 𝑡, 𝑦 − 𝝐𝜙 𝒙𝑡 , 𝑡, ∅ 𝜕𝑔 𝜕𝜃 𝛿𝐷 = ൝ 𝝐𝜙 𝒙𝑡 , 𝑡, ∅ 𝝐𝜙 𝒙𝑡 , 𝑡, ∅ − 𝝐𝜙 𝒙𝑡 , 𝑡, 𝑦neg If t < 200 otherwise 𝒙 ≔ 𝑔(𝜽, 𝑐) は学習初期において,拡散モデルの学習データのOOD(分布外データ) 𝒙𝑡 ≔ 𝒙 + 𝝐𝑡 にノイズを与えてデノイジングしても, 𝒙に戻るのではなく分布内データに遷移する。 つまり𝝐𝜙 𝒙𝑡 , 𝑡, ∅ は,デノイズ成分(𝛿𝑁 )と分布内データへの遷移(𝛿𝐷 )の二つの要素がある。 𝜃の更新において重要なのは, 𝛿𝑁 ではなく𝛿𝐷 𝛿𝐷 の近似法:テキスト条件無 - ネガティブプロンプト 𝛿𝐷 = 𝝐𝜙 𝒙𝑡 , 𝑡, ∅ − 𝝐𝜙 𝒙𝑡 , 𝑡, 𝑦neg “unrealistic, blurry, low quality, out of focus, ugly, low contrast, dull, dark, low-resolution, gloomy” NFSD [Katzir+, ICLR2024]

Slide 32

Slide 32 text

レンダリング画像+ノイズが分布外(OOD)である事を認識していないのが問題 2 「スコア関数にはサンプルを分布内に遷移させる力があり,それが本質的に重要。」 結局の所,t>200の挙動というのは,CFG (positive) – CFG (negative) なので、識別器フリーガイダンスのみでSDSを行っている事に等しい。 ノイズフリースコア蒸留(NFSD, Noise-Free Score Distilation) ∇𝜃 ℒNFSD 𝜃 = 𝔼𝑡,𝑐,𝝐 𝜔 𝑡 𝛿𝐷 + 𝜔 𝝐𝜙 𝒙𝑡 , 𝑡, 𝑦 − 𝝐𝜙 𝒙𝑡 , 𝑡, ∅ 𝜕𝑔 𝜕𝜃 𝛿𝐷 = ൝ 𝝐𝜙 𝒙𝑡 , 𝑡, ∅ 𝝐𝜙 𝒙𝑡 , 𝑡, ∅ − 𝝐𝜙 𝒙𝑡 , 𝑡, 𝑦neg If t < 200 otherwise CSD(Classifier Score Distillation) [Yu+, ICLR2024]と本質的に同じ定式化。 特に、SDSにおけるネガティブCFGの重要性が議論されている。 NFSD [Katzir+, ICLR2024]

Slide 33

Slide 33 text

No content

Slide 34

Slide 34 text

64 x 64 → 512 x 512 の2段階生成 1段階目はNeRF (InstantNGP)、2段階目は、 四面体メッシュ表現(DMTet) Imagenは64x64の低解像度の画像にのみ対応。 NeRFはコストがかかる。 Magic3D [Lin+CVPR2023] 幾何形状を四面体メッシュ(DMTet)で表現 法線マップと同時最適化されるBRDFで、 画像を物理的にレンダリング Fantasia3D [Lin+ICCV2023] DMTet DMTet 物理ベース レンダリング 法線マップの デノイジング RGB画像の デノイジング NeRF (InstantNPG) レンダリングのコストと生成のコストの両方を下げる事が重要 DreamFusionのもう一つの問題点(生成画像の解像度)

Slide 35

Slide 35 text

レンダリングのコストと生成のコストの両方を下げる事が重要 DreamFusionのもう一つの問題点(生成画像の解像度) Magic3D [Lin+, CVPR2023] Fantasia3D [Lin+, ICCV2023]

Slide 36

Slide 36 text

ヤヌス問題

Slide 37

Slide 37 text

事前学習された画像生成のための2D拡散モデルをほぼそのまま使っている。 各視点においてオブジェクトの正面画像ばかりを生成しがち(尤度が高い)。 𝑝 𝑥1 > 𝑝(𝑥2 ) 解決方法は? 3次元情報を考慮したスコア関数予測モデルを「新たに」学習する。 𝑝 𝑥1 , < 𝑝(𝑥2 , ) 後ろ 後ろ 生成される3次元モデルに複数の「顔」が存在する。 SDSにおけるヤヌス問題

Slide 38

Slide 38 text

MVDream [Shi+, Arxiv2023] RichDreamer [Qiu+, CVPR2023]

Slide 39

Slide 39 text

事前学習済み拡散モデル(SD2.1)を多視点データを用いてファインチューニング。多 視点画像に対するスコア関数を明示的に学習する。 単視点(30%)と多視点(70%)の画像生成を切り替えて学習する事でモード崩壊を回避 多視点生成(70%) カメラ埋め込み、クロスアテンション MVDream [Shi+, Arxiv2023] 多視点画像を同時に生成する拡散モデル

Slide 40

Slide 40 text

通常の画像生成モデルに加えて、「法線-距離画像」「反射率画像」のスコア関数を それぞれ学習する(法線-距離画像はMVDreamと同様に多視点データで学習する事で ヤヌス問題に対応) 幾何構造(DMTet)と、 PBRパラメタ(色、荒さ、金属)をSDSで最適化 3種類のSDS損失を用いて、幾何構造と材質パラメータを同時に最適化する。 RichDreamer [Qiu+, CVPR2023] 幾何情報の分布を明示的に考慮した拡散モデルを学習。

Slide 41

Slide 41 text

No content

Slide 42

Slide 42 text

計算コスト問題

Slide 43

Slide 43 text

(1)ランダムな視点のサンプリング、(2)ボリュームレンダリングによる画像生成、(3)ノ イズを加えてそのノイズを予測する事でスコア関数を計算、(4) 3次元パラメータの更 新 × 15,000 (DreamFusion) 高速化の主要な2つのアプローチ 3次元パラメータの直接推定(Feedforward) 単一モデルで複数プロンプトの3次元表現(Amortization) SDSの非効率性

Slide 44

Slide 44 text

Amortized Optimization (償却最適化) ATT3D [Lorraine+, ICCV2023] LATTE3D [Xie+, Arxiv2024] AGG [Xu+, Arxiv2024] AToM [Qian+, Arxiv2024] アモタイゼーション(Amortization) 1. 一つのモデルを複数のプロンプトで学習する。 2. テスト時にパラメータを(ほぼ)更新せずにプロンプトのみを変える(1秒未満)

Slide 45

Slide 45 text

ステージ1:償却学習 (幾何ネットワーク+テクスチャネットワーク) ステージ2:テクスチャネットワークの追加学習(デプス条件ControlNet) ChatGPTでプロンプト生成。MVDreamをファインチューニング。3Dデータを利用した正規化。 テスト:ジオメトリネットワーク固定、テクスチャネットワークの追加学習。 ChatGPTでプロンプトのバリエーションを生成 テクスチャ生成 ジオメトリ生成 3Dモデルで正規化 MVDream LATTE3D [Xie+, Arxiv2024]

Slide 46

Slide 46 text

MVDream (6min, 36min, 60min) ATT3D (~0.4sec) LATTE3D (~0.4sec)

Slide 47

Slide 47 text

Mescheder, L., Oechsle, M., Niemeyer, M., Nowozin, S., & Geiger, A. (2019). Occupancy Networks: Learning 3D Reconstruction in Function Space. CVPR. Occupancy Networks [Mescheder+2019] Wang, N., Zhang, Y., Li, Z., Fu, Y., Liu, W., & Jiang, Y.-G. (2018). Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images. ECCV. Pixel2Mesh [Wang+2018] • カテゴリごとの学習 (飛行機、車など) • 3次元データセット(e.g., ShapeNet [Chang+2015]) 3次元パラメータの直接推定 (フィードフォワードアプローチ)

Slide 48

Slide 48 text

陽表現 (Point, DMTet) Point-E [Nichol+Arxiv2022], Shape-E [Jun+Arxiv2023], GET3D [Gao+NeurIPS2022], MeshDiffusion [Liu+ICLR2023] 陰表現(NeRF, Triplane) RenderDiffusion [Anciukevicius+CVPR2023], SSDNeRF [Chen+ICCV2023], RODIN [Wang+CVPR2023], One-2-3-45 [Liu+NeurIPS2023], One-2-3-45++ [Liu+Arxiv2023], LRM [Hong+ICLR2024],InstantMesh [Xu+Arxiv2024],TriopoSR [Hong+ICLR2024], LGM [Tang+Arxiv2024], CRM [Wang+Arxiv2024], GRM [Xu+Arxiv2024], MVD2 [Zheng+SIGGRAPH2024] 一般的に汎化性能が低い (事前学習が無いため) 生成品質も高くない 最適化が存在しないので高速(~10sec) SDSの初期値として優れている。 LRM [Hong+ICLR2024] 3次元パラメータの直接推定 (フィードフォワードアプローチ)

Slide 49

Slide 49 text

多視点拡散モデルをSDSではなく、直接3次元パラメータを回帰するために用いる。 SDSによる最適化が無いので非常に高速。 LGM [Tang+, Arxiv2024 ] 最近のトレンドは、多視点生成+直接回帰の合わせ技 画像から多視点/任意視点画像を生成する技術がますます重要に。

Slide 50

Slide 50 text

第三章:1枚の画像から3次元を生成する。

Slide 51

Slide 51 text

ヤヌス問題の解決のために、3次元データで学習されたモデルが必要だと認識される。 1枚の画像から多視点の幾何的な整合性が取れた画像を生成する手法に注目が集まる。 テキスト→画像→3次元のフレームワークの効率性や性能に注目。 「椅子の上に座った猫」 1枚の画像からの任意視点/多視点生成の重要性

Slide 52

Slide 52 text

Zero-1-to-3 [Liu+, ICCV2023] SyncDreamer [Liu+, ICLR2024] 任意視点生成型 多視点生成型 MVDiffusion [Tang+, NeurIPS2023] Era3D [Li+, Arxiv2024] Wonder3D [Long+, CVPR2024] 任意視点/多視点生成 CAT3D [Gao+, Arxiv2024] EscherNet [Kon+, CVPR2024]

Slide 53

Slide 53 text

カメラの情報 (𝑐) 「イラスト調のリス」 視点プロンプト(「後ろ」) カメラ行列(R, T) 視線ベクトル(Plücker座標) 𝝐𝜙 𝑥𝑡 ; 𝑡, 𝑦, 𝑐, 𝐼𝑦 (𝑦) テキストプロンプト 拡散モデル 画像(𝐼𝑦) カメラポーズと入力画像を条件に生成を行う 1枚の画像からの任意視点生成

Slide 54

Slide 54 text

Zero-1-to-3 [Liu+, ICCV2023] 画像をCLIPエンコーディングし、 さらにそれをカメラ(R, T)と結合 Cross-AttentionでUnetに埋込み Objeverseからレンダリングされ た画像(ランダムな12視点)に対 して、SD2.0にファインチューニ ング。

Slide 55

Slide 55 text

∇ℒ𝑆𝐷𝑆 (𝐼1 , 𝑐1 , 𝑦) ∇ℒ𝑆𝐷𝑆 (𝐼2 , 𝑐2 , 𝑦) ∇ℒ𝑆𝐷𝑆 (𝐼3 , 𝑐3 , 𝑦) 𝜃 (NeRF, 3DGS, DMTet…) 参照視点(入力) ランダム(あるいは固定)の視点に対して、画像生成を行い、レンダリングされた 画像との一致性を持ってパラメータを更新(SDS) あるいは、生成された画像から直接「復元」を行う事も可能 Zero-1-to-3 [Liu+, ICCV2023]:Image-to-3D

Slide 56

Slide 56 text

Zero-1-to-3 [Liu+, ICCV2023] 1視点ごとの生成は全体的に不明瞭な生成となる

Slide 57

Slide 57 text

カメラの情報 (𝑐1,…,𝑘 ) 「イラスト調のリス」 視点プロンプト(「後ろ」) カメラ行列(𝑅1,…,𝑘 , 𝑇1,…,𝑘 ) 視線ベクトル(Plücker座標) 𝝐𝜙 𝑥𝑡 ; 𝑡, 𝑦, 𝑐, 𝐼𝑦 (𝑦) テキストプロンプト 拡散モデル 画像(𝐼𝑦) 複数の視点を同時にデノイジング 複数視点を写した一枚の写真をデノイジング 1枚の画像からの多視点生成

Slide 58

Slide 58 text

SynchDreamer [Liu+, ICLR2024] 1枚の画像から複数視点を同時に生成。明示的に3次元空間での一致性を強調する。

Slide 59

Slide 59 text

Wonder3D [Long+, CVPR2024] 法線と画像のドメインをスイッチャ―で切り替える手法を提案。独立にモデルを用意せず画像と法線の同時分布を学習。 MVDreamと同様に視点間でSelf/Cross Attentionでコミュニケーション SDSに頼らずに、直接NeuSでメッシュ 復元。法線画像を制約に用いる。

Slide 60

Slide 60 text

CAT3D [Gao+, Arxiv2024] 任意の入力画像枚数に対応しているモデル。疎な視線方向から密にしていくアプローチを採用。 エンコーダでは、入力画像と出力画像を区別せずにAttentionを取る。 Stable Diffusionをファインチューニングせず,独自モデルをフルスクラッチ学習。

Slide 61

Slide 61 text

オブジェクトマスクが無くても非常に高品質

Slide 62

Slide 62 text

第四章:まとめと今後の展望

Slide 63

Slide 63 text

事前学習済みの拡散モデルとSDSを利用した最適化は、ヤヌス問題と効 率化の観点からもはやほとんど研究されていない。 私の観測 3D生成の中心は殆どImage-to-3D。ObjaverseXLのような大規模データで学習する 事が当たり前になっている。 多視点の画像を生成した後から3次元形状を復元するのは,SDSではなく多視点の 幾何的な形状復元(NeRFや3DGS)を直接適用できるほどに多視点生成の性能は上 がっている。 一方で,形状復元した後のテクスチャの品質を向上させるための2次元拡散モデル を用いたSDSによる最適化は行われている。今後は,幾何形状の復元とテクスチャ の最適化で分業していくのかと思われる。

Slide 64

Slide 64 text

DreamFusion [Poole, ICLR2023] Magic3D [Lin, CVPR2023] SJC [Wang, CVPR2023] Fantasia3D [Chen, ICCV2023] 3DFuse [Seo, ICLR2024] TextMesh [Seo, 3DV2024] ATT3D [Seo, ICCV2023] ProlificDreamer [Wang, NeurIPS2023] DreamTime [Huang, ICLR2024] SyncDreamer [Liu, ICLR2024] SweetDreamer [Li, ICLR2024] DreamCraft3D [Sun, ICLR2024] CSD [Yu, Arxiv2023 ] BiDiff [Ding, CVPR2024 ] ESD [Wang, CVPR2024 ] Consistent3D [Wu, CVPR2024 ] HyperFields [Babu, ICLR2024 ] PGC [Pan, ICLR2024 ] GaussianDreamer [Yi, CVPR2024 ] DreamComposer [Yang, Arxiv2023 ] HyperDreamer [Wu, SIGGAsia2024 ] RichDreamer [Qiu, CVPR2024 ] Sherpa3D [Liu, CVPR2024 ] DreamPropeller [Zhou, CVPR2024 ] UniDream [Liu, Arxiv023 ] Repaint123 [Zhang, Arxiv2023 ] RetrievalAug [Seo, ICML024 ] DreamReward [Ye, Arxiv2024 ] DreamFlow [Lee, ICLR2024 ] LATTE3D [Xie, Arxiv2024 ] DreamPolisher [Xie, Arxiv2024 ] VP3D [Chen, CVPR2024 ] Hash3D [Yang, Arxiv2024 ] MicroDreamer [Chen, Arxiv2024 ] NeuralLift360 [Xu,CVPR2023] NeRDi [Deng,CVPR2023] LatentNeRF [Metzer,CVPR2023] RealFusion [Kyriazi,CVPR2023] Make-It-3D [Tang,CVPR2023] Thu, 29 Sep 2022 Zero-1-to-3 [Liu, Arxiv2023 ] DreamBooth3D [Raj, ICCV2023 ] One-2-345 [Liu, NeurIPS024 ] Magic123 [Qian, ICLR2024 ] POP3D [Ryu, SIGGAsia2023 ] ViewNeTI [Burgess, Arxiv2023 ] Customize-It-3D [Huang,Arxiv2023] HarmonyView [Woo,CVPR2024] AGG [Xu,Arxiv2024] MVDiffusion [Tang, NeurIPS2023 ] MVDream [Shi, ICLR2024] Wonder3D [Long, Arxiv2023] Zero123++ [Shi, Arxiv2023] TOSS [Shi, ICLR2024 ] Direct2.5 [Lu, CVPR2024 ] ViVid-1-to-3 [Kwak, CVPR2024 ] EpiDiff [Huang, CVPR2024 ] EscherNet [Kong, CVPR2024 ] LGM [Tang, Arxiv2024 ] SPAD [Kant, CVPR2024 ] MVDiffusion++ [Tang, Arxiv2024 ] CRM [Wang, Arxiv2024 ] V3D [Chen, Arxiv2024 ] Envision3D [Pang, Arxiv2024 ] Make-Your-3D [Liu, Arxiv2024 ] DreamBooth3D [Raj, Arxiv2023] MVControl [Liu, Arxiv2024 ] FDGaussian [Liu, Arxiv2024 ] SV3D [Voleti, Arxiv2024 ] MVD-Fusion [Hu, CVPR2024 ] Magic-Boost [Yang, Arxiv2024 ] InstantMesh [Xu, Arxiv2024 ] InstantMesh [Xu, Arxiv2024 ] CAT3D [Gao, Arxiv2024 ] ImageDream [Wang, Arxiv2023 ] VIewDiff [Lukas, CVPR2024 ] IM-3D [Melas-Kyriazi, Arxiv2024 ] One-2-345++ [Liu, Arxiv2023] Direct3D [Wu, Arxiv2024] LDM [Xie, Arxiv2024] Era3D [Li, Arxiv2024] Tripo3D [Tochilkin, Arxiv2024 ] LRM [Hong, ICLR2024 ] Dream Fields [Jain, CVPR2022] DreamFusion [Poole, ICLR2023] LDM [Xie, Arxiv2024] Thu, 23 May 2024 その間約1年半 2年もたたないうちに膨大な進展を遂げているので正直予想できません。

Slide 65

Slide 65 text

今日扱っていないトピックもたくさんあります。 動画生成モデルの活用 3次元モデルの編集 4D映像生成 人体や顔、服などのドメイン特化型の生成 Pixel-wise Gradient Cliping [PGC], Canonical Coordinate Map (CCM): SweatDreamer, CRM… Consistency Injection (3DFuse), DREAMTIME(novel sampling technique), Bootstrapped ScoreDistillation (DreamCraft3D), Entropic Score Distillation (ESD), Consistent3D, 3D Diffusion Model as Guidance (Sherpa3D), Parallel Sampling (DreamPropeller), Retrieval Augumentation, Reward(DreamReward) Visual Prompt [VP3D: Unleashing 2D Visual Prompt for Text-to-3D Generation]Video Diffusion (Video-123, V3D, SV3D,VFusion3D), Epipolar , Constraint (Era3D), Autoregressive View interpolation (Envision3D, Cat3D), DreamBooth (DreamBooth3D, Make-Your-3D), PixelContolooer (ImageDream), Pretrained Modle(Dinov2), TriplaneDecoder (LRM, InstantMesh, Tripso3D)、 Orthogonal view diffusion (EfficientDreamer), などなど。 その他の膨大なテクニック群

Slide 66

Slide 66 text

おすすめのサーベイ論文など https://github.com/cwchenwang/awesome-3d-diffusion

Slide 67

Slide 67 text

ご清聴ありがとうございました。