Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SSII2024 [TS1] 生成AIと3次元ビジョン ~3次元生成AIの最先端の理論~

SSII2024 [TS1] 生成AIと3次元ビジョン ~3次元生成AIの最先端の理論~

More Decks by 画像センシングシンポジウム

Other Decks in Research

Transcript

  1. • 陰関数表現 (NeRF [Mildenhall+2020]) • 陽関数表現(3D Gaussian Splatting[Kerbl+2023], Voxel) •

    ハイブリッド(DMTet [Shen+2021],Triplane [Chan2022]) • テキスト/イメージモデル(e.g., CLIP [Radford+2021]) • 画像・映像拡散モデル(e.g., Latent Diffusion [Rombach+2022], Video Diffusion [e.g., Chai2023], LoRA [Hu2021], ControlNet [Zhan2023]) 大規模学習済みモデル 微分可能レンダリング対応の3次元表現 Attentionと埋め込み技術 • Transformer [Vaswani+2017] • 各種情報埋め込み (テキストの埋め込み、カメラの埋め込み) 3次元生成AIの重要な要素技術 要素技術についてはある程度理解されている前提で話します。 x y z x y z x y z x y z x y z
  2. 更新方向 (Δ𝜃)の計算 フィードバック 3次元表現 (𝜃) 3次元表現 (𝜃) 生成 「椅子の上に座った猫」 入力(𝑦)

    「椅子の上に座った猫」 入力(𝑦) 𝜃0 最適化によるアプローチ フィードフォワードアプローチ 例:点群、メッシュ、 NeRF、3DGSなど 初期値 3次元表現を直接回帰する 初期値を徐々に更新する ◎効率性、△品質 △効率性、◎品質 3次元生成には大きく二つのアプローチが存在する。 例:点群、メッシュ、 NeRF、3DGSなど
  3. 3次元表現 (𝜃) 「椅子の上に座った猫」 入力(𝑦) 𝜃0 更新方向 (Δ𝜃)の計算 フィードバック 初期値 3次元の学習データは限られている。

    効率的に更新方向を計算できないだろうか? テキストと一致するように3次元モデルのパラメータ(例:NeRF)を更新したい。 例:NeRF, 3DGS 最適化ベースの3次元生成 適切な損失関数は? 学習データは?
  4. 3次元表現 (𝜃) 「椅子の上に座った猫」 入力(𝑦) 𝜃0 例:NeRF, 3DGS 更新方向 (Δ𝜃)の計算 フィードバック

    初期値 レンダリング 任意視点からレンダリングされた画 像がより尤もらしくなるように3次元 モデルを更新したい。 ランダムな視点 2次元画像に関する事前学習済みモデルを用いて、「レンダリングされた画像」の良し悪しを評価する。 最適化ベースの3次元生成 ※レンダリングの方法は3次元表現によって異なる。NeRFならボリュームレン ダリング、3DGSならラスタライゼーションなど。いずれも画像をθで微分可能。
  5. 3次元表現 (𝜃) 「椅子の上に座った猫」 𝜃0 NeRF フィードバック 初期値 レンダリング 画像エンコーダ テキストエンコーダ

    CLIP損失 ランダムな視点 ※実際の損失はCLIP損失に加えてNeRFの密度分布の正規化 を行うTransmittance損失を用いる。 レンダリングされた画像と入力テキストのCLIP損失を小さくする方向にθを更新する。 Dream Fields [Jain+,CVPR2022] 「CLIPを利用した3次元パラメータの更新」 画像とテキストの関連性の評価
  6. a tray that has meat and carrots on a table.

    a snowboard standing upright in a snow bank a robotic dog. a robot in the shape of a dog. レンダリング画像とテキストの意味的な一致性だけを見て いるので、生成品質は非常に低い。 レンダリングされた画像と入力テキストのCLIP損失を小さくする方向にθを更新する。 Dream Fields [Jain+,CVPR2022] 「CLIPを利用した3次元パラメータの更新」
  7. Poole, B., Jain, A., Barron, J. T., & Mildenhall, B.

    (2023). DreamFusion: Text-to-3D using 2D Diffusion. ICLR2023. 現在の3次元生成AIの火付け役ともいえる革新的なSDS(Score Distillation Sampling;スコア蒸留サンプリング)を提案※ DreamFusion [Poole+,ICLR2023] 「より高品質な生成のためのパラメータ更新手法」 ※同時期にSJC (Score Jacobian Chaining) [Wang+CVPR2023]という ほぼ同等のアイデアが提案されている。
  8. 3Dパラメータの更新方向(スコア関数)を事前学習済みの2次元拡散モデルを用いて推定する手法 スコア蒸留サンプリング (Score Distillation Sampling;SDS) 3次元表現 (𝜃) 「椅子の上に座った猫」 入力(𝑦) 𝜃0

    例:NeRF, 3DGS 更新方向 (Δ𝜃)の計算 フィードバック 初期値 レンダリング 任意視点からレンダリングされた画 像がより尤もらしくなるように3次元 モデルを更新したい。 ランダムな視点
  9. スコア関数 = 確率密度分布の対数のサンプル微分 (∇𝑥 log 𝑝 𝑥 )→より確率密度が高くなるサンプルの方向 ここでは,𝜽は3Dパラメータ,𝒙は視点𝑐から関数𝑔によってレンダリングされた画像, 𝒚はテキストプロンプト。

    ∇𝜽 log 𝑝 𝜽 𝑦 = ∇𝑥 log 𝑝 𝒙 𝑦 𝜕𝒙 𝜕𝜽 = ∇𝒙 log 𝑝 𝒙 𝑦 𝜕𝑔 𝜕𝜽 3Dスコア 2Dスコア 3Dパラメータの勾配(解析的) 3次元スコア関数 +チェーンルールの適用 +レンダリング関数の利用 ∇𝒙 log 𝑝 𝒙 𝒚 がわかればよい。 学習済みの拡散モデルを利用可能 (=蒸留) 𝒙 = 𝑔(𝜽, 𝑐) 3Dパラメータの更新方向(スコア関数)を事前学習済みの2次元拡散モデルを用いて推定する手法 スコア蒸留サンプリング・スコアヤコビアン連鎖 (SDS, SJC) 「より尤もらしい」3次元パラメータへの更新方向 2Dスコア
  10. スコア関数 𝑥 𝑝 𝒙 𝑦 ∇𝒙 log 𝑝 𝒙 𝒚

    𝑥0 • 画像生成は,テキストを条件とする画像分布の確率密度関数のピークを見つけるタスク。 • 確率密度関数を直接求めるのは困難なので,対数確率密度関数の微分(スコア関数)を予測するネット ワークをスコアマッチングにより学習し,初期値からより確率密度の高いサンプルへと遷移させる。 • ただし,直接スコア関数を学習するのは困難なので,画像に与えられたノイズ量を予測するネットワー クを学習し,スコア関数を近似する。(デノイジングスコアマッチング) ∇log 𝑝 𝒙 + 𝝐 𝒚 𝑥 + 𝜖 スコア関数 (ノイズ画像) 𝑝 𝒙 + 𝝐 𝑦 𝑥0 おさらい:画像生成におけるスコア関数とデノイジングスコアマッチング 画像の分布 ノイズ画像の分布
  11. ∇𝜃 ℒ𝑆𝐷𝑆 𝜽 ≔ ∇𝜽 log 𝑝 𝜽 𝑦 =

    𝔼𝑡,𝑐,𝝐𝑡 𝜔 𝑡 𝝐𝜙 𝒙𝑡 , 𝑡, 𝑦 − 𝝐𝑡 𝜕𝑔 𝜕𝜽 ノイズ量の予測 (学習済みモデル:蒸留) ∇𝑥 log 𝑝 𝒙 𝒚 = 𝔼𝑡,𝑐,𝝐𝑡 𝜔(𝑡) 𝝐𝜙 𝒙𝑡 ; 𝑡, 𝑦 − 𝝐𝑡 実際に与えたノイズ (平均するとキャンセルされるがあった方が良い) • 2Dスコアの計算 スコア蒸留に基づく更新(SDS, SDS = “score distillation Sampling” ) 𝝐𝜙 𝒙𝑡 , 𝑡, ∅ − 𝝐𝑡 + 𝑠 𝝐𝜙 𝒙𝑡 , 𝑡, 𝑦 − 𝝐𝜙 𝒙𝑡 , 𝑡, ∅ 識別器フリーガイダンス (Classifier-Free Guidance;CFG) 全ての時刻(ノイズレベル)の平均 𝒙𝑡 = 𝒙 + 𝝐𝑡 = 𝑔 𝜽, 𝑐 + 𝝐𝑡 3Dパラメータの更新方向(スコア関数)を事前学習済みの2次元拡散モデルを用いて推定する。 SDSにおける3Dパラメータの更新方法 Or 𝝐𝜙 𝒙𝑡 , 𝑡, 𝑦
  12. ∇𝜽 ℒ𝑆𝐷𝑆 𝜽 ≔ 𝔼𝑡,𝑐,𝜖𝑡 𝜔 𝑡 𝝐𝜙 𝒙𝑡 ,

    𝑡, ∅ − 𝝐𝑡 + 𝜔 𝝐𝜙 𝒙𝑡 , 𝑡, 𝑦 − 𝝐𝜙 𝒙𝑡 , 𝑡, ∅ 𝜕𝑔 𝜕𝜽 レンダリング ノイズ予測 (学習済みモデル) 3Dスコアを 計算してBP おおまかなカメラ情報もテキストで追加 (View-dependent prompt)𝑦 → 𝑦𝑐 3Dパラメータの更新方向(スコア関数)を事前学習済みの2次元拡散モデルを用いて推定する。 DreamFusionのまとめ 物理ベースレンダリングで 幾何情報を考慮 ノイズ付与
  13. DreamFusionの実装と結果 15,000反復 / 1.5時間 (TPUv4) 視点依存プロンプト 仰角∈ [−10°, 90°] 方位角∈

    [0°, 360°] 焦点距離∈ 𝒰[0.7,1.35] 64画素 × 64画素 (Imagen) 識別器フリーガイダンス重み(𝜔 = 100) 計算コスト カメラ設定 レンダリング視点 Front/back/side/overhead その他
  14. テクスチャ 品質が低い 計算効率が低い ヤヌス問題 全体的に不明瞭 コントラストが高い モデル毎の最適化 1度の推論に20分 (8+GPU) 多顔的な生成

    3次元の一致性の欠如 3D生成の歴史はDreamFusionの課題の解決 第二章:SDSの問題点とその解決 バリエーションが少ない
  15. SDSのテクスチャ品質がなぜ低いのか(特になぜCFGの高い重みが必要なのか)に対して色々な意見が示されている。 指摘されているSDSの問題点(のほんの一部) 点推定(単一のθの最適化)である事が問題 1 「単一のθのみを最適化する事はMode-Seekingであり,多様性を損なう要因になる。」 Prolific Dreamer [Wang+, NeurIPS2023] レンダリング画像+ノイズが分布外(OOD)である事を認識していないのが問題

    「スコア関数にはサンプルを分布内に遷移させる力があり,それが本質的に重要。」 NFSD [Katzir+, ICLR2024] SDSの損失は不安定な正解ラベルに基づいているのが問題 「SDSは本質的にレンダリング画像と不安定な”疑似正解画像”の誤差を評価している。」 LucidDreamer [Liang+, CVPR2024] 2 3
  16. 点推定(単一のθの最適化)である事が問題 1 SDSにおける𝜽の点推定は滑らかな確率密度場のMode-Seekingのため常に停留点が類似する。 Prolific Dreamer [Wang+, NeurIPS2023] 𝑥 + 𝜖

    𝑥0 「単一のθのみを最適化する事はMode-Seekingであり,多様性を損なう要因になる。」 あるテキストプロンプトに対応する𝜃の確率密度分布からサンプリングを行いたい。 点推定 分布推定 𝑝(𝜃) 変分スコア蒸留(VSD; Variational Score Distillation)で3Dパラメータの分布を最適化。
  17. 変分スコア蒸留(VSD, Variational Score Distillation) +𝝐2.𝑡 点推定(単一のθの最適化)である事が問題 1 𝜽の点推定から分布推定(𝜇𝜽 , 𝜎𝜽

    )へ。複数の𝜽に分布を代表させる。 分布内のデータのみで拡散モデルを LoRAでファインチューニング。 カメラの明示的な埋め込み。 𝜃4 𝜃1 𝜃2 𝜃3 𝜃1 𝜇𝜃 , 𝜎𝜃 𝜃2 LoRA LoRA 𝑔(𝜃1 , 𝑐1 ) 𝑔(𝜃2 , 𝑐2 ) +𝝐1,𝑡 𝝐𝜙𝐿𝑜𝑅𝐴 𝒙1,𝑡 , 𝑡1 , 𝑦, 𝑐1 𝝐𝜙𝐿𝑜𝑅𝐴 𝒙2,𝑡 , 𝑡2 , 𝑦, 𝑐2 min 𝛷LoRA 𝝐𝜙𝐿𝑜𝑅𝐴 𝒙2,𝑡 , 𝑡2 , 𝑦, 𝑐2 − 𝜖𝑡 2 2 min 𝛷LoRA 𝝐𝜙𝐿𝑜𝑅𝐴 𝒙1,𝑡 , 𝑡1 , 𝑦, 𝑐1 − 𝜖𝑡 2 2 Prolific Dreamer [Wang+, NeurIPS2023] ∇𝜃 ℒVSD 𝜃 = 𝔼𝑡,𝑐,𝝐 𝜔 𝑡 𝝐𝜙 𝒙𝑡 , 𝑡, 𝑦𝑐 − 𝝐𝜙𝐿𝑜𝑅𝐴 𝒙𝑡 , 𝑡, 𝑦, 𝑐 𝜕𝑔 𝜕𝜃 任意のサンプル/視点をレンダリングした画像のスコアと事前学習モデルのスコアが一致 𝝐𝜙𝐿𝑜𝑅𝐴 は全てのサンプルで共通
  18. 点推定(単一のθの最適化)である事が問題 1 複数のθを同時 に最適化 ランダムに一 つのθを選択 分布内データのスコアと 事前学習されたスコアが 一致するように最適化 変分スコア蒸留(VSD,

    Variational Score Distillation) ∇𝜃 ℒVSD 𝜃 = 𝔼𝑡,𝑐,𝝐 𝜔 𝑡 𝝐𝜙 𝒙𝑡 , 𝑡, 𝑦𝑐 − 𝝐𝜙𝐿𝑜𝑅𝐴 𝒙𝑡 , 𝑡, 𝑦, 𝑐 𝜕𝑔 𝜕𝜃 任意のサンプル/視点をレンダリングした画像のスコアと事前学習モデルのスコアが一致 Prolific Dreamer [Wang+, NeurIPS2023] Prolific Dreamer [Wang+, NeurIPS2023]
  19. レンダリング画像+ノイズが分布外(OOD)である事を認識していないのが問題 2 「スコア関数にはサンプルを分布内に遷移させる力があり,それが本質的に重要。」 ノイズフリースコア蒸留(NFSD, Noise-Free Score Distilation) ∇𝜃 ℒNFSD 𝜃

    = 𝔼𝑡,𝑐,𝝐 𝜔 𝑡 𝛿𝐷 − 𝜔 𝝐𝜙 𝒙𝑡 , 𝑡, 𝑦 − 𝝐𝜙 𝒙𝑡 , 𝑡, ∅ 𝜕𝑔 𝜕𝜃 𝛿𝐷 = ൝ 𝝐𝜙 𝒙𝑡 , 𝑡, ∅ 𝝐𝜙 𝒙𝑡 , 𝑡, ∅ − 𝝐𝜙 𝒙𝑡 , 𝑡, 𝑦neg If t < 200 otherwise 𝒙 ≔ 𝑔(𝜽, 𝑐) は学習初期において,拡散モデルの学習データのOOD(分布外データ) 𝒙𝑡 ≔ 𝒙 + 𝝐𝑡 にノイズを与えてデノイジングしても, 𝒙に戻るのではなく分布内データに遷移する。 つまり𝝐𝜙 𝒙𝑡 , 𝑡, ∅ は,デノイズ成分(𝛿𝑁 )と分布内データへの遷移(𝛿𝐷 )の二つの要素がある。 𝜃の更新において重要なのは, 𝛿𝑁 ではなく𝛿𝐷 𝛿𝐷 の近似法:テキスト条件無 - ネガティブプロンプト 𝛿𝐷 = 𝝐𝜙 𝒙𝑡 , 𝑡, ∅ − 𝝐𝜙 𝒙𝑡 , 𝑡, 𝑦neg “unrealistic, blurry, low quality, out of focus, ugly, low contrast, dull, dark, low-resolution, gloomy” NFSD [Katzir+, ICLR2024]
  20. レンダリング画像+ノイズが分布外(OOD)である事を認識していないのが問題 2 「スコア関数にはサンプルを分布内に遷移させる力があり,それが本質的に重要。」 結局の所,t>200の挙動というのは,CFG (positive) – CFG (negative) なので、識別器フリーガイダンスのみでSDSを行っている事に等しい。 ノイズフリースコア蒸留(NFSD,

    Noise-Free Score Distilation) ∇𝜃 ℒNFSD 𝜃 = 𝔼𝑡,𝑐,𝝐 𝜔 𝑡 𝛿𝐷 + 𝜔 𝝐𝜙 𝒙𝑡 , 𝑡, 𝑦 − 𝝐𝜙 𝒙𝑡 , 𝑡, ∅ 𝜕𝑔 𝜕𝜃 𝛿𝐷 = ൝ 𝝐𝜙 𝒙𝑡 , 𝑡, ∅ 𝝐𝜙 𝒙𝑡 , 𝑡, ∅ − 𝝐𝜙 𝒙𝑡 , 𝑡, 𝑦neg If t < 200 otherwise CSD(Classifier Score Distillation) [Yu+, ICLR2024]と本質的に同じ定式化。 特に、SDSにおけるネガティブCFGの重要性が議論されている。 NFSD [Katzir+, ICLR2024]
  21. 64 x 64 → 512 x 512 の2段階生成 1段階目はNeRF (InstantNGP)、2段階目は、

    四面体メッシュ表現(DMTet) Imagenは64x64の低解像度の画像にのみ対応。 NeRFはコストがかかる。 Magic3D [Lin+CVPR2023] 幾何形状を四面体メッシュ(DMTet)で表現 法線マップと同時最適化されるBRDFで、 画像を物理的にレンダリング Fantasia3D [Lin+ICCV2023] DMTet DMTet 物理ベース レンダリング 法線マップの デノイジング RGB画像の デノイジング NeRF (InstantNPG) レンダリングのコストと生成のコストの両方を下げる事が重要 DreamFusionのもう一つの問題点(生成画像の解像度)
  22. Amortized Optimization (償却最適化) ATT3D [Lorraine+, ICCV2023] LATTE3D [Xie+, Arxiv2024] AGG

    [Xu+, Arxiv2024] AToM [Qian+, Arxiv2024] アモタイゼーション(Amortization) 1. 一つのモデルを複数のプロンプトで学習する。 2. テスト時にパラメータを(ほぼ)更新せずにプロンプトのみを変える(1秒未満)
  23. Mescheder, L., Oechsle, M., Niemeyer, M., Nowozin, S., & Geiger,

    A. (2019). Occupancy Networks: Learning 3D Reconstruction in Function Space. CVPR. Occupancy Networks [Mescheder+2019] Wang, N., Zhang, Y., Li, Z., Fu, Y., Liu, W., & Jiang, Y.-G. (2018). Pixel2Mesh: Generating 3D Mesh Models from Single RGB Images. ECCV. Pixel2Mesh [Wang+2018] • カテゴリごとの学習 (飛行機、車など) • 3次元データセット(e.g., ShapeNet [Chang+2015]) 3次元パラメータの直接推定 (フィードフォワードアプローチ)
  24. 陽表現 (Point, DMTet) Point-E [Nichol+Arxiv2022], Shape-E [Jun+Arxiv2023], GET3D [Gao+NeurIPS2022], MeshDiffusion

    [Liu+ICLR2023] 陰表現(NeRF, Triplane) RenderDiffusion [Anciukevicius+CVPR2023], SSDNeRF [Chen+ICCV2023], RODIN [Wang+CVPR2023], One-2-3-45 [Liu+NeurIPS2023], One-2-3-45++ [Liu+Arxiv2023], LRM [Hong+ICLR2024],InstantMesh [Xu+Arxiv2024],TriopoSR [Hong+ICLR2024], LGM [Tang+Arxiv2024], CRM [Wang+Arxiv2024], GRM [Xu+Arxiv2024], MVD2 [Zheng+SIGGRAPH2024] 一般的に汎化性能が低い (事前学習が無いため) 生成品質も高くない 最適化が存在しないので高速(~10sec) SDSの初期値として優れている。 LRM [Hong+ICLR2024] 3次元パラメータの直接推定 (フィードフォワードアプローチ)
  25. Zero-1-to-3 [Liu+, ICCV2023] SyncDreamer [Liu+, ICLR2024] 任意視点生成型 多視点生成型 MVDiffusion [Tang+,

    NeurIPS2023] Era3D [Li+, Arxiv2024] Wonder3D [Long+, CVPR2024] 任意視点/多視点生成 CAT3D [Gao+, Arxiv2024] EscherNet [Kon+, CVPR2024]
  26. カメラの情報 (𝑐) 「イラスト調のリス」 視点プロンプト(「後ろ」) カメラ行列(R, T) 視線ベクトル(Plücker座標) 𝝐𝜙 𝑥𝑡 ;

    𝑡, 𝑦, 𝑐, 𝐼𝑦 (𝑦) テキストプロンプト 拡散モデル 画像(𝐼𝑦) カメラポーズと入力画像を条件に生成を行う 1枚の画像からの任意視点生成
  27. ∇ℒ𝑆𝐷𝑆 (𝐼1 , 𝑐1 , 𝑦) ∇ℒ𝑆𝐷𝑆 (𝐼2 , 𝑐2

    , 𝑦) ∇ℒ𝑆𝐷𝑆 (𝐼3 , 𝑐3 , 𝑦) 𝜃 (NeRF, 3DGS, DMTet…) 参照視点(入力) ランダム(あるいは固定)の視点に対して、画像生成を行い、レンダリングされた 画像との一致性を持ってパラメータを更新(SDS) あるいは、生成された画像から直接「復元」を行う事も可能 Zero-1-to-3 [Liu+, ICCV2023]:Image-to-3D
  28. カメラの情報 (𝑐1,…,𝑘 ) 「イラスト調のリス」 視点プロンプト(「後ろ」) カメラ行列(𝑅1,…,𝑘 , 𝑇1,…,𝑘 ) 視線ベクトル(Plücker座標)

    𝝐𝜙 𝑥𝑡 ; 𝑡, 𝑦, 𝑐, 𝐼𝑦 (𝑦) テキストプロンプト 拡散モデル 画像(𝐼𝑦) 複数の視点を同時にデノイジング 複数視点を写した一枚の写真をデノイジング 1枚の画像からの多視点生成
  29. DreamFusion [Poole, ICLR2023] Magic3D [Lin, CVPR2023] SJC [Wang, CVPR2023] Fantasia3D

    [Chen, ICCV2023] 3DFuse [Seo, ICLR2024] TextMesh [Seo, 3DV2024] ATT3D [Seo, ICCV2023] ProlificDreamer [Wang, NeurIPS2023] DreamTime [Huang, ICLR2024] SyncDreamer [Liu, ICLR2024] SweetDreamer [Li, ICLR2024] DreamCraft3D [Sun, ICLR2024] CSD [Yu, Arxiv2023 ] BiDiff [Ding, CVPR2024 ] ESD [Wang, CVPR2024 ] Consistent3D [Wu, CVPR2024 ] HyperFields [Babu, ICLR2024 ] PGC [Pan, ICLR2024 ] GaussianDreamer [Yi, CVPR2024 ] DreamComposer [Yang, Arxiv2023 ] HyperDreamer [Wu, SIGGAsia2024 ] RichDreamer [Qiu, CVPR2024 ] Sherpa3D [Liu, CVPR2024 ] DreamPropeller [Zhou, CVPR2024 ] UniDream [Liu, Arxiv023 ] Repaint123 [Zhang, Arxiv2023 ] RetrievalAug [Seo, ICML024 ] DreamReward [Ye, Arxiv2024 ] DreamFlow [Lee, ICLR2024 ] LATTE3D [Xie, Arxiv2024 ] DreamPolisher [Xie, Arxiv2024 ] VP3D [Chen, CVPR2024 ] Hash3D [Yang, Arxiv2024 ] MicroDreamer [Chen, Arxiv2024 ] NeuralLift360 [Xu,CVPR2023] NeRDi [Deng,CVPR2023] LatentNeRF [Metzer,CVPR2023] RealFusion [Kyriazi,CVPR2023] Make-It-3D [Tang,CVPR2023] Thu, 29 Sep 2022 Zero-1-to-3 [Liu, Arxiv2023 ] DreamBooth3D [Raj, ICCV2023 ] One-2-345 [Liu, NeurIPS024 ] Magic123 [Qian, ICLR2024 ] POP3D [Ryu, SIGGAsia2023 ] ViewNeTI [Burgess, Arxiv2023 ] Customize-It-3D [Huang,Arxiv2023] HarmonyView [Woo,CVPR2024] AGG [Xu,Arxiv2024] MVDiffusion [Tang, NeurIPS2023 ] MVDream [Shi, ICLR2024] Wonder3D [Long, Arxiv2023] Zero123++ [Shi, Arxiv2023] TOSS [Shi, ICLR2024 ] Direct2.5 [Lu, CVPR2024 ] ViVid-1-to-3 [Kwak, CVPR2024 ] EpiDiff [Huang, CVPR2024 ] EscherNet [Kong, CVPR2024 ] LGM [Tang, Arxiv2024 ] SPAD [Kant, CVPR2024 ] MVDiffusion++ [Tang, Arxiv2024 ] CRM [Wang, Arxiv2024 ] V3D [Chen, Arxiv2024 ] Envision3D [Pang, Arxiv2024 ] Make-Your-3D [Liu, Arxiv2024 ] DreamBooth3D [Raj, Arxiv2023] MVControl [Liu, Arxiv2024 ] FDGaussian [Liu, Arxiv2024 ] SV3D [Voleti, Arxiv2024 ] MVD-Fusion [Hu, CVPR2024 ] Magic-Boost [Yang, Arxiv2024 ] InstantMesh [Xu, Arxiv2024 ] InstantMesh [Xu, Arxiv2024 ] CAT3D [Gao, Arxiv2024 ] ImageDream [Wang, Arxiv2023 ] VIewDiff [Lukas, CVPR2024 ] IM-3D [Melas-Kyriazi, Arxiv2024 ] One-2-345++ [Liu, Arxiv2023] Direct3D [Wu, Arxiv2024] LDM [Xie, Arxiv2024] Era3D [Li, Arxiv2024] Tripo3D [Tochilkin, Arxiv2024 ] LRM [Hong, ICLR2024 ] Dream Fields [Jain, CVPR2022] DreamFusion [Poole, ICLR2023] LDM [Xie, Arxiv2024] Thu, 23 May 2024 その間約1年半 2年もたたないうちに膨大な進展を遂げているので正直予想できません。
  30. 今日扱っていないトピックもたくさんあります。 動画生成モデルの活用 3次元モデルの編集 4D映像生成 人体や顔、服などのドメイン特化型の生成 Pixel-wise Gradient Cliping [PGC], Canonical

    Coordinate Map (CCM): SweatDreamer, CRM… Consistency Injection (3DFuse), DREAMTIME(novel sampling technique), Bootstrapped ScoreDistillation (DreamCraft3D), Entropic Score Distillation (ESD), Consistent3D, 3D Diffusion Model as Guidance (Sherpa3D), Parallel Sampling (DreamPropeller), Retrieval Augumentation, Reward(DreamReward) Visual Prompt [VP3D: Unleashing 2D Visual Prompt for Text-to-3D Generation]Video Diffusion (Video-123, V3D, SV3D,VFusion3D), Epipolar , Constraint (Era3D), Autoregressive View interpolation (Envision3D, Cat3D), DreamBooth (DreamBooth3D, Make-Your-3D), PixelContolooer (ImageDream), Pretrained Modle(Dinov2), TriplaneDecoder (LRM, InstantMesh, Tripso3D)、 Orthogonal view diffusion (EfficientDreamer), などなど。 その他の膨大なテクニック群