Upgrade to Pro — share decks privately, control downloads, hide ads and more …

最近気になってるText-to-Imageを応用したNeRF論文の解説

 最近気になってるText-to-Imageを応用したNeRF論文の解説

CV勉強会の発表資料です。
https://kantocv.connpass.com/event/278291/

Shirokuma

April 30, 2023
Tweet

More Decks by Shirokuma

Other Decks in Technology

Transcript

  1. 自己紹介 独立系ロボットエンジニア しろくま@neka-nat https://twitter.com/neka_nat https://github.com/neka-nat • フリーでロボティクス・画像処理関連のソフトウェア開 発やってます! • 前職は某大手JTC社員

    • 好きなCV技術 ◦ 点群処理 ◦ 3次元再構成 ◦ 高速化・ハードウェアアクセラレーション • Web関連のお仕事もやってます ◦ React/TypeScript/Rust/AWS/Terraform • お仕事に関してDMなどでお気軽にご相談ください!
  2. CLIP • Learning Transferable Visual Models From Natural Language Supervision(2021)

    • 画像とテキストを同じベクトル空間に埋め込むことができる • インターネットから取ってきた4億個の画像とキャプションのペアを学習 • どの画像とどのキャプションが正しいペアかを学習させる a photo of guacamole, a type of food. a photo of a television studio. https://openai.com/research/clip a photo of a airplane. … … … …
  3. DreamFields • Zero-Shot Text-Guided Object Generation with Dream Fields(CVPR2022) •

    CLIPを使ったテキストから3Dモデル(NeRF)の生成 • 学習において3Dのデータは不要
  4. DreamFusion • DREAMFUSION: TEXT-TO-3D USING 2D DIFFUSION(2022) • DreamFieldsに比べDiffusionモデルの使用により鮮明な3Dモデルが作成可能 •

    CLIPは使用せず、NeRFのレンダリング結果とText-to-Imageモデル(Imagen)を使った 画像生成モデルを利用
  5. CLIPやText-to-NeRFを応用したImage-to-NeRFの論文(in 2023) • Make-It-3D: High-Fidelity 3D Creation from A Single

    Image with Diffusion Prior ◦ 一枚の画像から3Dオブジェクト生成 • ELICIT: One-shot Implicit Animatable Avatars with Model-based Priors ◦ 一枚の画像から3Dアバター生成
  6. Make-It-3D • Make-It-3D: High-Fidelity 3D Creation from A Single Image

    with Diffusion Prior • 精巧な3Dモデルを一枚の画像から生成できるようにした • DreamFusionに比べてテクスチャの精度が高い
  7. Make-It-3D Refine Stage • Refine Stageではテクスチャをより精巧にしていく • Neural Point-Based Graphicsというモデルを使ってレンダリングを向上させる

    • Coase Stageと同様にレンダリング結果をDiffusionモデルに入力し、SDS Lossを最小化 するように学習
  8. Make-It-3D Refine Stage • Neural Point-Based Graphics • 点群と画像を用いた画像レンダリング手法 •

    NeRFと同じようにいろんな視点での精細な画像を生成できる
  9. Make-It-3D Refine Stage • 正直Coarse Stageとの違いや効果がよく分からない • おそらく、リファレンス画像から見えているところに関してはNeural Point-Based Graphics

    がより精度高くレンダリングを行うと思われる • その上で見えていないところはDiffusionモデルにより、一貫性を保った形で精細なテクス チャが生成される(?)
  10. ELICIT • One-shot Implicit Animatable Avatars with Model-based Priors •

    一枚の人の全身画像からアバターモデル(SMPL)を生成する手法 • 与えられた画像と異なる視点、異なるポーズ画像を生成することが可能
  11. ELICIT ベース技術の紹介 • SMPL: A Skinned Multi-Person Linear Model ◦

    人体の形状やポーズを表現できるモデル ◦ 形状(体型)のパラメタ(10個)と関節のパラメタ(72個)からメッシュ頂点を出力 ◦ ベースとなるテンプレートのメッシュやブレンディングの重みなどを多数の人3Dモデル を使って学習して求めた
  12. 参考資料 • 論文 ◦ CLIP: Learning Transferable Visual Models From

    Natural Language Supervision ◦ Zero-Shot Text-Guided Object Generation with Dream Fields ◦ DreamFusion: Text-to-3D using 2D Diffusion ◦ Make-It-3D: High-Fidelity 3D Creation from A Single Image with Diffusion Prior ◦ Neural Point-Based Graphics ◦ ELICIT: One-shot Implicit Animatable Avatars with Model-based Priors ◦ SMPL ◦ HumanNeRF: Free-viewpoint Rendering of Moving People from Monocular Video • 論文以外 ◦ Mip-NeRF ICCV2021輪読会スライド - Speaker Deck ◦ 2022年版・深層学習による写実的画像合成の最新動向 - Speaker Deck ◦ 話題のOpenAIの新たな画像分類モデル CLIPを論文から徹底解説! | DeepSquare ◦ Diffusion Models | ドクセル ◦ 世界に衝撃を与えた画像生成 AI「Stable Diffusion」を徹底解説! - Qiita ◦ Dream Fieldsによるテキストから 3Dオブジェクトの自動生成( text-to-3D synthesis) - Amaru Note ◦ 文章から3Dオブジェクトを生成するー DreamFusionー | AI-SCHOLAR ◦ 【AI論文解説】世界初! Diffusion modelを使ってテキストから 3D生成: DreamFusionを解説 ◦ 【DL輪読会 #341 1/2】DreamFusion: Text-to-3D using 2D Diffusion ◦ 論文まとめ:BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models ◦ 拡散確率モデルと音声波形生成 - Speaker Deck ◦ 【DL輪読会】Novel View Synthesis with Diffusion Models ◦ 論文まとめ:HumanNeRF: Free-viewpoint Rendering of Moving People from Monocular Video - Qiita