Upgrade to Pro — share decks privately, control downloads, hide ads and more …

SSII2024 [SS1] 拡散モデルの今 〜 2024年の研究動向 〜

SSII2024 [SS1] 拡散モデルの今 〜 2024年の研究動向 〜

More Decks by 画像センシングシンポジウム

Other Decks in Research

Transcript

  1. 自己紹介:シーン 誠 • 大学では応用数理を専攻 • rinna → Stability AI → Sakana

    AI 🐠 • CLIP-guided diffusionで拡散モデルに魅了 • 主にマルチモーダルモデルの研究開発に従事 • 日本語に特化したCLIP・VLM・拡散モデルベース のtext-to-imageモデルを開発・公開 EvoSDXL-JPのサンプル例 左:「北極にある京都」右:「ひまわりの油絵」
  2. 拡散モデルの学習 入力 • 画像 • 時間 t ∊ [0, T]

    出力 • 時間 t におけるノイズ除去する方向 (scoreと呼ぶ) 目標 • 真のscoreとの距離の最小化* *ただし、真のscoreは未知なため、条件付き分布のscoreによって 近似している(Denoising score matching) “Score-Based Generative Modeling through Stochastic Differential Equations” https://arxiv.org/abs/2011.13456
  3. 最近の拡散モデルの応用先 動画生成 “Introducing Sora — OpenAI’s text-to-video model” https://youtu.be/HK6y8DAPN_0?si=Dwd3Q6Iq-ctIw_cd テキスト生成

    “Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution” https://aaronlou.com/blog/2024/discrete-diffusion/ “Stable Video 3D” https://huggingface.co/stabilityai/sv3d 3D生成
  4. Rectified Flow(3/3) • 「データ ↔ ノイズ」の輸送を「ドメインデータ ↔ ドメインデータ」とすることで、 Image-to-Image Translationも可能

    Figure 1 “Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow” https://arxiv.org/abs/2209.03003