Slide 45
Slide 45 text
プロンプト以外のモダリティを追加入力する機構を備え、描画対象の位置や姿勢を自在に制御する拡張手法
従来のプロンプト駆動型Text2Imageでは、人物等を複雑な姿勢で描画しようとしたり、複数の物体が配置されたシーンを意図通りに生成したりすることに困難があった。
このような課題を解決するため、独自の記号操作をプロンプトに導入したり、セグメンテーションマップやポーズ表現用のボーンリグで画面構成をより精緻に描画可能に
したりする手法が次々と提案されはじめている。これらは既存の学習済みモデルに適用可能であるため拡張性が高く、コミュニティでも急速に広まりつつある。
Jun 03, 2022 | Composable Diffusion [UIUC, MIT]
組み合わせ可能な拡散モデル
Jan 17, 2023 | GLIGEN [UW–Madison, Columbia Univ., Microsoft]
接地情報に基づく補助入力で学習済みモデルを制御
Feb 10, 2023 | ControlNet [Stanford Univ.]
学習済み拡散モデルに多様な補助入力経路を追加
Feb 14, 2023 | Universal Guided Diffusion [UMD, UNC Chapel Hill, NYU]
分類器誘導を拡張し、再学習なしに補助入力経路を追加
45
拡散モデルの拡張技術【操作性・制御性】【➡補遺E】
Feb 16, 2023 | MultiDiffusion [WIS]
追加学習なしで任意解像度における空間制御性を付与
Feb 16, 2023 | T2I-Adapter [PKU Shenzhen, ARC Lab, Univ. of Macau, SIAT]
学習済みモデルに眠る表現力を精緻な制御へ転用
Feb 22, 2023 | Reduce, Reuse, Recycle [MIT, DeepMind, Google Brain, INRIA]
MCMCに基づく新たなサンプリングと構成的生成の提案
Feb 25, 2023 | Directed Diffusion [VUW, Google Research]
交差注意マップ誘導による物体描画領域の制御