Slide 1

Slide 1 text

© LY Corporation Visual Layout Composer: Image-Vector Dual Diffusion Model for Design Layout Generation Mohammad Amin Shabani1, Zhaowen Wang2, Difan Liu2, Nanxuan Zhao2, Jimei Yang2, Yasutaka Furukawa1 1Simon Fraser University; 2Adobe Research Project page: aminshabani.github.io/visual_layout_composer/ Image and Video Dept. / Generation team Shunsuke Kitada, Ph.D. HP: shunk031.me / 𝕏: @shunk031 ※本発表で紹介する図や数式は 対象の論文およびブログ記事から 引用しております 第61回 コンピュータビジョン勉強会@関東(後編)#cvsaisentan

Slide 2

Slide 2 text

© LY Corporation 経歴 ● ‘23/04 LINE ➜ ‘23/10 LINEヤフー Research Scientist ● ‘23/03 法政大学大学院 彌冨研 博士 (工学) / 学振 DC2 研究分野 ● 自然言語処理 (NLP) / 画像処理 (CV) ○ 摂動に頑健で解釈可能な深層学習 [Kitada+ IEEE Access’21, Appl. Intell.’22] ● 計算機広告 (Multi-modal / Vision & Language) ○ 効果の高いデジタル広告の作成支援 [Kitada+ KDD’19] ○ 効果の低いデジタル広告の停止支援 [Kitada+ Appl. Sci.’22] ● 画像生成・レイアウト生成 ○ 生成されたレイアウトの再調整を可能にする離散拡散モデルの提案 [Iwai+ ECCV’24] ○ 画像生成AI入門:Pythonによる拡散モデルの理論と実践 @オンライン教育サービス Coloso. 自己紹介: 北田俊輔 Shunsuke KITADA 2
 🏠: shunk031.me / 𝕏: @shunk031 当社 HP にて ECCV’24 採択についてリリースが出ました https://research.lycorp.co.jp/jp/news/250

Slide 3

Slide 3 text

© LY Corporation 離散拡散モデル (discrete diffusion model: DDM) における レイアウトの”固着”を緩和する Layout-Corrector の提案 ● 現在のレイアウト生成の主流: DDM ○ LayoutDM [Inoue+ CVPR’23] や LayoutDiffusion [Zhang+ ICCV’23] ● 本論文では DDM の修正能力の低さを発見 ● 提案法 Layout-Corrector で生成ミスの修正を支援 発表日時: 8/7 (火) オーラル初日・トップバッター! ● 09:00 - 10:00: オーラル1A (OS-1A) 4Fメインホール ● 16:20 - 18:20: インタラクティブ1A (IS-1A) 3F大会議室A 発表資料公開中!speakerdeck.com/lycorptech_jp/miru2024-layout-corrector 【宣伝】MIRU’24 でオーラル発表します! 3
 ポンチ絵 from Iwai san

Slide 4

Slide 4 text

© LY Corporation レイアウト生成において視覚情報を重視した研究 ● 従来は画像の見た目・テキストの書体・装飾に使われる ベクター素材の視覚情報を有効活用できていなかった ● レイアウト情報を元に最終的な画像へレンダリング まで持っていっている研究は珍しい 画像生成モデルを用いたデザイン生成の弱点克服 ● 近年の画像生成モデルである程度綺麗なデザインは 生成可能に ➜ 編集性😩 プロンプトによる指示😩 ● ラスターデータ(画像) とベクターデータ(テキストやシェイプ) を両方考慮した新たな手法の提案 本論文の選定理由 4
 Image only (ラスターデータ) 😁 最新の画像生成モデルはある程度デザイン画像を生成可能 😩 編集性が低かったりプロンプトの指示が非常に難しい Vector only (ベクターデータ) 😄 昨今のレイアウト生成モデルの主流 😩 視覚情報を有効活用できないため不自然なレイアウトに Image & Vector (提案手法) 😍 ベースとなる画像を考慮してレイアウト要素を配置可能に 顕著領域 (salient region) に 要素を置いてしまっている

Slide 5

Slide 5 text

© LY Corporation ラスターデータとベクターデータの 2つのデータの適切な融合 ● ラスター(画像) とベクター(テキストやシェイプ) を 組み合わせたレイアウト生成手法の提案 ○ 視覚的な一貫性および編集可能性の両者を実現 学習済み画像生成拡散モデルの活用 ● Stable Diffusion [Rombach+ CVPR’22] を応用して 生成するレイアウト構成をガイド ○ レイアウト要素間の関係性や顕著領域の理解が向上 新たなレイアウト生成データセットの構築 ● ベース画像とレイアウト情報が付与されたデータセットを計 140,000 件構築 ○ 既存のデータセットの約 6 倍以上の規模に拡大 本論文の貢献 5
 提案手法: Visual Layout Composer (VLC) ● Image Diffusion と Vector Diffusion で画像とベクター それぞれの特徴を考慮したレイアウト生成が可能に

Slide 6

Slide 6 text

© LY Corporation レイアウト生成 (Layout generation) ● キャンバス C は N 個のレイアウト要素 {e 1 , … e N } からなる ● 要素 e i = (x i , c i ) は座標情報 x i とカテゴリ情報 c i からなる ● レイアウト生成の諸タスク ○ uncond (条件なし) / gen-t (カテゴリが既知) / gen-ts (カテゴリとサイズが既知) … ポスター生成 (Content-aware layout generation) [Zhou+ IJCAI’22, Hsu+ CVPR’23] ● ベースとなる画像を考慮したレイアウト生成 ● 従来はベース画像の顕著領域をレイアウト要素 として取り出し、その部分に他のレイアウト 要素が置かれないように学習等している 導入: レイアウト生成とその拡張であるポスター生成の問題設定 6
 顕著領域 PosterLayout [Hsu+ CVPR’23] LayoutDM [Inoue+ CVPR’23]

Slide 7

Slide 7 text

© LY Corporation レイアウト生成 (vector only) ● LayoutGAN [Li+ ICLR’19] , LayoutVAE [Jyothi+ ICCV’19] あたりの深層生成モデルから盛ん ○ レイアウトのワイヤーフレームのみに着目した生成 ● CanvasVAE [Yamaguchi ICCV’21] がデザインレイアウトを含む Crello データセットを構築 ○ Crello (23K) に対して、本研究は約 6 倍である Poster (140K) データセットを構築 ポスター生成 (Content-aware layout generation) ● CGL-GAN [Zhou+ IJCAI’22] から始まり PosterLayout [Hsu+ CVPR’23] で定着 ○ 本や雑誌の表紙、ポスターや広告等の応用分野が広いために注目 ● 視覚情報の考慮とマスク言語モデルを応用した FlexDM [Inoue+ CVPR’23] ○ 従来使われてきたワイヤーフレームを元にしたレイアウトを生成するような手法ではなく、 本研究では画像生成モデルを拡張してレイアウトを生成する方法を提案 関連研究: レイアウト生成とポスター生成 7


Slide 8

Slide 8 text

© LY Corporation 関連研究: レイアウト生成とポスター生成 (See also: SSII’24技術マップ) 8
 第30回画像センシングシンポジウムにて 当社メンバーで「レイアウト生成・クリエイティブビジョン」に関する 技術マップを作成しました ● https://bit.ly/ssii2024-techmap-creative-design-map ● https://bit.ly/ssii2024-techmap-creative-design-sheet

Slide 9

Slide 9 text

© LY Corporation 提案手法: Visual Layout Composer (VLC) 9


Slide 10

Slide 10 text

© LY Corporation 提案手法: Visual Layout Composer (VLC) 10
 画像ドメイン

Slide 11

Slide 11 text

© LY Corporation 提案手法: Visual Layout Composer (VLC) 11
 画像ドメイン ベクタードメイン

Slide 12

Slide 12 text

© LY Corporation 提案手法: Visual Layout Composer (VLC) 12
 入力: レイアウト要素の集合 E = {e 0 , …, e N }

Slide 13

Slide 13 text

© LY Corporation 提案手法: Visual Layout Composer (VLC) 13
 = e 0 E = e 1 = e 2 = e 3 入力: レイアウト要素の集合 E = {e 0 , …, e N }

Slide 14

Slide 14 text

© LY Corporation 提案手法: Visual Layout Composer (VLC) 14
 = e 0 E = e 1 = e 2 = e 3 入力: レイアウト要素の集合 E = {e 0 , …, e N }, カテゴリ情報: c i

Slide 15

Slide 15 text

© LY Corporation 提案手法: Visual Layout Composer (VLC) 15
 = e 0 E = e 1 = e 2 = e 3 入力: レイアウト要素の集合 E = {e 0 , …, e N }, カテゴリ情報: c i , レイヤー順: o i

Slide 16

Slide 16 text

© LY Corporation 提案手法: Visual Layout Composer (VLC) 16
 = e 0 E = e 1 = e 2 = e 3 入力: レイアウト要素の集合 E = {e 0 , …, e N }, カテゴリ情報: c i , レイヤー順: o i , RGBA 画像: I i I 0

Slide 17

Slide 17 text

© LY Corporation 提案手法: Visual Layout Composer (VLC) 17
 = e 0 E = e 1 = e 2 = e 3 入力: レイアウト要素の集合 E = {e 0 , …, e N }, カテゴリ情報: c i , レイヤー順: o i , RGBA 画像: I i I 0 入力: アスペクト比 r C (キャンバス), r i (要素 e i )

Slide 18

Slide 18 text

© LY Corporation 提案手法: Visual Layout Composer (VLC) 18
 = e 0 E = e 1 = e 2 = e 3 入力: レイアウト要素の集合 E = {e 0 , …, e N }, カテゴリ情報: c i , レイヤー順: o i , RGBA 画像: I i I 0 入力: アスペクト比 r C (キャンバス), r i (要素 e i ), 座標情報 x i = (l, t, r, b) … 以降で説明

Slide 19

Slide 19 text

© LY Corporation VLC: 画像ドメインの処理 19
 = e 0 E = e 1 = e 2 = e 3 I 0 画像ドメイン

Slide 20

Slide 20 text

© LY Corporation VLC: 画像ドメインの処理 20
 = e 0 E = e 1 = e 2 = e 3 1. (1) 画像 I i , レイアウト要素を画像化したものをそれぞれ CLIP image encoder へ入力 (2) レイアウト要素を vector attributes encoder へ入力 2. (1) と (2) を結合して Image Condition Processing module (ICP module; Transformer-based) へ入力 I 0 画像ドメイン

Slide 21

Slide 21 text

© LY Corporation VLC: 画像ドメインの処理 21
 = e 0 E = e 1 = e 2 = e 3 1. U-Net を含む SD v1.5 をベースに Attention 部分以外 freeze 2. タイムステップ t における latent data z i t (レイアウトをレンダリングしたものに対応) が U-Net へ ➜ テキストプロンプトで条件付するのではなく、ICP module の特徴を入力 I 0 画像ドメイン

Slide 22

Slide 22 text

© LY Corporation VLC: ベクタードメインの処理 22
 = e 0 E = e 1 = e 2 = e 3 I 0 ベクタードメイン

Slide 23

Slide 23 text

© LY Corporation VLC: ベクタードメインの処理 23
 = e 0 E = e 1 = e 2 = e 3 1. (1) 座標情報 x i にノイズを加えた x i t の埋め込み、 (2) レイアウト要素を埋め込んだ Vector Condition Processing (VCP) module を結合して特徴抽出 2. Transformer block からなる拡散モデルで座標情報に付与されたノイズを推定 I 0 ベクタードメイン

Slide 24

Slide 24 text

© LY Corporation VLC: 画像ドメインとベクタードメインの融合 24
 = e 0 E = e 1 = e 2 = e 3 I 0 画像・ベクターの融合

Slide 25

Slide 25 text

© LY Corporation VLC: 画像ドメインとベクタードメインの融合 25
 = e 0 E = e 1 = e 2 = e 3 ● ControlNet のような直接特徴空間を共有するような方法は効果的でなかった ● U-Net の Cross Attention 部分を画像とベクターの融合部分として注目 I 0 画像・ベクターの融合

Slide 26

Slide 26 text

© LY Corporation 注意機構を画像とベクターの橋渡しにすると… 26
 = e 0 E = e 1 = e 2 = e 3 👍 入力されるレイアウト要素の数と注意スコアマスクの数が同じになるために align しやすい 👍 注意スコアが各要素の画像ドメイン内の位置を示し、ベクタードメインの解釈が容易 👍 ベクタードメインにおける編集結果が U-Net の注目領域をより向上させる I 0 画像・ベクターの融合

Slide 27

Slide 27 text

© LY Corporation VLC の学習: 損失関数の定義 27
 = e 0 E = e 1 = e 2 = e 3 ● Image loss: 画像ドメインでノイズを予測 / Vector loss: ベクタードメインでノイズを予測 ● Localization loss: Cross attention map において各要素の領域に絞って損失計算 ➜ FastComposer [Xiao+ arXiv’23] の cross-attention localization loss を参考に導入 I 0

Slide 28

Slide 28 text

© LY Corporation ● 画像ドメインの SD を fine-tuning すると指定したアスペクト比を無視して 正方形のレイアウトデザインを生成する傾向に (ベクタードメインはアスペクト比に従う傾向) ● Latent data z i t をマスクしてキャンバス外の値をゼロにする方法を導入 ○ 画像がキャンパス内に現れるように誘導 ● キャンパス外の領域は生成された最終画像からクロップ ○ 元の画像の縦横比が維持されるように VLC の学習: さまざまなアスペクト比に対応する 28
 w/o canvas masking w/ canvas masking

Slide 29

Slide 29 text

© LY Corporation 画像ドメインモデル ● SD v1.5 / OpenAI の clip-vit-large-patch14 を使用 ベクタードメインモデル ● 中間層 2048 の Transformer 訓練方法 ● 訓練回数: 計 250,000 イテレーション ● 学習率: 5e-5 から始めて 100k ごとに 0.5 掛けていく ● 各レイアウト画像は正方形になるように padding ● DDPM スケジューラは訓練時 1000 ステップ・推論時 50 ステップを採用 実験: 実装の詳細 29


Slide 30

Slide 30 text

© LY Corporation デザイン生成の評価: Poster (Proposed) & Crello [Yamaguchi ICCV’21] ● Poster: 137,781 件のポスターデータセットを収集 ○ Frame / Canvas / Shape / Mix / Text のレイアウトカテゴリ ● Crello: train 18,768 件、valid 2,316 件、test 2,331 件 ○ Vector shape / image / text placeholder etc. のレイアウトカテゴリ レイアウト生成の評価: Rico [Deka+ UIST’17] & PubLayNet [Zhong+ ICDAR’19] ● 各要素に対応した色を設定して、その色で塗りつぶしたオブジェクトを使用 ○ 画像ドメインよりベクタードメインの生成を評価するために実施 ● Rico (UI): train 35,851 件、valid 2,109 件、test 4,218 件 ● PubLayNet (論文): train 315,757 件 / valid 16,619 件 / test 11,142 件 実験: データセットの詳細 30


Slide 31

Slide 31 text

© LY Corporation 実験: 比較手法と評価指標 (See also: SSII’24技術マップ) 評価指標 ● レイアウト評価 ○ レイアウト FID, maximum IoU ■ 従来のレイアウト評価は視覚情報や 画像の入力が考慮されていなかった ● デザイン評価 ○ 画像 FID ■ 画像そのもの: 通常の FID 計算方法 ■ bounding box: 範囲を絞って FID を計算 ■ feature embedding: 埋め込みで FID を計算 ○ FID はレイアウトの生成品質にかかわらず 画像の品質で評価されてしまいイマイチ ■ 視覚情報を考慮したより良い評価指標の構築が 重要だねという言及あり 31
 比較手法 ● VAE 系 ○ LayoutVAE [Jyothi+ ICCV’19] ○ Neural Design Network (NDN) [Lee+ ECCV’20] ● Transformer 系 ○ LayoutTransformer [Gupta+ ICCV’21] ○ CLG-LO [Kikuchi+ ACMMM’21] ○ MaskGIT [Chang+ CVPR’22] ○ BLT [Kong+ ECCV’22] ○ BART [Lewis+ ACL’20] ● Diffusion 系 ○ VQDiffusion [Gu+ CVPR’21] ○ 🏆LayoutDM [Inoue+ CVPR’23]

Slide 32

Slide 32 text

© LY Corporation デザイン生成の観点 (レイアウトに加えて視覚特徴も重要) 提案手法が既存のSoTA (LayoutDM) よりも 大幅に良い生成性能を実現 ● LayoutDM はレイアウトのカテゴリだけが入力 ○ ベクタードメインでは良い生成が可能 ○ 実際の画像ドメインでは整合性が取れていない ■ 最終的な生成画像において品質が大幅に下がる ● Crello において VLC の vector only と dual-domain で生成品質の差が小さくなっている点について ○ Crello に含まれるレイアウト要素数が多いことが原因? ○ 画像とベクターのドメイン間でコンテンツの不一致が発生 ■ ベクターモデルが画像特徴を正しく理解できていない? 定量評価: 🏆SoTA モデルとのレイアウト生成性能の比較 32
 FlexDM は画像情報とその他の レイアウト要素が入力 ● 提案手法のベクタードメインの扱いは FlexDM と類似 ● LayoutDM よりも良い画像を生成する 傾向にあるがいくつか欠点あり ○ 顔の一部を隠してしまう点 ○ 要素の重なりにおける色のコントラスト ➜ 結果のセクションでこれらに言及しているの に FlexDM との比較はなし🤔

Slide 33

Slide 33 text

© LY Corporation レイアウト生成の観点(レイアウト要素が正しく生成されるか) ● Vector only な VLC が一番良い生成品質を記録 ○ 一部訓練が安定しない傾向があった ■ 不安定さもある一方で SoTA な離散拡散モデル よりも結果が上回る場合が多かった ● Vector only モデルの性能と Dual domain モデルの性能は相関する傾向にあり ○ レイアウト生成においては視覚特徴を 使わなくてもスコア上は有効ではある ● VLC はベースラインよりも動作が遅い ○ 視覚情報を処理してよりよいデザイン画像を 生成できるという点でトレードオフ 定量評価: その他既存のベースラインモデルとの比較 33
 表の結果は LayoutDM からのコピペ ● 本文では明示されていなかったが、スコア的に Category ➜ Size + Position 生成の設定 ● Validation セットで計算されたスコアが上限 ● Rico を除いてすべてのデータ・すべての指標で 提案手法が従来手法よりもよい生成性能

Slide 34

Slide 34 text

© LY Corporation VLC で生成した結果をピックアップ ● レイアウトの生成品質向上 ● 最終的なレンダリング結果 の品質向上 ○ 視覚的な一貫性 ○ 魅力的なレイアウト 定性評価: Crello と Poster の生成結果 34
 Poster データセットにおける生成結果 👉 Crello データセットにおける生成結果 👇

Slide 35

Slide 35 text

© LY Corporation ● デザイン生成は複雑で難しいタスク ○ 画像とベクターの dual domain を扱う ○ 両者を適切に扱わないと レイアウトの一貫性や多様性が低下 ● 画像とベクター両方を考慮した 提案手法による生成結果 ○ 一貫性の向上 ○ 多様性の向上 定性評価: 画像・ベクター融合の有効性 35


Slide 36

Slide 36 text

© LY Corporation 👉 入力されるレイアウト要素とそれに対応 する注意マップの可視化を実施 ○ Vector domain モデルが注意マップを元に レイアウト要素を適切に配置している ○ 注意マップによるガイダンスを導入すること で類似オブジェクト間の曖昧さを解消 ➜ 結果的により心地よいレイアウトへ 👉 注意マップを外部から操作することで 生成結果を制御可能 ○ 注意マップの該当箇所をマスクすることで 他を変更することなくの要素の削除が可能 定性評価: 注意マップの有効性 36


Slide 37

Slide 37 text

© LY Corporation 👉 レイアウト情報を元にしたデザイン生成 ○ Bounding box としてレイアウトを指定 することで VLC の画像ドメインモデルは さまざまなデザイン画像を生成可能 ○ ベクタードメインモデルから注意マップを 通じて画像モデルへレイアウト情報を伝達 ○ 事前学習済み画像拡散モデルにより さまざまなバリエーションの画像が生成可能 👉 さまざまなアスペクト比に対応した生成 ○ 入力の状況に合わせたり、latent data を masking する提案技術により適切に生成可能 VLC を用いたアプリケーション1 37


Slide 38

Slide 38 text

© LY Corporation 👉 ユーザ指定の要素を中心とした レイアウト生成 ○ “20” のバルーンに対する注意マップを 所望の場所へ固定した後に、それ以外の レイアウト要素を生成することが可能 👉 デザイン画像のスタイルの転写 ○ オリジナルのデザインに対して入力スタイル の注意マップを伝搬させることで実現 ○ リファレンスとなる画像に対してノイズを 加えた latent data を画像ドメインモデルへ VLC を用いたアプリケーション2 38


Slide 39

Slide 39 text

© LY Corporation 議論とまとめ ● 画像とベクターの2つのドメインを 考慮するデザイン生成モデルの提案 ○ ベクタードメインのみに焦点を当てていた 従来手法と比較してレイアウト生成品質・ レンダリング後の画像品質共に向上 ○ 柔軟な制御性を各ドメインから提供 ● デザイン生成のための 新たな Poster データセットの収集 ○ 従来の Crello (23K) に対して 約 6 倍である Poster (140K) を構築 ○ 論文中の生成例を見ると日本語もあるため 公開に期待…! 39
 コードとデータ公開してくれ頼む〜〜と お願いしている様子 aminshabani.github.io/issues/1