[CV勉強会＠関東 CVPR2024] Visual Layout Composer: Image-Vector Dual Diffusion Model for Design Layout Generation / kantocv 61th CVPR 2024

Slide 1

Slide 1 text

© LY Corporation Visual Layout Composer: Image-Vector Dual Diﬀusion Model for Design Layout Generation Mohammad Amin Shabani1, Zhaowen Wang2, Difan Liu2, Nanxuan Zhao2, Jimei Yang2, Yasutaka Furukawa1 1Simon Fraser University; 2Adobe Research Project page: aminshabani.github.io/visual_layout_composer/ Image and Video Dept. / Generation team Shunsuke Kitada, Ph.D. HP: shunk031.me / 𝕏: @shunk031 ※本発表で紹介する図や数式は対象の論文およびブログ記事から引用しております第61回コンピュータビジョン勉強会＠関東（後編）#cvsaisentan

Slide 2

Slide 2 text

© LY Corporation 経歴 ● ‘23/04 LINE ➜ ‘23/10 LINEヤフー Research Scientist ● ‘23/03 法政大学大学院彌冨研博士 (工学) / 学振 DC2 研究分野 ● 自然言語処理 (NLP) / 画像処理 (CV) ○ 摂動に頑健で解釈可能な深層学習 [Kitada+ IEEE Access’21, Appl. Intell.’22] ● 計算機広告 (Multi-modal / Vision & Language) ○ 効果の高いデジタル広告の作成支援 [Kitada+ KDD’19] ○ 効果の低いデジタル広告の停止支援 [Kitada+ Appl. Sci.’22] ● 画像生成・レイアウト生成 ○ 生成されたレイアウトの再調整を可能にする離散拡散モデルの提案 [Iwai+ ECCV’24] ○ 画像生成AI入門：Pythonによる拡散モデルの理論と実践 @オンライン教育サービス Coloso. 自己紹介: 北田俊輔 Shunsuke KITADA 2  🏠: shunk031.me / 𝕏: @shunk031 当社 HP にて ECCV’24 採択についてリリースが出ました https://research.lycorp.co.jp/jp/news/250

Slide 3

Slide 3 text

© LY Corporation 離散拡散モデル (discrete diﬀusion model: DDM) におけるレイアウトの”固着”を緩和する Layout-Corrector の提案 ● 現在のレイアウト生成の主流: DDM ○ LayoutDM [Inoue+ CVPR’23] や LayoutDiﬀusion [Zhang+ ICCV’23] ● 本論文では DDM の修正能力の低さを発見 ● 提案法 Layout-Corrector で生成ミスの修正を支援発表日時: 8/7 (火) オーラル初日・トップバッター! ● 09:00 - 10:00: オーラル1A (OS-1A) 4Fメインホール ● 16:20 - 18:20: インタラクティブ1A (IS-1A) 3F大会議室A 発表資料公開中！speakerdeck.com/lycorptech_jp/miru2024-layout-corrector 【宣伝】MIRU’24 でオーラル発表します! 3  ポンチ絵 from Iwai san

Slide 4

Slide 4 text

© LY Corporation レイアウト生成において視覚情報を重視した研究 ● 従来は画像の見た目・テキストの書体・装飾に使われるベクター素材の視覚情報を有効活用できていなかった ● レイアウト情報を元に最終的な画像へレンダリングまで持っていっている研究は珍しい画像生成モデルを用いたデザイン生成の弱点克服 ● 近年の画像生成モデルである程度綺麗なデザインは生成可能に ➜ 編集性😩 プロンプトによる指示😩 ● ラスターデータ（画像）とベクターデータ（テキストやシェイプ）を両方考慮した新たな手法の提案本論文の選定理由 4  Image only (ラスターデータ) 😁 最新の画像生成モデルはある程度デザイン画像を生成可能 😩 編集性が低かったりプロンプトの指示が非常に難しい Vector only (ベクターデータ) 😄 昨今のレイアウト生成モデルの主流 😩 視覚情報を有効活用できないため不自然なレイアウトに Image & Vector (提案手法) 😍 ベースとなる画像を考慮してレイアウト要素を配置可能に顕著領域 (salient region) に要素を置いてしまっている

Slide 5

Slide 5 text

© LY Corporation ラスターデータとベクターデータの 2つのデータの適切な融合 ● ラスター（画像）とベクター（テキストやシェイプ）を組み合わせたレイアウト生成手法の提案 ○ 視覚的な一貫性および編集可能性の両者を実現学習済み画像生成拡散モデルの活用 ● Stable Diffusion [Rombach+ CVPR’22] を応用して生成するレイアウト構成をガイド ○ レイアウト要素間の関係性や顕著領域の理解が向上新たなレイアウト生成データセットの構築 ● ベース画像とレイアウト情報が付与されたデータセットを計 140,000 件構築 ○ 既存のデータセットの約 6 倍以上の規模に拡大本論文の貢献 5  提案手法: Visual Layout Composer (VLC) ● Image Diffusion と Vector Diffusion で画像とベクターそれぞれの特徴を考慮したレイアウト生成が可能に

Slide 6

Slide 6 text

© LY Corporation レイアウト生成 (Layout generation) ● キャンバス C は N 個のレイアウト要素 {e 1 , … e N } からなる ● 要素 e i = (x i , c i ) は座標情報 x i とカテゴリ情報 c i からなる ● レイアウト生成の諸タスク ○ uncond (条件なし) / gen-t (カテゴリが既知) / gen-ts (カテゴリとサイズが既知) … ポスター生成 (Content-aware layout generation) [Zhou+ IJCAI’22, Hsu+ CVPR’23] ● ベースとなる画像を考慮したレイアウト生成 ● 従来はベース画像の顕著領域をレイアウト要素として取り出し、その部分に他のレイアウト要素が置かれないように学習等している導入: レイアウト生成とその拡張であるポスター生成の問題設定 6  顕著領域 PosterLayout [Hsu+ CVPR’23] LayoutDM [Inoue+ CVPR’23]

Slide 7

Slide 7 text

© LY Corporation レイアウト生成 (vector only) ● LayoutGAN [Li+ ICLR’19] , LayoutVAE [Jyothi+ ICCV’19] あたりの深層生成モデルから盛ん ○ レイアウトのワイヤーフレームのみに着目した生成 ● CanvasVAE [Yamaguchi ICCV’21] がデザインレイアウトを含む Crello データセットを構築 ○ Crello (23K) に対して、本研究は約 6 倍である Poster (140K) データセットを構築ポスター生成 (Content-aware layout generation) ● CGL-GAN [Zhou+ IJCAI’22] から始まり PosterLayout [Hsu+ CVPR’23] で定着 ○ 本や雑誌の表紙、ポスターや広告等の応用分野が広いために注目 ● 視覚情報の考慮とマスク言語モデルを応用した FlexDM [Inoue+ CVPR’23] ○ 従来使われてきたワイヤーフレームを元にしたレイアウトを生成するような手法ではなく、本研究では画像生成モデルを拡張してレイアウトを生成する方法を提案関連研究: レイアウト生成とポスター生成 7 

Slide 8

Slide 8 text

© LY Corporation 関連研究: レイアウト生成とポスター生成 (See also: SSII’24技術マップ) 8  第30回画像センシングシンポジウムにて当社メンバーで「レイアウト生成・クリエイティブビジョン」に関する技術マップを作成しました ● https://bit.ly/ssii2024-techmap-creative-design-map ● https://bit.ly/ssii2024-techmap-creative-design-sheet

Slide 9

Slide 9 text

Slide 10

Slide 10 text

Slide 11

Slide 11 text

Slide 12

Slide 12 text

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

Slide 18

Slide 18 text

© LY Corporation 提案手法: Visual Layout Composer (VLC) 18  = e 0 E = e 1 = e 2 = e 3 入力: レイアウト要素の集合 E = {e 0 , …, e N }, カテゴリ情報: c i , レイヤー順: o i , RGBA 画像: I i I 0 入力: アスペクト比 r C (キャンバス), r i (要素 e i ), 座標情報 x i = (l, t, r, b) … 以降で説明

Slide 19

Slide 19 text

Slide 20

Slide 20 text

© LY Corporation VLC: 画像ドメインの処理 20  = e 0 E = e 1 = e 2 = e 3 1. (1) 画像 I i , レイアウト要素を画像化したものをそれぞれ CLIP image encoder へ入力 (2) レイアウト要素を vector attributes encoder へ入力 2. (1) と (2) を結合して Image Condition Processing module (ICP module; Transformer-based) へ入力 I 0 画像ドメイン

Slide 21

Slide 21 text

© LY Corporation VLC: 画像ドメインの処理 21  = e 0 E = e 1 = e 2 = e 3 1. U-Net を含む SD v1.5 をベースに Attention 部分以外 freeze 2. タイムステップ t における latent data z i t (レイアウトをレンダリングしたものに対応) が U-Net へ ➜ テキストプロンプトで条件付するのではなく、ICP module の特徴を入力 I 0 画像ドメイン

Slide 22

Slide 22 text

Slide 23

Slide 23 text

© LY Corporation VLC: ベクタードメインの処理 23  = e 0 E = e 1 = e 2 = e 3 1. (1) 座標情報 x i にノイズを加えた x i t の埋め込み、 (2) レイアウト要素を埋め込んだ Vector Condition Processing (VCP) module を結合して特徴抽出 2. Transformer block からなる拡散モデルで座標情報に付与されたノイズを推定 I 0 ベクタードメイン

Slide 24

Slide 24 text

Slide 25

Slide 25 text

Slide 26

Slide 26 text

© LY Corporation 注意機構を画像とベクターの橋渡しにすると… 26  = e 0 E = e 1 = e 2 = e 3 👍 入力されるレイアウト要素の数と注意スコアマスクの数が同じになるために align しやすい 👍 注意スコアが各要素の画像ドメイン内の位置を示し、ベクタードメインの解釈が容易 👍 ベクタードメインにおける編集結果が U-Net の注目領域をより向上させる I 0 画像・ベクターの融合

Slide 27

Slide 27 text

© LY Corporation VLC の学習: 損失関数の定義 27  = e 0 E = e 1 = e 2 = e 3 ● Image loss: 画像ドメインでノイズを予測 / Vector loss: ベクタードメインでノイズを予測 ● Localization loss: Cross attention map において各要素の領域に絞って損失計算 ➜ FastComposer [Xiao+ arXiv’23] の cross-attention localization loss を参考に導入 I 0

Slide 28

Slide 28 text

© LY Corporation ● 画像ドメインの SD を ﬁne-tuning すると指定したアスペクト比を無視して正方形のレイアウトデザインを生成する傾向に (ベクタードメインはアスペクト比に従う傾向) ● Latent data z i t をマスクしてキャンバス外の値をゼロにする方法を導入 ○ 画像がキャンパス内に現れるように誘導 ● キャンパス外の領域は生成された最終画像からクロップ ○ 元の画像の縦横比が維持されるように VLC の学習: さまざまなアスペクト比に対応する 28  w/o canvas masking w/ canvas masking

Slide 29

Slide 29 text

© LY Corporation 画像ドメインモデル ● SD v1.5 / OpenAI の clip-vit-large-patch14 を使用ベクタードメインモデル ● 中間層 2048 の Transformer 訓練方法 ● 訓練回数: 計 250,000 イテレーション ● 学習率: 5e-5 から始めて 100k ごとに 0.5 掛けていく ● 各レイアウト画像は正方形になるように padding ● DDPM スケジューラは訓練時 1000 ステップ・推論時 50 ステップを採用実験: 実装の詳細 29 

Slide 30

Slide 30 text

© LY Corporation デザイン生成の評価: Poster (Proposed) & Crello [Yamaguchi ICCV’21] ● Poster: 137,781 件のポスターデータセットを収集 ○ Frame / Canvas / Shape / Mix / Text のレイアウトカテゴリ ● Crello: train 18,768 件、valid 2,316 件、test 2,331 件 ○ Vector shape / image / text placeholder etc. のレイアウトカテゴリレイアウト生成の評価: Rico [Deka+ UIST’17] & PubLayNet [Zhong+ ICDAR’19] ● 各要素に対応した色を設定して、その色で塗りつぶしたオブジェクトを使用 ○ 画像ドメインよりベクタードメインの生成を評価するために実施 ● Rico (UI): train 35,851 件、valid 2,109 件、test 4,218 件 ● PubLayNet (論文): train 315,757 件 / valid 16,619 件 / test 11,142 件実験: データセットの詳細 30 

Slide 31

Slide 31 text

© LY Corporation 実験: 比較手法と評価指標 (See also: SSII’24技術マップ) 評価指標 ● レイアウト評価 ○ レイアウト FID, maximum IoU ■ 従来のレイアウト評価は視覚情報や画像の入力が考慮されていなかった ● デザイン評価 ○ 画像 FID ■ 画像そのもの: 通常の FID 計算方法 ■ bounding box: 範囲を絞って FID を計算 ■ feature embedding: 埋め込みで FID を計算 ○ FID はレイアウトの生成品質にかかわらず画像の品質で評価されてしまいイマイチ ■ 視覚情報を考慮したより良い評価指標の構築が重要だねという言及あり 31  比較手法 ● VAE 系 ○ LayoutVAE [Jyothi+ ICCV’19] ○ Neural Design Network (NDN) [Lee+ ECCV’20] ● Transformer 系 ○ LayoutTransformer [Gupta+ ICCV’21] ○ CLG-LO [Kikuchi+ ACMMM’21] ○ MaskGIT [Chang+ CVPR’22] ○ BLT [Kong+ ECCV’22] ○ BART [Lewis+ ACL’20] ● Diﬀusion 系 ○ VQDiﬀusion [Gu+ CVPR’21] ○ 🏆LayoutDM [Inoue+ CVPR’23]

Slide 32

Slide 32 text

© LY Corporation デザイン生成の観点 (レイアウトに加えて視覚特徴も重要) 提案手法が既存のSoTA (LayoutDM) よりも大幅に良い生成性能を実現 ● LayoutDM はレイアウトのカテゴリだけが入力 ○ ベクタードメインでは良い生成が可能 ○ 実際の画像ドメインでは整合性が取れていない ■ 最終的な生成画像において品質が大幅に下がる ● Crello において VLC の vector only と dual-domain で生成品質の差が小さくなっている点について ○ Crello に含まれるレイアウト要素数が多いことが原因？ ○ 画像とベクターのドメイン間でコンテンツの不一致が発生 ■ ベクターモデルが画像特徴を正しく理解できていない？定量評価: 🏆SoTA モデルとのレイアウト生成性能の比較 32  FlexDM は画像情報とその他のレイアウト要素が入力 ● 提案手法のベクタードメインの扱いは FlexDM と類似 ● LayoutDM よりも良い画像を生成する傾向にあるがいくつか欠点あり ○ 顔の一部を隠してしまう点 ○ 要素の重なりにおける色のコントラスト ➜ 結果のセクションでこれらに言及しているのに FlexDM との比較はなし🤔

Slide 33

Slide 33 text

© LY Corporation レイアウト生成の観点（レイアウト要素が正しく生成されるか） ● Vector only な VLC が一番良い生成品質を記録 ○ 一部訓練が安定しない傾向があった ■ 不安定さもある一方で SoTA な離散拡散モデルよりも結果が上回る場合が多かった ● Vector only モデルの性能と Dual domain モデルの性能は相関する傾向にあり ○ レイアウト生成においては視覚特徴を使わなくてもスコア上は有効ではある ● VLC はベースラインよりも動作が遅い ○ 視覚情報を処理してよりよいデザイン画像を生成できるという点でトレードオフ定量評価: その他既存のベースラインモデルとの比較 33  表の結果は LayoutDM からのコピペ ● 本文では明示されていなかったが、スコア的に Category ➜ Size + Position 生成の設定 ● Validation セットで計算されたスコアが上限 ● Rico を除いてすべてのデータ・すべての指標で提案手法が従来手法よりもよい生成性能

Slide 34

Slide 34 text

Slide 35

Slide 35 text

Slide 36

Slide 36 text

© LY Corporation 👉 入力されるレイアウト要素とそれに対応する注意マップの可視化を実施 ○ Vector domain モデルが注意マップを元にレイアウト要素を適切に配置している ○ 注意マップによるガイダンスを導入することで類似オブジェクト間の曖昧さを解消 ➜ 結果的により心地よいレイアウトへ 👉 注意マップを外部から操作することで生成結果を制御可能 ○ 注意マップの該当箇所をマスクすることで他を変更することなくの要素の削除が可能定性評価: 注意マップの有効性 36 

Slide 37

Slide 37 text

© LY Corporation 👉 レイアウト情報を元にしたデザイン生成 ○ Bounding box としてレイアウトを指定することで VLC の画像ドメインモデルはさまざまなデザイン画像を生成可能 ○ ベクタードメインモデルから注意マップを通じて画像モデルへレイアウト情報を伝達 ○ 事前学習済み画像拡散モデルによりさまざまなバリエーションの画像が生成可能 👉 さまざまなアスペクト比に対応した生成 ○ 入力の状況に合わせたり、latent data を masking する提案技術により適切に生成可能 VLC を用いたアプリケーション1 37 

Slide 38

Slide 38 text

© LY Corporation 👉 ユーザ指定の要素を中心としたレイアウト生成 ○ “20” のバルーンに対する注意マップを所望の場所へ固定した後に、それ以外のレイアウト要素を生成することが可能 👉 デザイン画像のスタイルの転写 ○ オリジナルのデザインに対して入力スタイルの注意マップを伝搬させることで実現 ○ リファレンスとなる画像に対してノイズを加えた latent data を画像ドメインモデルへ VLC を用いたアプリケーション2 38 

Slide 39

Slide 39 text

© LY Corporation 議論とまとめ ● 画像とベクターの２つのドメインを考慮するデザイン生成モデルの提案 ○ ベクタードメインのみに焦点を当てていた従来手法と比較してレイアウト生成品質・レンダリング後の画像品質共に向上 ○ 柔軟な制御性を各ドメインから提供 ● デザイン生成のための新たな Poster データセットの収集 ○ 従来の Crello (23K) に対して約 6 倍である Poster (140K) を構築 ○ 論文中の生成例を見ると日本語もあるため公開に期待…！ 39  コードとデータ公開してくれ頼む〜〜とお願いしている様子 aminshabani.github.io/issues/1