Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【MIRU2024 オーラル発表】Layout-Corrector: Alleviating ...

【MIRU2024 オーラル発表】Layout-Corrector: Alleviating Layout Sticking Phenomenon in Discrete Diffusion Model

第27回 画像の認識・理解シンポジウム MIRU2024 にて発表した「離散拡散モデルにおけるレイアウトの "固着" を緩和する Layout-Corrector の提案」に関する資料です。

本研究は2023年度旧LINE株式会社のサマーインターンシップにおける成果であり、MIRU2024 にてオーラル発表として選出されました。また本発表を発展させた研究はコンピュータビジョンの難関国際会議である ECCV2024 にて採択されました:

・ECCV 2024に論文が3本採択されました - LINEヤフーの研究開発 - LINEヤフー株式会社
https://research.lycorp.co.jp/jp/news/250

LY Corporation Tech

August 16, 2024
Tweet

More Decks by LY Corporation Tech

Other Decks in Technology

Transcript

  1. © LY Corporation Layout-Corrector: Alleviating Layout Sticking Phenomenon in Discrete

    Diffusion Model 離散拡散モデルにおけるレイアウトの“固着”を緩和する Layout-Corrector の提案 To Non-Japanese Speakers in the Audience: Sorry, I will be speaking in Japanese. However, during the poster session, questions and comments in English are welcome! 1東北⼤学, 2LINEヤフー 岩井翔真1,⻑内淳樹2,北⽥俊輔2,⼤町真⼀郎1
  2. © LY Corporation 2 レイアウトとは 背景 https://miru-committee.github.io/miru2024/ • どの要素を, どこに,

    どんな⼤きさで 配置するか決めるタスク • 対象:デザインのレイアウト(バナー,UIなど) • 応⽤:デザイナーの⽀援など テキスト テキスト テキスト ロゴ 画像 ボタン テキスト テキスト ロゴ 画像 x 1 x 3 x 1 条件あり⽣成 条件なし⽣成 レイアウト⽣成とは MIRU2024 ホームページ レイアウト =要素の配置 調和のとれた⾼品質なレイアウトが求められる
  3. © LY Corporation 3 本研究の⽬標:⽣成ミスを防ぎたい ↓こんなレイアウト,変ですよね? 背景 第27回 画像の認識・理解シンポジウム ロゴ

    テキスト テキスト 2024.08.02 XXXXXXXXXXXXXXXXXX 配置がズレてる… 不揃い お知らせ 2024.08.01 XXXXXXXXXXXXXX 2024.07.19 XXXXXXXXXXXXXXXXXXXXX 重なり テキストの上にロゴ…? ⽣成ミスの原因は 離散拡散モデルの 修正能⼒の低さ Layout-Correctorで ミスの修正をアシスト 離散拡散モデルを 使ったレイアウト⽣成 [Inoue+, CVPR2023] 発表の流れ 1. 準備 2. 事前実験 3. 提案⼿法
  4. © LY Corporation 4 離散拡散モデルを使ったレイアウト⽣成 LayoutDM [Inoue+, CVPR2023] 準備 レイアウトは離散トークン列として表現できる!

    テキスト テキスト テキスト ロゴ 画像 ボタン テキスト カテゴリ X座標 Y座標 幅 ⾼さ ロゴ 15px 12px 43px 34px テキスト 56px 21px 72px 15px テキスト 24px 487px 73px 18px … 量⼦化してカテゴリカル変数(離散トークン)化 ボタン 264px 12px 42px 31px 𝑐! 𝑐" 𝑐# 𝑐$ 𝑥! 𝑥# 𝑥$ 𝑥" 𝑦# 𝑦! 𝑦$ 𝑦" 𝑤! 𝑤" 𝑤# 𝑤$ ℎ! ℎ" ℎ# ℎ$ … レイアウト離散トークン列 要素1 要素2 要素3 要素N 要素1 要素2 要素3 要素N 各要素のボックス情報 204 216 252 200 220 240 レイアウト
  5. © LY Corporation 5 離散拡散モデルを使ったレイアウト⽣成 LayoutDM [Inoue+, CVPR2023] 準備 M

    M M M M M M M M M M M M M M M M M M M M M M M M M M M M M M M 時刻0 MASKなし 時刻T 完全にMASK 離散拡散モデル 連続拡散モデル 時刻0 ノイズなし 時刻T 完全にノイズ 拡散過程 トークンをMASK する,別トークンに変換 逆拡散過程(⽣成) MASKを外す,別トークンに変換 DDPM [Ho+, NeurIPS2020] M M M M M M デノイザ デノイザ デノイザ デノイザ デノイザ 拡散過程 逆拡散過程
  6. © LY Corporation 6 ⽣成ミスを防ぐには?⽣成途中で修正できれば良いはず 事前実験 M M M M

    M M M M M M M M M M M M M M M M M M M M M ⽣成終了 M M M M ⽣成ミス発⽣ M M M M M ⽣成終了前にデノイザが 修正できればOK M … … … 初期状態 逆拡散過程(⽣成) (MASKを外す,別トークンに変換) デノイザ デノイザ デノイザ 時刻0 時刻T Q. 実際のところ,でのい に修正能⼒がどのくらいあるのか? デノイザ デノイザ
  7. © LY Corporation 7 Q. 離散拡散モデルに修正能⼒はある? → A. 無い or

    低い! 事前実験 本物のレイアウト 3つを別トークンに⼊れ替え ⼈為的に⽣成ミスを発⽣ 修正の成功率を測定 (元のトークンと⼀致するか) Failed Success 事前実験1 Success デノイザ
  8. © LY Corporation 8 Q. 離散拡散モデルに修正能⼒はある? → A. 無い or

    低い! 事前実験 本物のレイアウト 3つを別トークンに⼊れ替え ⼈為的に⽣成ミスを発⽣ 修正の成功率を測定 (元のトークンと⼀致するか) Failed Success 事前実験1 0.0% 13.2% 15.1% 35.4% 30.8% 29.7% 0.0 0.05 0.1 𝛽 = 0.0 0.05 0.1 𝛽 = 時刻t 時刻t+1 確率𝛽 修正成功率 (事前実験1) 修正成功率 (MASKに置換) 𝛽 = 0:成功率0%(⽣成ミスがそのまま固着) Success 𝛽 > 0:成功率15%程度 離散拡散モデルの修正能⼒は無い or 低い 𝛽:拡散過程で 別トークンに ⼊替わる確率 デノイザ
  9. © LY Corporation 9 Q. 離散拡散モデルに修正能⼒はある? → MASKに戻すと修正⼒UP M M

    M デノイザ 事前実験2 3トークンをMASKに置換 0.0% 13.2% 15.1% 35.4% 30.8% 29.7% 0.0 0.05 0.1 𝛽 = 0.0 0.05 0.1 𝛽 = 修正成功率 (事前実験1) 修正成功率 (事前実験2) 修正の成功率を測定 (元のトークンと⼀致するか) Failed Success Success 事前実験 成功率 UP 本物のレイアウト 時刻t 時刻t+1 確率𝛽 𝛽:拡散過程で 別トークンに ⼊替わる確率
  10. © LY Corporation 10 事前実験の結果:MASKに置き換えた場合,修正確率UP 事前実験 ⽣成ミスを直接修正することは難しいが, ⽣成ミスを⼀度MASKに戻せれば 修正できそう! ⽣成ミスを発⾒するモデル

    Layout-Corrector の提案 0.0% 13.2% 15.1% 35.4% 30.8% 29.7% 0.0 0.05 0.1 𝛽 = 0.0 0.05 0.1 𝛽 = 修正成功率 (事前実験1) 修正成功率 (事前実験2) 成功率 UP 事前実験2 事前実験1 時刻t 時刻t+1 確率𝛽 𝛽:拡散過程で 別トークンに ⼊替わる確率
  11. © LY Corporation Layout-Corrector:役割 提案⼿法 ⾼ 低 Layout- Corrector 暫定⽣成結果

    スコア … 暫定⽣成結果の各トークンの 本物らしさのスコアを推定 低スコアのトークンをMASK ⽣成ミスを発⾒してMASKに戻し,デノイザに修正を促す … デ ノ イ ザ デ ノ イ ザ M M M M M M M 11
  12. © LY Corporation 12 Layout-Corrector:学習 提案⼿法 離散拡散モデルの暫定⽣成結果がGTと⼀致しているか⼆値分類 GTと⼀致 GTと不⼀致 Layout-

    Corrector BCE ロス GT 本物のレイアウト 暫定⽣成結果 デ ノ イ ザ 本物らしさのスコア 拡散 過程 M M M M M M M GTと⼀致しないトークン(=⽣成ミス)に低スコアをつけるように学習 ⾼ 低 ⽐較
  13. © LY Corporation 13 Layout-Corrector:⽣成の流れ 提案⼿法 … 完成! 初期状態 M

    M M M M M M M M M M 時刻T 時刻t 時刻0 … 時刻t-1 … … M M M M M M M M M M M M M M M M M M M M 1時刻ずつMASKを外していってレイアウトを⽣成 1時刻分の処理 逆拡散過程
  14. © LY Corporation 14 Layout-Corrector:⽣成の流れ 提案⼿法 Layout-Corrector で 各トークンの本物らしさを推定 スコアが⼀定以下の

    トークンをMASK … 完成! デノイザ で 暫定⽣成結果を取得 初期状態 デノイザ Layout-Corrector M M M M M M M (暫定) ⽣成結果 Layout- Corrector デ ノ イ ザ スコア M M M M 時刻T 時刻t 時刻0 … 時刻t-1 … … 時刻t 時刻t-1 Layout-Corrector は毎時刻使う必要はなく,全時刻(T=100)のうち3時刻のみの使⽤で⼗分 Layout-Corrector M M M M M M M M M M M M M M M M M M M M M M M M M M M M M M M 1時刻分の処理
  15. © LY Corporation 15 実験結果:Layout-Corrector が複数ベースラインの性能改善 LC + LayoutDM LayoutDM

    (単体) ⽣成ミス (重なり) 修正成功 ⽣成結果 (PubLayNetデータセット) 表 テキスト 定量評価 (FID↓) Rico PubLayNet 6.37 13.7 TC 17.97 22.3 LC 4.79 11.9 単体 70.4 34.2 + TC 15.7 17.6 + LC 14.4 13.7 データセット (LC ) LC ベースライン ⽣成モデル1 TC (Token-Critic): [Lezama+, ECCV2022] MaskGIT: [Chang+, CVPR2022] ✓ 複数ベースライン⽣成モデルの性能改善 ✓ 既存⼿法 TC (Token-Critic) を上回る TC 実験 MaskGIT LayoutDM 単体 + + ベースライン ⽣成モデル2
  16. © LY Corporation 16 まとめ 離散拡散モデルの修正⼒の低さを確認 ⽣成ミスをMASKに戻せば修正できることを確認 まとめ 本研究はECCV2024に採択されました! arXiv版,ソースコードも公開予定です

    ü 条件あり⽣成でも効果あり ü ⽣成の多様性をコントロール ü ⽣成ステップ数を減らした時の 品質低下を抑制 ü レイアウトの本物らしさを評価 できることを検証 Accepted! ⽣成ミスを発⾒してMASKに戻すLayout-Corrector Layout-Correctorはベースラインの⽣成性能を改善 続きはポスターで! Layout-Correctorの効果は他にも… レイアウト⽣成の⽣成ミスを防ぎたい ⽬標 事前 実験 提案 実験