AIグラフィックデザインの進化：断片から統合（One Piece）へ / From Fragment to One Piece: A Survey on AI-Driven Graphic Design

© LY Corporation From Fragment to One Piece: A Survey
on AI-Driven Graphic Design Xingxing Zou1, Wen Zhang2, Nanxuan Zhao2 1 Hong Kong Polytechnic University, Hong Kong SAR, China 2 Snap Inc, CALIFORNIA, United States 3 Adobe Inc, CALIFORNIA, United States Image and Video Dept. / Generation team Shunsuke Kitada, Ph.D. HP: shunk031.me / 𝕏: @shunk031 ※本発表で紹介する図や数式は対象の論文およびブログ記事から引用しております

© LY Corporation 経歴 • ‘23/04 LINE ➜ ‘23/10 LINEヤフー
Research Scientist • ‘23/03 法政大学大学院彌冨研博士 (工学) / 学振 DC2 研究分野 • 自然言語処理 (NLP) / 画像処理 (CV) ◦ 摂動に頑健で解釈可能な深層学習 [Kitada+ IEEE Access’21, Appl. Intell.’22] • 計算機広告 (Multi-modal / Vision & Language) ◦ 効果の高いデジタル広告の作成支援 [Kitada+ KDD’19] ◦ 効果の低いデジタル広告の停止支援 [Kitada+ Appl. Sci.’22] • デザイン生成 AI ◦ 離散拡散モデルで生成されたレイアウトの再調整 [Iwai+ ECCV’24] ◦ LLMによるレイアウトの生成に対する自己修正 [Zhang+ arXiv’24] 自己紹介: 北田俊輔 Shunsuke KITADA 2  🏠: shunk031.me / 𝕏: @shunk031 画像生成AIにおける拡散モデルの理論と実践リサーチサイエンティスト北田俊輔 www.youtube.com/watch?v =-IPEUOcPTas Pythonで学ぶ画像生成北田俊輔インプレス社 https://book.impress.co.j p/books/1123101104

© LY Corporation より良い広告クリエイティブの自動生成・商品画像生成に向けた技術調査 • LLM や拡散モデルでそれっぽいデザインできそうだけど最先端の研究だとどうなの？ • GPT image
1 とかでそれっぽいデザインできそうだけど（略）生成されたデザイン画像、編集できなくね？どうすればいい？ • 「GPT image 1 で広告画像っぽいのできたけど、もうちょい編集したいな」 • 「プロンプトで指定したけど修正されなくて辛いよ〜〜」よいクリエイティブを作るための基礎知識や最先端の方法そしてのその課題が知りたい • クリエイティブ生成・デザイン生成ってそもそもなに？どう定式化される？ • どういう分野があって、どういう手法が提案されている？ • 現在の課題や今後アツい研究分野ってある？本論文の選定理由 3  prompt: “gpt image 1 で画像生成してそれっぽいデザインができたけど、文字を直したり構成を変えたりできなくて悩むひとの画像を生成してください”

© LY Corporation 導入デザイン認識デザイン生成現在と将来の展望まとめ AI 駆動型グラフィックデザイン
(Artiﬁcial Intelligence in Graphic Design; AIGD) の進展 • AI 技術をデザインの解釈に統合し、創造的なプロセスを強化することが焦点 • マッキンゼー*や PwC* の予測：グラフィックデザインにおける生成 AI は 2030 年までに世界経済に 8 兆ドル以上貢献する可能性が示唆 AIGD の学術的進化 • 初期：デザインタスクを個別の要素に分解して特化モデルを使用 • 近年：大規模基盤モデルの発展に乗じて生成モデルを応用本調査のアプローチとスコープ • デザインの理解と創造性を中心にプロセス全体を包括的に捉えるように調査 • 「認識」と「生成」の大きく分類してデザイン制作に対する AI 技術を解説導入 5  デザイン制作全体をカバーする研究はまだ少 * 本文中には引用なし。北田が該当しそうな情報源にリンクを付けました

© LY Corporation 導入デザイン認識デザイン生成現在と将来の展望まとめ導入 |
AIGD 6  ベクター要素画像要素タイポグラフィレイアウト色彩審美性を考慮した計画・設計ユーザの指示理解視覚的生成デザイン性に優れた作品ユーザーの指示認識生成 AIGD 従来：低次のコンポーネントごとの認識・生成近年：高次のクリエイティブワークフロー (AIGD) etc. AI 駆動グラフィックデザイン Artiﬁcial Intelligence in Graphic Design

© LY Corporation 導入デザイン認識デザイン生成現在と将来の展望まとめ AIGD の問題は以下のように定式化可能：
• デザイン要素の集合 E を考える各デザイン要素 e ∈ E は属性 a e （スタイル・サイズ・色など）と内容 c e （テキストや視覚データ）で表現 • デザイン全体 D(A, C) の審美的価値 V を最大化するように構成 • 理想的には、統一的なパイプラインで「意図の解釈」➜「要所収集」➜「レイアウト構成」➜「美的調和」の達成が可能に背景 | AI 駆動型グラフィックデザイン (AIGD) の定式化 7  テキスト要素の集合非テキスト要素の集合メインテキストサブテキスト a e : 14pt / 太字 c e : メインテキストレイアウト (位置・大きさ・角度 etc.) ユーザーの意図 (プロンプト・画像 etc.)

© LY Corporation まとめグラフィックデザインにおける AI 導入の第一歩は “デザイン意図の理解” ➜ 基本的なデザイン原則の知識を備えた機械学習モデルが求められる
• テキスト要素の認識・非テキスト要素の認識・レイアウト分析・審美性理解デザイン認識タスク / デザイン生成タスク 8  導入デザイン認識デザイン生成現在と将来の展望

© LY Corporation 導入デザイン認識デザイン生成現在と将来の展望非テキスト要素認識テキスト要素認識レイアウト分析
審美性理解まとめラスタ画像における物体認識 • 非テキストオブジェクト認識の進展に関するサーベイ論文 [Cheng+ PAMI’23] • Multi-modal Large Language Models (MLLMs) の登場によるテキストとビジュアルデータの統合能力が拡張 [Chen+ CVPR’22] ◦ 画像キャプション生成や視覚質問応答 (VQA) における成果 ◦ LLM による外部の vision expert model への指示によるタスク遂行の新たなアプローチ ➜ DETR [Carion+ ECCV’20] や Grounding DINO [Liu+ ECCV’24] などの代表的なモデルの応用 SVG 認識 • 初期はルールベースのグラフマッチングが中心 ◦ 例: visibility graphs [Locteau+ Graph Rec. W’07], attributed relational graphs [Ramel+ IJDAR’00] • 近年はベジェ曲線ベースのグラフ表現を用いた YOLaT [Jiang+ NeurIPS’21] 等の登場 ◦ 後続の YOLaT++ [Dou+ PAMI’24] では図形等へ拡張し対話ベースの新たなデータセットも構築デザイン認識タスク | 非テキスト要素の認識 9 

審美性理解まとめ光学文字認識 (Optical Character Recognition; OCR) • 画像中の文字領域を抽出し（文字検出）、その内容を認識する（文字認識） 2 段階構成が中心 • 文字検出 ◦ 回帰ベース手法：TextBoxes [Liao+ AAAI’17], CTPN [Tian+ ECCV’16], ABC-Net [Liu+ PAMI’21] etc. ◦ セグメンテーションベース手法：Mask R-CNN [He+ ICCV’17] ◦ Transformer ベース手法：DETR 系 [Carion+ ECCV’20, Meng+ ICCV’21, Wang+ AAAI’22, Li+ CVPR’22], DINO 系 [Li+ CVPR’23] etc. • 文字認識 ◦ 規則的な文字（印刷物・スキャン文書等）vs. 不規則な文字（傾き・湾曲・ぼかしあり等） ◦ 初期：DNN を特徴抽出器として使用し Scene Text Recognition (写真中から文字を認識するタスク) へ挑戦 [Jaderberg+ IJCV’16] ◦ 近年：文字単位の意味的関係性を組み込む手法や生成モデルを活用した認識精度向上の研究が発展 [Liu+ AAAI’18, Cheng+ CVPR’18, Li+ AAAI’19] Canonical glyphs (標準文字系) を活用した特徴学習の提案 [Liu+ ECCV’18] デザイン認識タスク | テキスト要素の認識 1/2 10  (SSDベース) (Faster R-CNN ベース)

審美性理解まとめフォント認識 • フォント：様々な特徴を有した形でデザインされている ➜ 文字の太さ、セリフ（飾り）、アスペクト比、イタリックの形式等 [Chen+ ICCV’19] • 初期：筆跡や飾りの形式、傾きなどの特徴量に基づいて分類に挑戦していたが困難多数 [Zhu+ PAMI’01, Chen+ CVPR’14] etc. ◦ 微細なデザインの差異を識別困難 ◦ 入力画像のノイズ耐性の弱さ ◦ 手書き風やスタイライズフォントへの対応力不足 ◦ 拡張性の乏しさ; 新たなフォントを追加するには都度特徴を設計する必要あり • 近年：DNN によるフォント認識が主流 ◦ FontCLIP [Sun+ ICMR’24] のような文字埋め込み空間の活用によりフォントの未知属性や筆記体のようなフォントにも柔軟に対応可能デザイン認識タスク | テキスト要素の認識 2/2 11 

審美性理解まとめレイアウトは要素のタイプ（種類）とポジション（位置）などの属性に基づいて構成 • 初期のレイアウト解析：人手による特徴量設計が中心 ◦ 要素の位置、間隔、フォントスタイル等を特徴量に利用 [Stoﬀel+ SAC’10] • 近年のレイアウト解析：ニューラルネットワークによる進展 ◦ Faster R-CNN [Ren+ PAMI’16] や Transformer [Vaswani+ NeurIPS’17] を応用し視覚レイアウトの低次元ベクトルへの変換・連続的な特徴表現による要素間の関係の詳細な理解 [Patil+ CVPRW’20] • 他分野からの知見の流用 ◦ グラフィックデザインにおけるレイアウト分析 ➜ 文書レイアウト解析 (Document Layout Analysis; DLA) と多くの共通点ありデザイン認識タスク | レイアウト分析 1/2 12 

審美性理解まとめレイアウト分析の分類 • トップダウン法 [Sun+ ICDAR’05] etc. ◦ 👍 ページ全体を大きなブロックとして分割 ➜ 👎 複雑なレイアウトに弱い • ボトムアップ法 [Simon+ PAMI’97, Agrawal+ ICDAR’09] etc. ◦ 👍 細かい要素から段階的に集約 ➜ 👎 不規則レイアウトにも対応可能だが高コスト • ハイブリッド法 [Tran+ ICDAR’16] etc. ◦ マルチレベル構造を採用し、精度と柔軟性を両立 • マルチスケール分析 [Xu+ ICJAI’18, Grüning+ ICDAR’19] etc. ◦ 複数の解像度で階層的に特徴を抽出 / CNN・Transformer で行分割や輪郭検出性能が大きく向上 ◦ 要素配置における文脈妥当性 (contextual relevance) の重要性を提唱 [Luo+ ACM Comp. Surv.’24] デザイン認識タスク | レイアウト分析 2/2 13 

審美性理解まとめ人手による特徴設計からマルチモーダル学習へ進化 [Kong+ TVCG’22] • 初期：人手による配色指標やルールベースの調和指標 • 近年：構成要素間の審美的整合性を考慮した深層学習ベースの手法 (GAN, VAE, Transformer) カラーパレット推薦 • 初期：色彩理論や調和ルールに基づくルールベース評価が中心 ◦ ユーザが選んだカラーパレットにスコアを与えてより良い組み合わせを提示 [Son+ UIST’15] ◦ 色のセマンティクスや要素間の調和具合を適切に考慮できず限界あり • 近年：深層学習によるアプローチ ◦ VAE や Transformer ベースのモデルでより高度な推薦が可能に ▪ 雑誌カバーや広告、プレゼン資料などのテーマ性を持った配色提案が可能に [Jahanian+ IUI’13, Yang+ TOMM’16, Maheshwari+ CIKM’21, Bahng+ ECCV’18] ▪ インフォグラフィック（棒グラフ・散布図等）向けの可視性重視パレット提案 [Lu+ TVCG’20, Yuan+ TVCG’21] etc. ▪ 条件付き VAE による視覚領域ごとの動的カラーパレット推薦 [Yuan+ TVCG’21] ▪ Landing Page や Eコマースデザイン向けに領域ごとの配色を Transformer で提案 [Qiu+ IUI’22, WACV’23] デザイン認識タスク | 審美性理解 1/2 14 

審美性理解まとめその他審美的属性の理解 • 審美的な視覚評価は人手特徴から深層学習へと進化 ◦ 初期：画像からルールベースで特徴を取得して視覚評価 [Ke+ CVPR’06, Wong+ ICIP’09] ▪ 主に構図、証明、コントラスト配列バランスなどの物理的特徴に注目 [Dhar+ CVPR’11] ▪ 写真の美しさの数値化 [Obrador+ MMM’12] やユーザの web ページに対する第一印象予測 [Reinecke+ CHI’13] ◦ 近年：深層学習による新たなアプローチ ▪ CNN ベースで画像全体の構成美を学習可能なモデルの提案 [Lu+ MM’14, ICCV’15] ▪ ユーザごとの審美的嗜好への適応 [Cui+ TOMM’20, Information Sciences’20] ▪ 画像のアスペクト比や構図を保ったまま審美的評価を行うための新たな畳み込み層の提案 [Chen+ CVPR’20] デザイン認識タスク | 審美性理解 2/2 15  Figure from [Chen+ CVPR’20]

© LY Corporation 導入デザイン認識デザイン生成現在と将来の展望まとめデザイン認識の技術進化の流れ •
伝統的手法 (ルールベース) ➜ CNN ➜ GANs ➜ Transformer ➜ LLM (現在) ◦ AIGD の各サブタスクでも同様の傾向あり ◦ 個々のタスクは独立して発展しているように見えても全体としては一貫した発展パターンベクタ画像研究の動向と課題 • 従来の研究はラスタ画像（ピクセルベース）に偏重; ベクタ画像に関する研究は相対的に少ない ◦ ベクタ画像における認識研究の大半は SVG 認識に集中; 分野初期の試みにとどまっていた • LLM との統合がしやすいという点でベクタ画像への関心が高まりつつある ◦ テキストトークンへ落としやすい構造であるため推論や理解を支援しやすい形式なためテキスト認識における課題や困難 • 視点の変化による歪み・小さい文字サイズ・デザイン性の高い装飾フォント・多様なサイズやスタイル・多言語対応・画像のボケや照明不足 etc. • フォントの多様性が非常に高いためそれらを網羅した学習データの構築が難しいデザイン認識タスク | ここまでのまとめ 1/2 16 

© LY Corporation 導入デザイン認識デザイン生成現在と将来の展望まとめレイアウト解析の進展 •
文書構造解析 (document structure analysis) に関連する技術に注目が集まる ◦ 前処理として OCR も使用するためテキスト認識の重要性が最注目 • LayoutLM [Xu+ KDD’20], UDOP [Tang+ CVPR’23], LiLT [Wang+ ACL’22] といった大規模言語モデルベースの手法の登場 ◦ マルチモーダルな Transformer Encoder を活用した特定用途に対する事前学習 + Fine-tuning 審美性評価の現状と課題 • 配色に関する研究が依然として主流 ◦ 個人の性格や写真の内容、視覚的特徴といった粒度の細かい分析・予測が増えてきている • 課題点 ◦ 審美性評価は本質的に主観性が高く、絶対的な正解がない ◦ 明確な評価基準や標準的なフレームワークが存在しないためベンチマーク設計が困難デザイン認識タスク | ここまでのまとめ 2/2 17 

© LY Corporation 導入デザイン認識デザイン生成現在と将来の展望まとめグラフィックデザインにおける要件 ➜
個々の要素が独立した透過素材であることが重要 • 本要件を元に以下の研究分野に焦点を当てる ◦ ベクタ素材（vector shape）の生成・芸術性の高い画像のベクタ化（vectorization）テキスト要素の生成は特に以下2点に注目 • テキストそのものの生成（文字やフォントの生成） • シーン内でのテキスト描画（レンダリング）デザイン生成タスク / デザイン認識タスク 18  その他以下のデザイン生成技術について紹介 • レイアウトの自動生成 • レイアウトに基づく画像生成 • 審美的洗練（aesthetic reﬁnement）技術

© LY Corporation 導入デザイン認識デザイン生成現在と将来の展望まとめ非テキスト要素生成テキスト要素生成
レイアウト生成自動色付け・彩色 SVG 生成 • SVG はベジェ曲線等のパラメトリック曲線によって定義される 2D 点列であるため入力シーケンスとみなしてEncoder-Decoder 型の seq2seq でモデリングされることが多い ◦ SketchRNN [Ha+ ICLR’17]：LSTM ベースの VAE で手描きスケッチを学習 ◦ SVG-VAE [Lopes+ ICV’19]：画像ベースの潜在変数からベクタパラメータを復元 ◦ DeepSVG [Carlier+ NeurIPS’20]：階層的なオートエンコーダにより構造的な SVG を学習 ◦ IconShop [Wu+ SIGGRAPH Asia’23]：BERT を用いたテキスト条件付きアイコン生成 • ラスタ画像からのベクタ化：微分可能レンダラを利用するアプローチへ進化 ◦ DiﬀVG [Li+ TOG’20]：微分可能ラスタライザーを開発し SVG 生成をラスタ画像に基づいて訓練 ◦ Im2Vec [Reddy+ CVPR’21]：ラスタ画像を入力としてベクタグラフィックを学習 ◦ VectorFusion [Jain+ CVPR’23] / DiﬀSketcher [Xing+ NeurIPS’23]： CLIP や拡散モデルとの融合によりテキストから SVG を生成 ➜ Text-to-Vector (T2V) の高品質化には幾何学的制約の導入が有効 [Zhang+ SIGGRAPH’24] デザイン生成タスク | 非テキスト要素の生成 1/2 19 

レイアウト生成自動色付け・彩色芸術性の高い画像のベクタ化画像のベクタ化 (image vectorization) は SVG 生成と対になるような手法 • 輪郭検出やセグメンテーションを通じてピクセルをグループ化・その後曲線や領域形状へ変換 [Sun+ TOG’07, Xia+ TOG’09, Lai+ TOG’09] ◦ アニメーション・ピクセルアート・アイコンなどをベクターへ変換可能 ◦ 問題点：パッチ境界の整合性確保難・メッシュ生成の自動化難・精密な輪郭表現やノイズ除去に限界あり • 輪郭ベースのベクタ化 ◦ 線・円・ベジェ曲線などの単純な図形で画像の不連続領域を表現する技術を応用 ◦ 例：ピクセルアートやシルエットイラストのベクタ化 [Zhang+ TVCG’09, Sýkora+ SBM’05] • 高度なベクタ近似と最適化 ◦ ラスタ画像の境界に対してより滑らかで連続性のある曲線をフィット [Bessmeltsev+ TOG’19] ◦ ラスタ画像の境界に対して知覚的にシンプルで自然なポリゴン近似を行う [Dominici+ TOG’20] • レイヤー構造による高品質ベクタ化 ◦ LIVE [Ma+ CVPR’22] や SAMVG [Zhu+ ICASSP’24]：画像を複数のレイヤーに分解し各レイヤーを個別に最適化デザイン生成タスク | 非テキスト要素の生成 2/2 20 

レイアウト生成自動色付け・彩色装飾フォント生成 • 従来：明示的な形状モデリングや統計的学習による筆跡の模倣（書道・カリグラフィ） • 近年：GAN ベースや diffusion ベースの手法の採用 ◦ zi2zi [Tian’17] / DC-Font [Jiang+ SA’17]：異なるスタイル間のマッピングを学習 ◦ RDGAN [Huang+ ECCV’20]：部首抽出モジュールを用いた高精度な文字分解とその合成 ◦ Diff-Font [He+ IJCV’24]：拡散モデルで 1 枚の参照画像からスタイルを抽出・制御フォントのスタイル変換 • Awesome Typography [Yang+ CVPR’17]：装飾付きテキストがオズからのスタイル変換の先駆け • データ不足に対応するための合成データの使用やDiffusionベース手法の登場によるモデルの多様化デザイン生成タスク | テキスト要素の生成 1/2 21 

レイアウト生成自動色付け・彩色セマンティックタイポグラフィ • 文字に意味性と可読性を両立させた “calligram” (カリグラム) の自動生成が進む [Xu+ GI’07] • 文字の変形度合いや意味・形間の類似度、人間評価を元にした学習などで見た目を調整 [Zou+ TOG’16] • 最新研究では LLM による意味的制御付きフォント合成も進んでいる [Tanverr+ ICCV’23] 視覚的テキストレンダリング • 画像中に自然に文字を融合させることが目的 • 合成データ（しかし英語中心）を用いた学習 ◦ SynthText [Gupta+ CVPR’16]・VISD [Zhan+ ECCV’18]・ SynthText3D [Liao+ SCIS’19] etc. ▪ 多言語対応（日中韓）は文字数の多さとデータ不足により生成精度に課題あり ▪ 最新の有料モデルも多言語テキストレンダリングでは未熟 • 字形情報・位置・領域分割マスクを活用して高精度化 ◦ TextDiﬀuser [Chen+ NeurIPS’23]・ GlyphDraw [Ma+ arXiv’23] / GlyphControl [Yang+ NeurIPS’23] etc. デザイン生成タスク | テキスト要素の生成 2/2 22 

レイアウト生成自動色付け・彩色自動レイアウト生成 • 「内容に最も適したテンプレートを選択する」ことでレイアウトを作成することが多い ◦ 決められたテンプレートだけでは多様なグラフィックデザインのニーズ対応が難しい ◦ UIデザイン [Todi+ DIS’16]・広告デザイン [Lee+ ECCV’20, Li+ TVCG’20]・ウェブサイト [Jing+ CHI’23]・書籍や雑誌の表紙 [Zhang+ ICDAR’21, Yang+ TOMM’16]・ポスター [Chai+ MM’23, Guo+ CHI’21] などタスク多 • 初期：テンプレートや類似事例・ヒューリスティックに基づいた生成 ◦ 専門家による設計知識が前提; 定義済みテンプレートや手作業のルールに依存 • これまで：注目領域や注意機構を用いる手法 ◦ 視覚的な重要度の分析 [Bylinskii+ UIST’17]・ユーザの視線や注意の流れを追跡 [Pang+ TOG’16] 深層学習によるレイアウト生成：大規模なデザインデータから設計原則を学習 • CanvasVAE [Yamaguchi ICCV’21]：VAE ベースの構造で無条件でベクターグラフィック文書を生成 • LayoutGAN [Li+ ICLR’21]：GAN ベースの構造でユーザが指定した制約のもとレイアウトを生成 • LayoutDM [Inoue+ CVPR’23]：拡散モデルでノイズから徐々にレイアウトの幾何パラメータを推定 • Visual Layout Composer [Shabani+ CVPR’24]：ラスターとベクターの両方を扱うハイブリッドモデルデザイン生成タスク | レイアウト生成 1/3 23 

レイアウト生成自動色付け・彩色ラスタ画像に対するレイアウト生成：2つの方向性 • Content-agnostic：コンテンツ非依存型・あらかじめ決められた形式やサイズに従って生成 ◦ VAE ベース：LayoutVAE [Jyothi+ ICCV’19] ◦ Transformer ベース：LayoutFormer [Gupta+ ICCV’21]・VTN [Arroyo+ CVPR’21]・DLT [Kong+ ECCV’22] • Content-aware：コンテンツ依存型・レイアウト要素をコンテンツにあった形で配置・生成 ◦ ContentGAN [Zheng+ TOG’19]：がとうとテキストの両方を入力として処理 ◦ PosterLayout [Hsu+ CVPR’23]：CNN + LSTM の構成。コンテンツの saliency map を活用 ◦ LayoutDETR [Yu+ ECCV’24]：要素が存在しそうな場所を物体検出のアイディアを応用して発見コード生成としてのレイアウト生成：XML/JSON等で記述されたレイアウトの LLM 利用 • LayoutGPT [Feng+ NeurIPS’23]：CSS 構造を使った few-short example を元に GPT でコード生成 • LayoutPrompoter [Lin+ NeurIPS’23]：RAG のアイディアから ICL をしてレイアウト生成 • MuLan [Li+ arXiv’24]：プロンプトをサブタスクに分解し、画像を段階的に更新 • TextLap [Chen+ EMNLP-F’24]：自然言語による記述からレイアウトを生成デザイン生成タスク | レイアウト生成 2/3 24 

レイアウト生成自動色付け・彩色文字レイアウト生成 (Glyph Layout Generation) • 文字 (Glyph) を美しく機能的に配置することに特化したレイアウト生成タスク [Wang+ CVPR’22] ◦ ポスター・ロゴ・広告などのデザインにおいて文字が図形として配置される場合に重要な課題 • Wang+ CVPR’22 で初めて体系的なタスクとして定義 ◦ 対応すべき課題 ▪ 細部の調整：文字同士のストロークの衝突の回避・空間バランスや余白、重なりの抑制 ▪ 読み順の自然さ：英語などでは左から右、上から下の順に自然な視線誘導を実現する必要あり ▪ スタイルの多様性：周辺のデザインに合わせて創造性のある多様な配置スタイルを実現 ◦ 提案手法 ▪ Dual Discriminator：1つは文字の配置軌跡を評価し、もう1つは最終的なビジュアル形状を評価 ◦ 問題点 ▪ 長文テキストの扱い・ユーザー指定制約への対応度合い・レイアウトの多様性が限定的デザイン生成タスク | レイアウト生成 3/3 25 

レイアウト生成自動色付け・彩色グレースケール画像に色を付けるプロセス • モノクロのマンガや線画、スケッチ・写真、ラフな画像や下書きに自動で色付けする方法を検討手書き線（stroke, scribble etc.）によるガイド • ユーザ入力をヒントに周辺の領域に色をつけていく [Dou+ TIP’21, Yun+ WACV’23, Zhang+ CVPR’21] etc. 参照画像による色付け (Reference-based) • 類似テクスチャ・形状・領域を見つけた色の対応付け・指定した色変更を画像全体に自動展開 [Bai+ ECCV’22, Li+ TIP’21, Li+ CVPR’22] etc. パレットベースの色付け (Palette-based) • クラスタリングを使用した画像からの代表色抽出 [Wang+ ECCV’22, Wu+ MM’23] etc. テキストによる色付け (Text-based) • 自然言語を用いた色の指定とその反映 [Chang+ CVPR’23, Zabari+ SIGGRAPH Asia’23, Zhang+ ICCV’23] etc. デザイン生成タスク | 自動色付け・彩色 26 

© LY Corporation 導入デザイン認識デザイン生成現在と将来の展望まとめ非テキスト要素生成 •
SVG 生成が中心・視覚的な概念を構造的且つ拡張可能な形式で表現可能 • 微分可能レンダリング手法の登場によりラスタ画像からベクタ画像への変換が可能にテキスト要素生成 • 基本的なテキスト生成：フォントの変換や再生成・複雑な文字体系に対する生成方法の探索 • 芸術的なテキスト生成：スタイル変換・意味的テキスト生成が中心 • 自然画像中のテキストレンダリング：違和感のない形で描画・言語ごとの字形処理が中心レイアウト生成 • テンプレートベースから（学習済み）モデルを用いた学習ベースのアプローチへ • XML や JSON 等のレイアウト情報をコードとして処理するモデルの増加自動色付け • ルールベース ➜ CNN ベース ➜ Transformer/Diﬀusion ベースへ発展 • 自然言語による色指定・構成要素ごとの色の整合性保持・スタイルと調和する彩色学習デザイン生成タスク | ここまでのまとめ 27 

© LY Corporation 導入デザイン認識デザイン生成現在と将来の展望まとめグラフィックデザインにおける MLLM
の進展 ➜ グラフィックデザイン領域にも革新 MLLMの構造・応用の観点から以下 4 つのカテゴリに分類可能 • 視覚・言語統合型手法 (Vision-language integration) • レイアウト特化型手法 (Layout-focused method) • 審美性を考慮した手法 (Aesthetic-aware method) • マークアップ言語ベース手法 (Markup-based method) 現在と将来の展望 | マルチモーダルLLMの活用 1/5 28 

© LY Corporation 導入デザイン認識デザイン生成現在と将来の展望まとめ MLLMの活用現在の課題
今後の方向性視覚・言語統合型アプローチ • エンコーダ・デコーダ構成 ◦ DreamLLM [Dong+ ICLR’24]：CLIP + Stable Diﬀusion + LLM を組み合わせた画像生成 ◦ OpenCLOE [Inoue+ CVPRW’24]：ユーザの意図を設計計画に変換・装飾要素を合成しレンダリング • トークンベース画像表現の利用 ◦ 画像を離散的なトークン列へ変換・言語モデルでも処理できるように ◦ VQGAN [Esser+ CVPR’21] などの量子化器を用いた画像のトークン化 ◦ MarkupDM [Kikuchi+ MM’25] ではグラフィックデザインに特化したカスタム量子化器を設計 • 統合型モデル ◦ GraphicLLM [論文中では紹介されているが文献が存在しない！？] ▪ テキストと画像を同時に扱えるマルチモーダルモデル ▪ グラフィックデザインに特有な構造的関係性（画像とラベルの位置関係）を理解・保持可能現在と将来の展望 | マルチモーダルLLMの活用 2/5 29 

今後の方向性レイアウト特化型アプローチ • Text-to-Layout 変換 ◦ テキスト記述からレイアウト構造を生成する手法（例：LayoutLLM-T2I [Qu+ MM’23]） ◦ ユーザの意図から中間的な構造表現を経てレイアウトを生成（例：DesignProbe [Lin+ arXiv’24]） • Layout-as-Code 生成：LLMのコード生成能力を活かした HTML/CSS 形式のレイアウト出力 ◦ LayoutNUWA [Tang+ ICLR’24]：プログラミングスタイルでレイアウト構成 ◦ LayoutGPT [Feng+ NeurIPS’23]：テキストプロンプトから HTML/CSS を直接生成 • 属性予測 ◦ GraphiMind [Huang+ arXiv’24]： LLM によってデザイン要素の幾何学的・スタイル的属性を予測 ▪ 構成全体の一貫性を維持現在と将来の展望 | マルチモーダルLLMの活用 3/5 30  Figure from [Huang+ arXiv’24]

今後の方向性審美性を考慮したアプローチ • コンポーネント単位の生成 ◦ スタイルの一貫性を保ちながら個々の構成要素を生成可能な CLIP ベースモデル ◦ VASCAR [Zhang+ arXiv’24]：審美性を考慮したレイアウトの自己修正を実現 ◦ Design-o-meter [Goyal+ WACV’25]：生成したデザインを採点してより洗練させるように修正 • 検索拡張型生成（RAG） ◦ GraphicLLM [?]：既存のデザイン要素（アイコン・画像等）をを検索し、それを活用した新規デザインの生成を可能に ▪ 複雑なコンポーネントも高い忠実性で生成可能 • デザインシステムとの統合 ◦ MagicBrush [Zhang+ NeurIPS’23]：ブランドガイドラインやスタイルルールを参照しながら、一貫性のある要素生成を実現現在と将来の展望 | マルチモーダルLLMの活用 4/5 31  Figure from [Zhang+ arXiv’24]

今後の方向性マークアップ言語ベースアプローチ • マークアップドキュメントモデル ◦ MarkupDM [Kikuchi+ MM’25]：グラフィックをマークアップ（構造）+ 画像の形式で表現 • SVG の直接生成 ◦ VectorFusion [Jain+ arXiv’22]・DiﬀSVG [Carlier+ NeurIPS’20] ▪ テキスト条件から直接 SVG 形式のベクターグラフィックを生成可能 ▪ デザイン品質を保ちつつ、スケーラブルで編集可能な形式を提供・複雑な要素も高い忠実性で生成可能現在と将来の展望 | マルチモーダルLLMの活用 5/5 32  Figure from [Kikuchi+ MM’25]

今後の方向性 AI によるグラフィックデザイン (AIGD) において現時点で残されている重大な課題を 3 つに分類現在と将来の展望 | 現在の課題 1/5 33  (A) ユーザ意図の理解不足 (B) 解釈性の欠如 (C) 多層構成と編集操作の制約上記の他 4つ目の限界が浮上 ➜ コンテキスト一貫性の欠如

今後の方向性ユーザー意図の理解 • 問題点 ◦ 現在の多くの AI システムはユーザの入力テキストを統計的処理をしている ➜ 人間的な意味理解に欠ける • 例 ◦ テキストプロンプト：「洗練された印象のレイアウトにして」 ➜ AI はこの曖昧な意図をデザイン理論に基づいて変換することが難しい • 技術的背景 ◦ 意図のエンコーディングは一般的にテキスト特徴と画像特徴から数値化する方法 ▪ hI = LLM θ (x text ) ⊕ ViT Φ (x image ) ➜ 人間の判断に比べるとスタイル一貫性が大幅に劣る • 特に顕著な課題 ◦ フィードバックベースの反復生成への対応が未熟 ➜ 「ここだけ直して」という指示に個別対応が難しく、毎回全体を再生成してしまう現在と将来の展望 | 現在の課題 2/5 34 

今後の方向性解釈性の欠如 • 問題点 ◦ 現在のモデルは生成したデザインに対して「なぜそのような構成や色・フォントを選んだのか」を明確に説明できない • 背景 ◦ 多くの AI はデザイン理論やルールを明示的に学習しておらず経験則的なパターン学習に依存 • 結果 ◦ 複雑なデザインタスクになるほど性能が急激に低下 ◦ 要素間の関係性や美的判断を理論的に説明・分解・再構築する能力が不足 • 具体的な例 ◦ タイポグラフィ生成では視覚的スタイルは模倣できるが以下を同時に満たすのが困難 ▪ 読みやすさ（可読性）・文字間の間隔（カーニング）・意味的ニュアンス現在と将来の展望 | 現在の課題 3/5 35 

今後の方向性多層構成と編集操作の制約 • 問題点 ◦ グラフィックデザインでは複数の要素をレイヤー単位で独立に編集する必要あり ◦ 現在のモデルではレイヤー制御がほとんど不可能。編集時に他の要素も変化してしまう • 背景 ◦ 多くのモデルは「1枚の画像として一括生成」する設計で透過レイヤーや多層構造の対応が困難 ◦ 例：TurboEdit [Wu+ ECCV’24] や FLUX.1 は編集機能をもつが編集の影響範囲を限定することは難 ➜ ※ 最近の Qwen-Image-Edit や nano-banana (gemini 2.5 ﬂash image) では実現できてそう • 技術的限界 ◦ 拡散モデルや Transformer の多くは画像を「フラットな表現」として処理しており構成要素の論理的独立性を保持できない ➜ 以下のトレードオフが発生 ▪ 高精度な描画・編集可能性・ファイルサイズの最適化 etc. 現在と将来の展望 | 現在の課題 4/5 36 

今後の方向性コンテキスト一貫性の欠如 • 問題点 ◦ 現実のグラフィックデザインは単一画像ではなく複数の媒体・形式にまたがるデザインシステムを構築する必要がある（例：ロゴ・広告・SNSバナー・Web ページ等） • 現在の AI の限界 ◦ 各生成を「個別のタスク」として扱うため、コンテキストの一貫性を保持できない ▪ ブランドカラー・フォントスタイル・レイアウト構成 etc. • 技術的限界 ◦ 拡散モデルや Transformer の多くは画像を「フラットな表現」として処理しており構成要素の論理的独立性を保持できない ➜ 以下のトレードオフが発生 ▪ 高精度な描画・編集可能性・ファイルサイズの最適化 etc. • 実務上の問題 ◦ ブランドデザインではデバイスや用途が異なっても「コアのビジュアル要素」は統一されている必要あり ➜ 現行 AI はブランドデザインを保持する永続的な内部表現を持たない現在と将来の展望 | 現在の課題 5/5 37 

今後の方向性 AI を活用したグラフィックデザインにおける今後の研究領域 • 統合的な End-to-End モデル実現のための研究 • サブ領域に特化した研究現在と将来の展望 | 今後の研究の方向性 38  Figure from [Le+ CVPR’25] Figure from [Wang+ arXiv’24]

今後の方向性統合的な End-to-End モデル実現に向けて • 目標：「意図理解 ➜ 要素生成 ➜ レイアウト生成 ➜ 審美性判断」を一気通貫で処理するモデル • マルチモーダルな意図理解 ◦ 現状：画像とテキストの統合処理はある程度進んでいるが以下に以下の対応は未だ不十分 ◦ 今後の課題 ▪ 3D効果や湾曲・歪み・変形を含む文字の認識 ▪ 芸術的タイポグラフィや装飾テキストの意味的理解 ▪ 曖昧なプロンプトから設計可能な意図仕様への翻訳：「やさしく親しみやすい印象で」 • 設計原則に基づいたレイアウト生成 ◦ 現状：デザイン原則（例：黄金比・余白・整列・階層構造）を理解していなければ人間らしいレイアウトは作れない ◦ 研究課題 ▪ 設計理論を数理的に記述・符号化 ▪ 文脈に応じた推論アルゴリズムの開発（例：デザイン文脈に応じて調整される審美的優先順位） ▪ 説明可能なレイアウト生成の実現（なぜこの構成にしたのか？を説明できるように） ▪ 生成の評価基準の整備も必要; 人間の美的判断と整合した指標・感性や機能性を同時に図る指標現在と将来の展望 | 今後の研究の方向性 39 

今後の方向性統合的な End-to-End モデル実現に向けて • 目標：「意図理解 ➜ 要素生成 ➜ レイアウト生成 ➜ 審美性判断」を一気通貫で処理するモデル • 高品質な視覚要素の生成 ◦ 重要要素 ▪ 透過背景対応（背景に依存しない構成要素の生成） ▪ レイヤー構造の制御・再編集可能性 ◦ 今後の方向性 ▪ ラスター ⇔ ベクター変換のシームレス統合 ▪ 作業効率・編集可能性の両立が可能に現在と将来の展望 | 今後の研究の方向性 40  ◦ 注目手法 ▪ LayerDiﬀuse [Zhang+ arXiv’24]：透過画像やマルチレイヤー構成に有効 ▪ FLUX.1 [BFL’24]：タイポグラフィに特化した生成に進展が見られるが、依然として表現力には課題あり ▪ SVG生成系：精度・可読性・スケーラビリティを両立 Figure from [Zhang+ arXiv’24]

今後の方向性サブ領域に特化した研究 • グラフィックデザイン特化の Visual Encoder ◦ 課題 ▪ 一般的なモデル（例：CLIP / ViT）はデザインの文脈を反映できていない ◦ 必要な機能 ▪ タイポグラフィ・色調・構図・レイアウト構造などの視覚的特徴を明確に捉えるエンコーダ • 対話的・協調的なデザイン支援システム ◦ 目的 ▪ 人間と AI が交互に提案・修正・確認を行うデザインプロセス ◦ 要素技術 ▪ ターンベースのインタラクション・フィードバックから学習・推論するメカニズム・ユーザの意図や創造性を尊重した提案ロジック • マルチモーダル間のスタイル転送 ◦ 例：テキストで指定 ➜ SVG で出力 / 写真からスタイル抽出 ➜ タイポグラフィに適用 ◦ 意義：一貫性のあるデザイン展開を効率的に実現現在と将来の展望 | 今後の研究の方向性 41 

今後の方向性サブ領域に特化した研究 • ベクターグラフィックス (SVG) における高度な生成と推論 ◦ 現状： ▪ ラスタ画像より研究が遅れているが、構造的に編集可能なため実用性は非常に高い ◦ 新たな表現例： ▪ Primal Visual Description (PVD) [Wang+ arXiv’24]： SVG を形状・位置・大きさといったプリミティブ属性に抽象化したテキスト表現として定義 ➜ これにより言語モデルで構造的 SVG を生成・編集・理解可能現在と将来の展望 | 今後の研究の方向性 42  Figure from [Wang+ arXiv’24]

© LY Corporation まとめグラフィックデザインにおける AI の最先端の技術・手法・応用例を体系的にレビュー • 認識タスクと生成タスク ◦
非テキスト要素に認識・テキスト要素の認識・レイアウト分析・審美性理解 ◦ 非テキスト要素の生成・テキスト生成・レイアウトの自動生成・色彩の生成・再構成 • 技術トレンドの総括 ◦ LLM や MLLM の登場によりデザイン意図を理解して全体性のある出力が可能に • 本質的な課題の数々 ◦ 人間のデザイン意図を深く理解することの難しさ ◦ AI による出力の理由や構成論理の可視化（解釈性の欠如） ◦ レイヤー構成・編集可能性の維持（再編集のしにくさ） • 今後の展望 ◦ End-to-End で統合されたマルチモーダルデザイン AI の開発 ◦ 設計原理や審美性評価を内部に組み込んだ推論エンジンの構成 ◦ 透過素材・多層構造・編集対応を前提とした生成モデルの実装まとめ 43  導入デザイン認識デザイン生成現在と将来の展望

AIグラフィックデザインの進化：断片から統合（One Piece）へ / From Fragm...

AIグラフィックデザインの進化：断片から統合（One Piece）へ / From Fragment to One Piece: A Survey on AI-Driven Graphic Design

More Decks by Shunsuke KITADA

Other Decks in Research

Featured

Transcript