Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SSII2023 [OS1] グラフィックデザインとマルチモーダル処理
Search
画像センシングシンポジウム
PRO
June 14, 2023
Science
0
650
SSII2023 [OS1] グラフィックデザインとマルチモーダル処理
⼭⼝光太(CyberAgent)
画像センシングシンポジウム
PRO
June 14, 2023
Tweet
Share
More Decks by 画像センシングシンポジウム
See All by 画像センシングシンポジウム
SSII2025 [OS3] どの論文でもダメなんだけど! 〜実応用とその課題〜
ssii
PRO
2
980
SSII2025 [OS3-01] End-to-End自動運転の実応用の現場から
ssii
PRO
6
2k
SSII2025 [OS3-02] 広告における画像生成技術の実応用の現状
ssii
PRO
5
1.2k
SSII2025 [OS3-03] 有機ミニトマト農場におけるロボット開発と基礎研究
ssii
PRO
0
890
SSII2025 [OS2-01] 自動運転の性能と共に進化するセンシングデバイス
ssii
PRO
2
1.7k
SSII2025 [TS3] 医工連携における画像情報学研究
ssii
PRO
2
1.1k
SSII2025 [OS2] 新たなセンシングの潮流
ssii
PRO
1
510
SSII2025 [OS2-02] イベントカメラの研究紹介と可視光通信への応用
ssii
PRO
1
790
SSII2025 [OS2-03] マルチ/ハイパースペクトル領域における高度な画像撮影および処理技術
ssii
PRO
2
740
Other Decks in Science
See All in Science
Machine Learning for Materials (Challenge)
aronwalsh
0
280
データマイニング - グラフデータと経路
trycycle
PRO
1
120
メール送信サーバの集約における透過型SMTP プロキシの定量評価 / Quantitative Evaluation of Transparent SMTP Proxy in Email Sending Server Aggregation
linyows
0
910
01_篠原弘道_SIPガバニングボード座長_ポスコロSIPへの期待.pdf
sip3ristex
0
510
How To Buy, Verified Venmo Accounts in 2025 This year
usaallshop68
2
110
データベース09: 実体関連モデル上の一貫性制約
trycycle
PRO
0
660
Introd_Img_Process_2_Frequ
hachama
0
550
データベース02: データベースの概念
trycycle
PRO
2
750
ACL読み会2024@名大 REANO: Optimising Retrieval-Augmented Reader Models through Knowledge Graph Generation
takuma_matsubara
0
200
データベース04: SQL (1/3) 単純質問 & 集約演算
trycycle
PRO
0
840
データベース06: SQL (3/3) 副問い合わせ
trycycle
PRO
1
540
モンテカルロDCF法による事業価値の算出(モンテカルロ法とベイズモデリング) / Business Valuation Using Monte Carlo DCF Method (Monte Carlo Simulation and Bayesian Modeling)
ikuma_w
0
160
Featured
See All Featured
Why Our Code Smells
bkeepers
PRO
337
57k
A Modern Web Designer's Workflow
chriscoyier
693
190k
We Have a Design System, Now What?
morganepeng
52
7.6k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
10
900
StorybookのUI Testing Handbookを読んだ
zakiyama
30
5.8k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
43
2.4k
Optimising Largest Contentful Paint
csswizardry
37
3.3k
Become a Pro
speakerdeck
PRO
28
5.4k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Gamification - CAS2011
davidbonilla
81
5.3k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
281
13k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
331
22k
Transcript
グラフィックデザインと マルチモーダル処理 2023.6.14 ⼭⼝ 光太(CyberAgent)
CyberAgent AI Lab • ػցֶश • ίϯϐϡʔλϏδϣϯ • ίϯϐϡʔλάϥϑΟοΫε •
ࣗવݴޠॲཧ • Ի৴߸ॲཧ • HCI / ϩϘοτ • ܭྔܦࡁֶ
ΞδΣϯμ 1. άϥϑΟοΫσβΠϯͷϞμϦςΟ 2. ࠷ۙͷऔΓΈ
άϥϑΟοΫσβΠϯͷϞμϦςΟ 01
άϥϑΟοΫσβΠϯ • εϥΠυγϣʔɺιʔγϟϧϝσΟΞߘɺϙελʔɺ ಈըࠂɺWebϖʔδ
άϥϑΟοΫσβΠϯ͍ΘΏΔը૾Ͱͳ͍ ϕΫλάϥϑΟοΫ ϥελը૾ Rendering σβΠφʔͷѻ͏ͷ σΟεϓϨΠʹөΔͷ
ϥελը૾ • JPEG, PNG, WebP • ݻఆղ૾ϐΫηϧɺυοτֆ • ͍ΘΏΔը૾ ϕΫλάϥϑΟοΫ
• PDF, PPTX, Photoshop • ղ૾ඇґଘͷඳըࢦࣔ • ͍ΘΏΔυΩϡϝϯτ ϥελܗࣜͱϕΫλܗࣜ Typography Typography Typography
ۀάϥϑΟοΫσβΠϯͷཁૉ • ͨ͘͞ΜͷϞμϦςΟɺςʔϒϧσʔλʹ͍ۙ ίϐʔ ணϖʔδ Ωϟϯϖʔϯ άϥϑΟοΫ ϓϥοτϑΥʔϜ දࣔσόΠε ίϯςϯπ
ίϯςΩετ ഔମ *1 ௌऺ
ϕΫλάϥϑΟοΫͷσʔλߏ Canvas Image Text Text Text Text Canvas Image Text
Text Text Text υΩϡϝϯτ , Ωϟϯόε ϨΠϠʔ Width, Height, Category, … Type, Position, Size, Appearance, Text, Pixels, …
ϨΠΞτੜ • ϨΠΞτ(type, left, top, width, height)ͷϨΠϠʔλϓϧͷܥྻ • ϨΠΞτੜϚϧνϞʔμϧͳܥྻੜʹؼண t1
x1 y1 w1 h1 t2 x2 y2 w2 h2 … Layer 1 Layer 2 Generator Canvas Layer 1 Layer 2
ςΩετͷٯϨϯμϦϯά • ϚϧνλεΫɾϚϧνϞʔμϧͳ༧ଌ Resolution: [1699, 1280] Location: [247, 1130, 748,
1280] Text: "WANT" Font: Barlow Semi Condensed ExtraBold Fill: RGB: [44, 34, 41] Border: Visible: True RGB: [217, 91, 97] Width: 2 Shadow: Visible: False Background: <pixels> ٯϨϯμϦϯά
N Inoue et al., LayoutDM: Discrete Diffusion Model for Controllable
Layout Generation, CVPR 2023 N Inoue et al., Towards Flexible Multi-modal Document Models, CVPR 2023 ࠷ۙͷऔΓΈ 02
LayoutDM[Ҫ্+] ɿϨΠΞτੜ • ࢄ֦ࢄϞσϧʹΑΔϨΠΞτੜ
ϨΠΞτͷͨΊͷϚϧνϞʔμϧࢄදݱ • (type, left, top, width, height)ͷܥྻσʔλΛϞμϦςΟຖʹಠཱͯ͠ࢄදݱ • D3PM[J Austin
21]ʹΑΔࢄ֦ࢄੜϞσϧͷద༻
֤छϨΠΞτੜλεΫ
FlexDM[Ҫ্+] : σβΠφʔͷฤूఔͷϞσϦϯά • ଟछଟ༷ͳϚϧνϞʔμϧɾϚϧνλεΫॲཧΛ͢ΔΤϯίʔμϞσϧ FlexDM Layout generation Texts filling
Font & color styling Images filling Element filling … type: Text pos: (150, 30) size: (200, 90) text: Happy\nHolidays! image: font: color: Arial (210,220,100) - [MASK] [MASK] [NULL] type: Text pos: (150, 30) size: (200, 90) text: Happy\nHolidays! image: font: color: …
ϚεΫ͖ΦʔτΤϯίʔμͷϚϧνλεΫ׆༻ • ϚϧνϞʔμϧͳBERTతͳϞσϧ→ϚεΫΓସ͑Ͱଟ༷ͳλεΫॲཧ Design tasks = = Masking patterns Font
& color prediction Element filling BEST IN TOWN! CAR WASH Full service Type Position Img-emb. Text-emb. Color / font context [NULL] [MASK] 1 2 3 4 5 1 2 3 4 5 Type Position Img-emb. Text-emb. Color / font context [NULL] [MASK] 1 2 3 4 5 1 2 3 4 5
ग़ྗྫ Output Input Output Input Output Input ATTR prediction TXT
prediction IMG prediction POS prediction Element filling Output Input Output (bbox.) Output (img.) Output (bbox.) Output (img.)
άϥϑΟοΫσβΠϯͱϚϧνϞʔμϧॲཧ • άϥϑΟοΫσβΠϯը૾ɺจࣈɺزԿ ஔɺελΠϦϯάଐੑͳͲϚϧνϞʔμ ϧߏσʔλ • γʔέϯεߏͷ׆༻Ͱ֤छλεΫͷఆࣜ Խ͕Մೳʹ