Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SSII2023 [OS1] グラフィックデザインとマルチモーダル処理
Search
画像センシングシンポジウム
PRO
June 14, 2023
Science
0
380
SSII2023 [OS1] グラフィックデザインとマルチモーダル処理
⼭⼝光太(CyberAgent)
画像センシングシンポジウム
PRO
June 14, 2023
Tweet
Share
More Decks by 画像センシングシンポジウム
See All by 画像センシングシンポジウム
SSII2023 [SS1] 拡散モデルの基礎とその応用 ~Diffusion Models入門~
ssii
PRO
12
9.2k
SSII2023 [OS3] マルチエージェント経路計画の基礎と最新動向
ssii
PRO
4
6.1k
SSII2023 [OS3] 三次元データを用いた学習技術 ~ロボット応用にむけて~
ssii
PRO
2
380
SSII2023 [OS3] 経験拡張:ロボット学習における仮想経験の⽣成と応⽤
ssii
PRO
0
500
SSII2023 [OS3] ロボット分野のCV技術
ssii
PRO
0
260
SSII2023 [SS2] イベントカメラを用いた計算撮像
ssii
PRO
1
1.1k
SSII2023 [TS1] Vision Transformerの歩みとこれから
ssii
PRO
5
2.6k
SSII2023 [TS2] 機械学習と公平性
ssii
PRO
2
320
SSII2023 [OS1] マルチモーダル情報処理の最前線
ssii
PRO
0
480
Other Decks in Science
See All in Science
研究・教育・産学連携の循環の実践
sshimizu2006
0
230
Ph.D. defense "Convex Manifold Approximation for Tensors"
gkazunii
0
180
Machine Learning for Materials (Lecture 5)
aronwalsh
0
560
2023-10-03-FOGBoston
lcolladotor
0
170
Cross-Media Information Spaces and Architectures (CISA)
signer
PRO
3
25k
拡散モデルの概要 −§1. 拡散モデルで使われる確率微分⽅程式について−
nearme_tech
0
100
qeMLパッケージの紹介
bob3bob3
0
980
Machine Learning for Materials (Lecture 8)
aronwalsh
0
320
勉強会資料 / “Asymptotic Statistics” Section 3.1
asymptotic_minato
0
120
Machine Learning for Materials (Lecture 2)
aronwalsh
0
590
Презентация программы бакалавриата СПбГУ "Искусственный интеллект и наука о данных"
dscs
0
120
ultraArmをモニター提供してもらった話
miura55
0
120
Featured
See All Featured
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
21
1.9k
Fantastic passwords and where to find them - at NoRuKo
philnash
38
2.5k
Scaling GitHub
holman
457
140k
GraphQLとの向き合い方2022年版
quramy
33
12k
How STYLIGHT went responsive
nonsquared
92
4.8k
Principles of Awesome APIs and How to Build Them.
keavy
121
16k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
79
43k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
20
1.7k
Building Adaptive Systems
keathley
32
1.9k
The World Runs on Bad Software
bkeepers
PRO
61
6.7k
Practical Orchestrator
shlominoach
183
9.7k
Reflections from 52 weeks, 52 projects
jeffersonlam
345
19k
Transcript
グラフィックデザインと マルチモーダル処理 2023.6.14 ⼭⼝ 光太(CyberAgent)
CyberAgent AI Lab • ػցֶश • ίϯϐϡʔλϏδϣϯ • ίϯϐϡʔλάϥϑΟοΫε •
ࣗવݴޠॲཧ • Ի৴߸ॲཧ • HCI / ϩϘοτ • ܭྔܦࡁֶ
ΞδΣϯμ 1. άϥϑΟοΫσβΠϯͷϞμϦςΟ 2. ࠷ۙͷऔΓΈ
άϥϑΟοΫσβΠϯͷϞμϦςΟ 01
άϥϑΟοΫσβΠϯ • εϥΠυγϣʔɺιʔγϟϧϝσΟΞߘɺϙελʔɺ ಈըࠂɺWebϖʔδ
άϥϑΟοΫσβΠϯ͍ΘΏΔը૾Ͱͳ͍ ϕΫλάϥϑΟοΫ ϥελը૾ Rendering σβΠφʔͷѻ͏ͷ σΟεϓϨΠʹөΔͷ
ϥελը૾ • JPEG, PNG, WebP • ݻఆղ૾ϐΫηϧɺυοτֆ • ͍ΘΏΔը૾ ϕΫλάϥϑΟοΫ
• PDF, PPTX, Photoshop • ղ૾ඇґଘͷඳըࢦࣔ • ͍ΘΏΔυΩϡϝϯτ ϥελܗࣜͱϕΫλܗࣜ Typography Typography Typography
ۀάϥϑΟοΫσβΠϯͷཁૉ • ͨ͘͞ΜͷϞμϦςΟɺςʔϒϧσʔλʹ͍ۙ ίϐʔ ணϖʔδ Ωϟϯϖʔϯ άϥϑΟοΫ ϓϥοτϑΥʔϜ දࣔσόΠε ίϯςϯπ
ίϯςΩετ ഔମ *1 ௌऺ
ϕΫλάϥϑΟοΫͷσʔλߏ Canvas Image Text Text Text Text Canvas Image Text
Text Text Text υΩϡϝϯτ , Ωϟϯόε ϨΠϠʔ Width, Height, Category, … Type, Position, Size, Appearance, Text, Pixels, …
ϨΠΞτੜ • ϨΠΞτ(type, left, top, width, height)ͷϨΠϠʔλϓϧͷܥྻ • ϨΠΞτੜϚϧνϞʔμϧͳܥྻੜʹؼண t1
x1 y1 w1 h1 t2 x2 y2 w2 h2 … Layer 1 Layer 2 Generator Canvas Layer 1 Layer 2
ςΩετͷٯϨϯμϦϯά • ϚϧνλεΫɾϚϧνϞʔμϧͳ༧ଌ Resolution: [1699, 1280] Location: [247, 1130, 748,
1280] Text: "WANT" Font: Barlow Semi Condensed ExtraBold Fill: RGB: [44, 34, 41] Border: Visible: True RGB: [217, 91, 97] Width: 2 Shadow: Visible: False Background: <pixels> ٯϨϯμϦϯά
N Inoue et al., LayoutDM: Discrete Diffusion Model for Controllable
Layout Generation, CVPR 2023 N Inoue et al., Towards Flexible Multi-modal Document Models, CVPR 2023 ࠷ۙͷऔΓΈ 02
LayoutDM[Ҫ্+] ɿϨΠΞτੜ • ࢄ֦ࢄϞσϧʹΑΔϨΠΞτੜ
ϨΠΞτͷͨΊͷϚϧνϞʔμϧࢄදݱ • (type, left, top, width, height)ͷܥྻσʔλΛϞμϦςΟຖʹಠཱͯ͠ࢄදݱ • D3PM[J Austin
21]ʹΑΔࢄ֦ࢄੜϞσϧͷద༻
֤छϨΠΞτੜλεΫ
FlexDM[Ҫ্+] : σβΠφʔͷฤूఔͷϞσϦϯά • ଟछଟ༷ͳϚϧνϞʔμϧɾϚϧνλεΫॲཧΛ͢ΔΤϯίʔμϞσϧ FlexDM Layout generation Texts filling
Font & color styling Images filling Element filling … type: Text pos: (150, 30) size: (200, 90) text: Happy\nHolidays! image: font: color: Arial (210,220,100) - [MASK] [MASK] [NULL] type: Text pos: (150, 30) size: (200, 90) text: Happy\nHolidays! image: font: color: …
ϚεΫ͖ΦʔτΤϯίʔμͷϚϧνλεΫ׆༻ • ϚϧνϞʔμϧͳBERTతͳϞσϧ→ϚεΫΓସ͑Ͱଟ༷ͳλεΫॲཧ Design tasks = = Masking patterns Font
& color prediction Element filling BEST IN TOWN! CAR WASH Full service Type Position Img-emb. Text-emb. Color / font context [NULL] [MASK] 1 2 3 4 5 1 2 3 4 5 Type Position Img-emb. Text-emb. Color / font context [NULL] [MASK] 1 2 3 4 5 1 2 3 4 5
ग़ྗྫ Output Input Output Input Output Input ATTR prediction TXT
prediction IMG prediction POS prediction Element filling Output Input Output (bbox.) Output (img.) Output (bbox.) Output (img.)
άϥϑΟοΫσβΠϯͱϚϧνϞʔμϧॲཧ • άϥϑΟοΫσβΠϯը૾ɺจࣈɺزԿ ஔɺελΠϦϯάଐੑͳͲϚϧνϞʔμ ϧߏσʔλ • γʔέϯεߏͷ׆༻Ͱ֤छλεΫͷఆࣜ Խ͕Մೳʹ