Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SSII2023 [OS1] グラフィックデザインとマルチモーダル処理
Search
画像センシングシンポジウム
PRO
June 14, 2023
Science
0
650
SSII2023 [OS1] グラフィックデザインとマルチモーダル処理
⼭⼝光太(CyberAgent)
画像センシングシンポジウム
PRO
June 14, 2023
Tweet
Share
More Decks by 画像センシングシンポジウム
See All by 画像センシングシンポジウム
SSII2025 [OS3] どの論文でもダメなんだけど! 〜実応用とその課題〜
ssii
PRO
2
1.1k
SSII2025 [OS3-01] End-to-End自動運転の実応用の現場から
ssii
PRO
6
2.4k
SSII2025 [OS3-02] 広告における画像生成技術の実応用の現状
ssii
PRO
5
1.2k
SSII2025 [OS3-03] 有機ミニトマト農場におけるロボット開発と基礎研究
ssii
PRO
0
950
SSII2025 [OS2-01] 自動運転の性能と共に進化するセンシングデバイス
ssii
PRO
2
1.8k
SSII2025 [TS3] 医工連携における画像情報学研究
ssii
PRO
2
1.2k
SSII2025 [OS2] 新たなセンシングの潮流
ssii
PRO
1
540
SSII2025 [OS2-02] イベントカメラの研究紹介と可視光通信への応用
ssii
PRO
1
900
SSII2025 [OS2-03] マルチ/ハイパースペクトル領域における高度な画像撮影および処理技術
ssii
PRO
2
930
Other Decks in Science
See All in Science
安心・効率的な医療現場の実現へ ~オンプレAI & ノーコードワークフローで進める業務改革~
siyoo
0
250
Valuable Lessons Learned on Kaggle’s ARC AGI LLM Challenge (PyDataGlobal 2024)
ianozsvald
0
390
mathematics of indirect reciprocity
yohm
1
150
地質研究者が苦労しながら運用する情報公開システムの実例
naito2000
0
220
統計的因果探索: 背景知識とデータにより因果仮説を探索する
sshimizu2006
4
930
MoveItを使った産業用ロボット向け動作作成方法の紹介 / Introduction to creating motion for industrial robots using MoveIt
ry0_ka
0
500
生成AIと学ぶPythonデータ分析再入門-Pythonによるクラスタリング・可視化をサクサク実施-
datascientistsociety
PRO
4
1.6k
01_篠原弘道_SIPガバニングボード座長_ポスコロSIPへの期待.pdf
sip3ristex
0
540
機械学習 - DBSCAN
trycycle
PRO
0
920
ウェブ・ソーシャルメディア論文読み会 第25回: Differences in misinformation sharing can lead to politically asymmetric sanctions (Nature, 2024)
hkefka385
0
110
データベース11: 正規化(1/2) - 望ましくない関係スキーマ
trycycle
PRO
0
670
機械学習 - SVM
trycycle
PRO
1
850
Featured
See All Featured
The World Runs on Bad Software
bkeepers
PRO
69
11k
4 Signs Your Business is Dying
shpigford
184
22k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
48
5.4k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
161
15k
Become a Pro
speakerdeck
PRO
28
5.4k
Building Applications with DynamoDB
mza
95
6.5k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
20
1.3k
Adopting Sorbet at Scale
ufuk
77
9.4k
Faster Mobile Websites
deanohume
307
31k
What's in a price? How to price your products and services
michaelherold
246
12k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
29
1.8k
Agile that works and the tools we love
rasmusluckow
329
21k
Transcript
グラフィックデザインと マルチモーダル処理 2023.6.14 ⼭⼝ 光太(CyberAgent)
CyberAgent AI Lab • ػցֶश • ίϯϐϡʔλϏδϣϯ • ίϯϐϡʔλάϥϑΟοΫε •
ࣗવݴޠॲཧ • Ի৴߸ॲཧ • HCI / ϩϘοτ • ܭྔܦࡁֶ
ΞδΣϯμ 1. άϥϑΟοΫσβΠϯͷϞμϦςΟ 2. ࠷ۙͷऔΓΈ
άϥϑΟοΫσβΠϯͷϞμϦςΟ 01
άϥϑΟοΫσβΠϯ • εϥΠυγϣʔɺιʔγϟϧϝσΟΞߘɺϙελʔɺ ಈըࠂɺWebϖʔδ
άϥϑΟοΫσβΠϯ͍ΘΏΔը૾Ͱͳ͍ ϕΫλάϥϑΟοΫ ϥελը૾ Rendering σβΠφʔͷѻ͏ͷ σΟεϓϨΠʹөΔͷ
ϥελը૾ • JPEG, PNG, WebP • ݻఆղ૾ϐΫηϧɺυοτֆ • ͍ΘΏΔը૾ ϕΫλάϥϑΟοΫ
• PDF, PPTX, Photoshop • ղ૾ඇґଘͷඳըࢦࣔ • ͍ΘΏΔυΩϡϝϯτ ϥελܗࣜͱϕΫλܗࣜ Typography Typography Typography
ۀάϥϑΟοΫσβΠϯͷཁૉ • ͨ͘͞ΜͷϞμϦςΟɺςʔϒϧσʔλʹ͍ۙ ίϐʔ ணϖʔδ Ωϟϯϖʔϯ άϥϑΟοΫ ϓϥοτϑΥʔϜ දࣔσόΠε ίϯςϯπ
ίϯςΩετ ഔମ *1 ௌऺ
ϕΫλάϥϑΟοΫͷσʔλߏ Canvas Image Text Text Text Text Canvas Image Text
Text Text Text υΩϡϝϯτ , Ωϟϯόε ϨΠϠʔ Width, Height, Category, … Type, Position, Size, Appearance, Text, Pixels, …
ϨΠΞτੜ • ϨΠΞτ(type, left, top, width, height)ͷϨΠϠʔλϓϧͷܥྻ • ϨΠΞτੜϚϧνϞʔμϧͳܥྻੜʹؼண t1
x1 y1 w1 h1 t2 x2 y2 w2 h2 … Layer 1 Layer 2 Generator Canvas Layer 1 Layer 2
ςΩετͷٯϨϯμϦϯά • ϚϧνλεΫɾϚϧνϞʔμϧͳ༧ଌ Resolution: [1699, 1280] Location: [247, 1130, 748,
1280] Text: "WANT" Font: Barlow Semi Condensed ExtraBold Fill: RGB: [44, 34, 41] Border: Visible: True RGB: [217, 91, 97] Width: 2 Shadow: Visible: False Background: <pixels> ٯϨϯμϦϯά
N Inoue et al., LayoutDM: Discrete Diffusion Model for Controllable
Layout Generation, CVPR 2023 N Inoue et al., Towards Flexible Multi-modal Document Models, CVPR 2023 ࠷ۙͷऔΓΈ 02
LayoutDM[Ҫ্+] ɿϨΠΞτੜ • ࢄ֦ࢄϞσϧʹΑΔϨΠΞτੜ
ϨΠΞτͷͨΊͷϚϧνϞʔμϧࢄදݱ • (type, left, top, width, height)ͷܥྻσʔλΛϞμϦςΟຖʹಠཱͯ͠ࢄදݱ • D3PM[J Austin
21]ʹΑΔࢄ֦ࢄੜϞσϧͷద༻
֤छϨΠΞτੜλεΫ
FlexDM[Ҫ্+] : σβΠφʔͷฤूఔͷϞσϦϯά • ଟछଟ༷ͳϚϧνϞʔμϧɾϚϧνλεΫॲཧΛ͢ΔΤϯίʔμϞσϧ FlexDM Layout generation Texts filling
Font & color styling Images filling Element filling … type: Text pos: (150, 30) size: (200, 90) text: Happy\nHolidays! image: font: color: Arial (210,220,100) - [MASK] [MASK] [NULL] type: Text pos: (150, 30) size: (200, 90) text: Happy\nHolidays! image: font: color: …
ϚεΫ͖ΦʔτΤϯίʔμͷϚϧνλεΫ׆༻ • ϚϧνϞʔμϧͳBERTతͳϞσϧ→ϚεΫΓସ͑Ͱଟ༷ͳλεΫॲཧ Design tasks = = Masking patterns Font
& color prediction Element filling BEST IN TOWN! CAR WASH Full service Type Position Img-emb. Text-emb. Color / font context [NULL] [MASK] 1 2 3 4 5 1 2 3 4 5 Type Position Img-emb. Text-emb. Color / font context [NULL] [MASK] 1 2 3 4 5 1 2 3 4 5
ग़ྗྫ Output Input Output Input Output Input ATTR prediction TXT
prediction IMG prediction POS prediction Element filling Output Input Output (bbox.) Output (img.) Output (bbox.) Output (img.)
άϥϑΟοΫσβΠϯͱϚϧνϞʔμϧॲཧ • άϥϑΟοΫσβΠϯը૾ɺจࣈɺزԿ ஔɺελΠϦϯάଐੑͳͲϚϧνϞʔμ ϧߏσʔλ • γʔέϯεߏͷ׆༻Ͱ֤छλεΫͷఆࣜ Խ͕Մೳʹ