Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
SSII2023 [OS1] グラフィックデザインとマルチモーダル処理
Search
画像センシングシンポジウム
PRO
June 14, 2023
Science
0
670
SSII2023 [OS1] グラフィックデザインとマルチモーダル処理
⼭⼝光太(CyberAgent)
画像センシングシンポジウム
PRO
June 14, 2023
Tweet
Share
More Decks by 画像センシングシンポジウム
See All by 画像センシングシンポジウム
SSII2025 [OS3] どの論文でもダメなんだけど! 〜実応用とその課題〜
ssii
PRO
2
1.2k
SSII2025 [OS3-01] End-to-End自動運転の実応用の現場から
ssii
PRO
6
2.7k
SSII2025 [OS3-02] 広告における画像生成技術の実応用の現状
ssii
PRO
5
1.3k
SSII2025 [OS3-03] 有機ミニトマト農場におけるロボット開発と基礎研究
ssii
PRO
0
1k
SSII2025 [OS2-01] 自動運転の性能と共に進化するセンシングデバイス
ssii
PRO
2
1.9k
SSII2025 [TS3] 医工連携における画像情報学研究
ssii
PRO
2
1.3k
SSII2025 [OS2] 新たなセンシングの潮流
ssii
PRO
1
590
SSII2025 [OS2-02] イベントカメラの研究紹介と可視光通信への応用
ssii
PRO
1
1k
SSII2025 [OS2-03] マルチ/ハイパースペクトル領域における高度な画像撮影および処理技術
ssii
PRO
2
1.1k
Other Decks in Science
See All in Science
地質研究者が苦労しながら運用する情報公開システムの実例
naito2000
0
250
データベース03: 関係データモデル
trycycle
PRO
1
250
Quelles valorisations des logiciels vers le monde socio-économique dans un contexte de Science Ouverte ?
bluehats
1
470
動的トリートメント・レジームを推定するDynTxRegimeパッケージ
saltcooky12
0
180
NASの容量不足のお悩み解決!災害対策も兼ねた「Wasabi Cloud NAS」はここがスゴイ
climbteam
0
120
AIに仕事を奪われる 最初の医師たちへ
ikora128
0
950
データから見る勝敗の法則 / The principle of victory discovered by science (open lecture in NSSU)
konakalab
1
130
KH Coderチュートリアル(スライド版)
koichih
1
45k
データマイニング - グラフデータと経路
trycycle
PRO
1
210
05_山中真也_室蘭工業大学大学院工学研究科教授_だてプロの挑戦.pdf
sip3ristex
0
620
データベース02: データベースの概念
trycycle
PRO
2
890
生成検索エンジン最適化に関する研究の紹介
ynakano
2
1.3k
Featured
See All Featured
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Mobile First: as difficult as doing things right
swwweet
224
9.9k
Gamification - CAS2011
davidbonilla
81
5.4k
Fireside Chat
paigeccino
39
3.6k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
570
Testing 201, or: Great Expectations
jmmastey
45
7.6k
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
A better future with KSS
kneath
239
17k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
48
9.7k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
53k
StorybookのUI Testing Handbookを読んだ
zakiyama
30
6.1k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
23
1.4k
Transcript
グラフィックデザインと マルチモーダル処理 2023.6.14 ⼭⼝ 光太(CyberAgent)
CyberAgent AI Lab • ػցֶश • ίϯϐϡʔλϏδϣϯ • ίϯϐϡʔλάϥϑΟοΫε •
ࣗવݴޠॲཧ • Ի৴߸ॲཧ • HCI / ϩϘοτ • ܭྔܦࡁֶ
ΞδΣϯμ 1. άϥϑΟοΫσβΠϯͷϞμϦςΟ 2. ࠷ۙͷऔΓΈ
άϥϑΟοΫσβΠϯͷϞμϦςΟ 01
άϥϑΟοΫσβΠϯ • εϥΠυγϣʔɺιʔγϟϧϝσΟΞߘɺϙελʔɺ ಈըࠂɺWebϖʔδ
άϥϑΟοΫσβΠϯ͍ΘΏΔը૾Ͱͳ͍ ϕΫλάϥϑΟοΫ ϥελը૾ Rendering σβΠφʔͷѻ͏ͷ σΟεϓϨΠʹөΔͷ
ϥελը૾ • JPEG, PNG, WebP • ݻఆղ૾ϐΫηϧɺυοτֆ • ͍ΘΏΔը૾ ϕΫλάϥϑΟοΫ
• PDF, PPTX, Photoshop • ղ૾ඇґଘͷඳըࢦࣔ • ͍ΘΏΔυΩϡϝϯτ ϥελܗࣜͱϕΫλܗࣜ Typography Typography Typography
ۀάϥϑΟοΫσβΠϯͷཁૉ • ͨ͘͞ΜͷϞμϦςΟɺςʔϒϧσʔλʹ͍ۙ ίϐʔ ணϖʔδ Ωϟϯϖʔϯ άϥϑΟοΫ ϓϥοτϑΥʔϜ දࣔσόΠε ίϯςϯπ
ίϯςΩετ ഔମ *1 ௌऺ
ϕΫλάϥϑΟοΫͷσʔλߏ Canvas Image Text Text Text Text Canvas Image Text
Text Text Text υΩϡϝϯτ , Ωϟϯόε ϨΠϠʔ Width, Height, Category, … Type, Position, Size, Appearance, Text, Pixels, …
ϨΠΞτੜ • ϨΠΞτ(type, left, top, width, height)ͷϨΠϠʔλϓϧͷܥྻ • ϨΠΞτੜϚϧνϞʔμϧͳܥྻੜʹؼண t1
x1 y1 w1 h1 t2 x2 y2 w2 h2 … Layer 1 Layer 2 Generator Canvas Layer 1 Layer 2
ςΩετͷٯϨϯμϦϯά • ϚϧνλεΫɾϚϧνϞʔμϧͳ༧ଌ Resolution: [1699, 1280] Location: [247, 1130, 748,
1280] Text: "WANT" Font: Barlow Semi Condensed ExtraBold Fill: RGB: [44, 34, 41] Border: Visible: True RGB: [217, 91, 97] Width: 2 Shadow: Visible: False Background: <pixels> ٯϨϯμϦϯά
N Inoue et al., LayoutDM: Discrete Diffusion Model for Controllable
Layout Generation, CVPR 2023 N Inoue et al., Towards Flexible Multi-modal Document Models, CVPR 2023 ࠷ۙͷऔΓΈ 02
LayoutDM[Ҫ্+] ɿϨΠΞτੜ • ࢄ֦ࢄϞσϧʹΑΔϨΠΞτੜ
ϨΠΞτͷͨΊͷϚϧνϞʔμϧࢄදݱ • (type, left, top, width, height)ͷܥྻσʔλΛϞμϦςΟຖʹಠཱͯ͠ࢄදݱ • D3PM[J Austin
21]ʹΑΔࢄ֦ࢄੜϞσϧͷద༻
֤छϨΠΞτੜλεΫ
FlexDM[Ҫ্+] : σβΠφʔͷฤूఔͷϞσϦϯά • ଟछଟ༷ͳϚϧνϞʔμϧɾϚϧνλεΫॲཧΛ͢ΔΤϯίʔμϞσϧ FlexDM Layout generation Texts filling
Font & color styling Images filling Element filling … type: Text pos: (150, 30) size: (200, 90) text: Happy\nHolidays! image: font: color: Arial (210,220,100) - [MASK] [MASK] [NULL] type: Text pos: (150, 30) size: (200, 90) text: Happy\nHolidays! image: font: color: …
ϚεΫ͖ΦʔτΤϯίʔμͷϚϧνλεΫ׆༻ • ϚϧνϞʔμϧͳBERTతͳϞσϧ→ϚεΫΓସ͑Ͱଟ༷ͳλεΫॲཧ Design tasks = = Masking patterns Font
& color prediction Element filling BEST IN TOWN! CAR WASH Full service Type Position Img-emb. Text-emb. Color / font context [NULL] [MASK] 1 2 3 4 5 1 2 3 4 5 Type Position Img-emb. Text-emb. Color / font context [NULL] [MASK] 1 2 3 4 5 1 2 3 4 5
ग़ྗྫ Output Input Output Input Output Input ATTR prediction TXT
prediction IMG prediction POS prediction Element filling Output Input Output (bbox.) Output (img.) Output (bbox.) Output (img.)
άϥϑΟοΫσβΠϯͱϚϧνϞʔμϧॲཧ • άϥϑΟοΫσβΠϯը૾ɺจࣈɺزԿ ஔɺελΠϦϯάଐੑͳͲϚϧνϞʔμ ϧߏσʔλ • γʔέϯεߏͷ׆༻Ͱ֤छλεΫͷఆࣜ Խ͕Մೳʹ