Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Generative Adversarial Text to Image Synthesis@...
Search
Dwango Media Village
July 21, 2016
Research
0
380
Generative Adversarial Text to Image Synthesis@ICML2016読み会
ICML2016読み会の資料です。
Dwango Media Village
July 21, 2016
Tweet
Share
More Decks by Dwango Media Village
See All by Dwango Media Village
Siggraph Asia 2018 論文紹介(Two-stage Sketch Colorization)
dwangomediavillage
1
910
[DL輪読会] Efficient Neural Audio Synthesis
dwangomediavillage
0
350
タグ情報とコメント密度を用いた画像サムネイル推薦システム
dwangomediavillage
0
850
SIGGRAPH Asia 2017 論文とか紹介
dwangomediavillage
0
270
CVPR2017読み会
dwangomediavillage
1
180
Blending Texture Features from Multiple Reference Images for Style Transfer - SIGGRAPH ASIA 2016 Technical Brief
dwangomediavillage
1
1.9k
Other Decks in Research
See All in Research
2025年度人工知能学会全国大会チュートリアル講演「深層基盤モデルの数理」
taiji_suzuki
24
17k
データサイエンティストの採用に関するアンケート
datascientistsociety
PRO
0
1.1k
一人称視点映像解析の最先端(MIRU2025 チュートリアル)
takumayagi
5
2.8k
2025/7/5 応用音響研究会招待講演@北海道大学
takuma_okamoto
1
150
「どう育てるか」より「どう働きたいか」〜スクラムマスターの最初の一歩〜
hirakawa51
0
460
90 分で学ぶ P 対 NP 問題
e869120
19
7.8k
Combinatorial Search with Generators
kei18
0
490
Adaptive fusion of multi-modal remote sensing data for optimal sub-field crop yield prediction
satai
3
230
Adaptive Experimental Design for Efficient Average Treatment Effect Estimation and Treatment Choice
masakat0
0
150
なめらかなシステムと運用維持の終わらぬ未来 / dicomo2025_coherently_fittable_system
monochromegane
0
1.5k
大規模な2値整数計画問題に対する 効率的な重み付き局所探索法
mickey_kubo
1
310
データxデジタルマップで拓く ミラノ発・地域共創最前線
mapconcierge4agu
0
200
Featured
See All Featured
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
47
9.6k
Making Projects Easy
brettharned
117
6.3k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.4k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
18
1k
GitHub's CSS Performance
jonrohan
1031
460k
The Language of Interfaces
destraynor
158
25k
Side Projects
sachag
455
43k
Designing Experiences People Love
moore
142
24k
jQuery: Nuts, Bolts and Bling
dougneiner
63
7.8k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
229
22k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
283
13k
Transcript
Genera&ve Adversarial Text to Image Synthesis Reed, S., Akata, Z.,
Yan, X., Logeswaran, L., Schiele, B., & Lee, H. (2016). ICML2016読み会 廣芝 和之 1
自己紹介 • 廣芝和之 • ドワンゴ新卒 • 大阪大学:大澤研究室 – ネコの脳の視覚野を研究 •
奈良先端大学院:塩坂研究室 – マウスの脳の海馬を研究 @hiho_karuta 2
紹介する論文 Genera&ve Adversarial Text to Image Synthesis Reed, S., Akata,
Z., Yan, X., Logeswaran, L., Schiele, B., & Lee, H. (2016). GANのアーキテクチャを応用して 文章から画像を生成するアーキテクチャを考案した 3
背景:文章から画像生成する過去手法 • 文章から、鮮明な画像を生成す ることは難しい • GANは鮮明な画像を生成できる • GANを応用して文章からより鮮 明な画像を生成する 4
Elman Mansimov et al., ICLR 2016.
背景:Genera&ve Adversarial Networks(GAN) 判別器が本物の画像と判断するような 画像を乱数列から生成する 生成された画像と本物の画像を 正しく判別する 本物のような画像を生成できるようになる 学習が進行すると・・・ 判別器
生成画像 本物画像 本物 or NOT 5 入力ベクトル 生成器 生成画像 VS
背景:GANを用いた画像生成例 使用例(顔イラスト画像) @maTya1089, 2015 使用例(寝室) Alec Radford et al., 2015 入力する入力ベクトルを変えれば 生成される画像が変わる
6 入力ベクトル 生成器 生成画像
紹介する論文の貢献 • 文章から鮮明な画像を生成する手法を提案 • 文章以外の情報の表現を吸収する手法を提案 • 性能を向上する手法を2種類提案 • 文章以外の情報を転写する手法を提案 7
提案手法: テキストから画像を生成するアーキテクチャ 8 入力ベクトル 生成器 生成画像 判別器 生成画像 本物画像 本物
or NOT
提案手法: テキストから画像を生成するアーキテクチャ φ:text encoder、char-CNN-RNN(Reed et al., CVPR 2016) ↑本論文の著者 画像にはテキスト情報と非テキスト情報がある。
テキストembeddingsにベクトルzを結合して、テキストに含まれない画像の表現も獲得する 9
課題:文章に無関係な画像が生成される? • 従来のGANの判別器 画像が本物か生成されたものか判別する – D(本物画像) → ◦ – D(生成画像) → × – 生成器は本物に近い画像を生成するように学習する
• 今回のGANに従来の判別器を用いた場合・・・ – 文章の情報を用いない – 生成器は文章内容に関係のない画像を生成するように学習する 10
提案手法:マッチング判別器 • マッチング判別器を提案 画像とテキストの組み合わせが正しいかを判別する – D(本物画像、正しい文章) → ◦ – D(生成画像、正しい文章) → × – D(本物画像、間違った文章) → ×
– 生成器は文章にマッチする画像の生成を学習する 11
課題:入力データセット数を増やしたい • (課題というよりも、試してみた?) • 既存のデータセットから 新しいデータセットを作ることはできるか 12
提案手法:補間データも学習に使用 • embeddingsの補間データの表象はデータ多様体に近い傾向 がある(Bengio et al., 2013; Reed et al.,
2014) • 訓練テキストデータembeddingsの補間データも訓練に利用 – Gの目的関数を下式に変更 Gに入力する テキストembedding (β=0.5で十分な成果) テキストembedding 13
実験手法 • テキストと画像のデータセットを用いて提案した ネットワークをトレーニング • テキストを入力して画像を生成する • 2種類の学習テクニックを組み合わせて性能を比較 – マッチング判別器
– 補間データ使用 14
実験:パラメータなど • 画像:64×64×3次元 • テキストエンコーダ – char-CNN-RNN:出力は1024次元 – 全結合+Leaky ReLU、出力は128次元
• ノイズz:100次元 • normal deconvolu&onal network • stride-2 convolu&on+バッチ正規化 15
実験:画像とテキストのデータセット • CUB – 200種類のカテゴリ – 11788の鳥画像 • Oxford-102 –
102のカテゴリ – 8189の花画像 各画像に対して5つの説明テキスト (著者らが付けた?) this bird has wings that are black and has a yellow crown 013.Bobolink 16
実験:学習テクニックの効果の比較 提案手法 マッチング判別器 補間データ使用 マッチング判別器 補間データ使用 入力テキスト: an all black
bird with a dis&nct thick, rounded bill (真っ黒で太くて丸いくちばしを持つ鳥) 考察 • 上2つは色の情報は正しかったが 画像がリアルではない • 補間データを用いると テキストに合う もっともらしい画像が得られた 17
実験:テキストembeddingを補間して画像生成 • 2つのテキストから 2つのembeddingを得る • テキストembedding(右図青)の 補間を入力して画像を生成する • なめらかに画像が変化した •
つまりテキストembeddingは連続 した空間に埋め込まれている 18
課題:文章に含まれない画像情報(スタイル) • 文章に含まれる画像情報 – 黒い羽で黄色い頭頂の鳥 • 文章に含まれない画像情報 – 背景が緑、左を向いている、など –
著者らはスタイルと呼んでいる • 入力ベクトルのうち、 – 文章情報はテキストembedding – スタイル情報はzが獲得する this bird has wings that are black and has a yellow crown 19
課題:スタイルは転写可能か この画像の スタイル (背景が青色) 「白い腹で頭は赤の鳥」 + 20 生 成 器 「白い腹で頭は赤の鳥」
(背景が青色)
提案手法:画像からスタイルを抽出 • スタイルzと画像のデータセットが必要 – ランダムなスタイルzとテキストφ(t)から画像を生成してデータセットを用意 • 生成した画像からzに写像するスタイルエンコーダSを学習(損失関数は下式) • Sは2層の全結合ネットワーク スタイルz
テキストφ(t) 画像 生成器G スタイルエンコーダS 21
提案手法、実験:スタイルの転写 スタイルエンコーダS スタイルz 生 成 器 G 22
スタイルを補間して画像生成 • 2つのスタイルを選ぶ • テキストは固定、スタイルの 補間を入力して画像を生成する • なめらかにスタイルが変化した • つまりスタイルは連続した空間に
埋め込まれている 23
触ってみた • 著者らの実装がGithubにある – hTps://github.com/reedscot/icml2016 – 言語:Lua – 機械学習フレームワーク:Torch –
トレーニング済みネットワークが配布されている 24
データセットにないテキストを入力した時 • 目的 – 生成される画像が構造を持つのか確認したい • 方法、結果 – テキスト:the completely
red cat • 考察 – 猫は鳥だった? – 猫は知らない単語として、似たテキストの学習時の画像を参考に出力された? 25
実際にいない鳥を入力した時 • 目的 – 論文の入力テキストは該当する鳥がデータセットにある – 実在する鳥のパーツを組み合わせることはできるか確認したい • 方法、結果 –
テキスト:the blue bird with green wings • 考察 – パーツを組み合わせる能力は無い? 26 green wings
発表のまとめ • GANのアーキテクチャから発展させ、 文章から画像を生成するアーキテクチャを考案した – 性能を向上する手法も2種類提案 • 補間テキストembedingsも用いると性能が向上 – 文章以外の情報(スタイル)を転写する手法も提案
• 追試を行った – パーツごとに指定すると想定した画像は生成されなかった 27
CUBでの画像生成例 28 提案手法 マッチング判別器 補間データ使用 マッチング判別器 補間データ使用
Oxfordでの画像生成例 29 提案手法 マッチング判別器 補間データ使用 マッチング判別器 補間データ使用
背景:生成画像をなめらかに変化させる 乱数列A 乱数列B (A+B)/2 ・・・ ・・・ 生成器 入力する乱数列を徐々に変化させると、 生成される画像も徐々に変化する 30
テキストエンコード this bird has wings that are black and has
a yellow crown 013.Bobolink N : データセットの組数 y : ラベル v : 画像 t : テキスト Δ : 損失関数 f : 分類関数 φ : 画像エンコーダ : テキストエンコーダ T(y) : yのテキスト V(y) : yの画像 Reed, ScoT, et al. "Learning Deep Representa&ons of Fine-Grained Visual Descrip&ons. " (CVPR 2016). 31
char-CNN-RNN Reed, ScoT, et al. "Learning Deep Representa&ons of Fine-Grained
Visual Descrip&ons." (CVPR 2016). 32
実験:スタイルエンコーダSの性能評価 • 目的:スタイルエンコーダSで抽出したスタイルが筆者らの想定したスタイル(背 景など)と相関があるか調べたい • 全画像N枚の背景画素値を求める – 画像内のピクセル値の平均RGB • 求めた背景画素値でk-meansを用いて全画像を100クラスに分類
• 全画像N枚からスタイルエンコーダを用いてスタイルzを抽出 • 各画像のスタイルのコサイン類似度を計算 • ROC曲線を描いて評価 33
実験:スタイルエンコーダSの性能評価 34