Generative Adversarial Text to Image Synthesis@ICML2016読み会

Generative Adversarial Text to Image Synthesis@ICML2016読み会

ICML2016読み会の資料です。

830aad2f9b1bff6485ccde5accb63bd8?s=128

Dwango Media Village

July 21, 2016
Tweet

Transcript

  1. 1.

    Genera&ve Adversarial Text to Image Synthesis Reed, S., Akata, Z.,

    Yan, X., Logeswaran, L., Schiele, B., & Lee, H. (2016). ICML2016読み会 廣芝 和之 1
  2. 2.

    自己紹介 •  廣芝和之 •  ドワンゴ新卒 •  大阪大学:大澤研究室 –  ネコの脳の視覚野を研究 • 

    奈良先端大学院:塩坂研究室 –  マウスの脳の海馬を研究 @hiho_karuta 2
  3. 3.

    紹介する論文 Genera&ve Adversarial Text to Image Synthesis Reed, S., Akata,

    Z., Yan, X., Logeswaran, L., Schiele, B., & Lee, H. (2016). GANのアーキテクチャを応用して 文章から画像を生成するアーキテクチャを考案した 3
  4. 10.

    課題:文章に無関係な画像が生成される? •  従来のGANの判別器 画像が本物か生成されたものか判別する –  D(本物画像) → ◦ –  D(生成画像) → × –  生成器は本物に近い画像を生成するように学習する

    •  今回のGANに従来の判別器を用いた場合・・・ –  文章の情報を用いない –  生成器は文章内容に関係のない画像を生成するように学習する 10
  5. 13.

    提案手法:補間データも学習に使用 •  embeddingsの補間データの表象はデータ多様体に近い傾向 がある(Bengio et al., 2013; Reed et al.,

    2014) •  訓練テキストデータembeddingsの補間データも訓練に利用 –  Gの目的関数を下式に変更 Gに入力する テキストembedding (β=0.5で十分な成果) テキストembedding 13
  6. 16.

    実験:画像とテキストのデータセット •  CUB –  200種類のカテゴリ –  11788の鳥画像 •  Oxford-102 – 

    102のカテゴリ –  8189の花画像 各画像に対して5つの説明テキスト (著者らが付けた?) this bird has wings that are black and has a yellow crown 013.Bobolink 16
  7. 17.

    実験:学習テクニックの効果の比較 提案手法 マッチング判別器 補間データ使用 マッチング判別器 補間データ使用 入力テキスト: an all black

    bird with a dis&nct thick, rounded bill (真っ黒で太くて丸いくちばしを持つ鳥) 考察 •  上2つは色の情報は正しかったが 画像がリアルではない •  補間データを用いると テキストに合う もっともらしい画像が得られた 17
  8. 19.

    課題:文章に含まれない画像情報(スタイル) •  文章に含まれる画像情報 –  黒い羽で黄色い頭頂の鳥 •  文章に含まれない画像情報 –  背景が緑、左を向いている、など – 

    著者らはスタイルと呼んでいる •  入力ベクトルのうち、 –  文章情報はテキストembedding –  スタイル情報はzが獲得する this bird has wings that are black and has a yellow crown 19
  9. 25.

    データセットにないテキストを入力した時 •  目的 –  生成される画像が構造を持つのか確認したい •  方法、結果 –  テキスト:the completely

    red cat •  考察 –  猫は鳥だった? –  猫は知らない単語として、似たテキストの学習時の画像を参考に出力された? 25
  10. 31.

    テキストエンコード this bird has wings that are black and has

    a yellow crown 013.Bobolink N : データセットの組数 y : ラベル v : 画像 t : テキスト Δ : 損失関数 f : 分類関数 φ : 画像エンコーダ   : テキストエンコーダ T(y) : yのテキスト V(y) : yの画像 Reed, ScoT, et al. "Learning Deep Representa&ons of Fine-Grained Visual Descrip&ons. " (CVPR 2016). 31