Generative Adversarial Text to Image Synthesis@ICML2016読み会

Generative Adversarial Text to Image Synthesis@ICML2016読み会

ICML2016読み会の資料です。

830aad2f9b1bff6485ccde5accb63bd8?s=128

Dwango Media Village

July 21, 2016
Tweet

Transcript

  1. Genera&ve Adversarial Text to Image Synthesis Reed, S., Akata, Z.,

    Yan, X., Logeswaran, L., Schiele, B., & Lee, H. (2016). ICML2016読み会 廣芝 和之 1
  2. 自己紹介 •  廣芝和之 •  ドワンゴ新卒 •  大阪大学:大澤研究室 –  ネコの脳の視覚野を研究 • 

    奈良先端大学院:塩坂研究室 –  マウスの脳の海馬を研究 @hiho_karuta 2
  3. 紹介する論文 Genera&ve Adversarial Text to Image Synthesis Reed, S., Akata,

    Z., Yan, X., Logeswaran, L., Schiele, B., & Lee, H. (2016). GANのアーキテクチャを応用して 文章から画像を生成するアーキテクチャを考案した 3
  4. 背景:文章から画像生成する過去手法 •  文章から、鮮明な画像を生成す ることは難しい •  GANは鮮明な画像を生成できる •  GANを応用して文章からより鮮 明な画像を生成する 4

    Elman Mansimov et al., ICLR 2016.
  5. 背景:Genera&ve Adversarial Networks(GAN) 判別器が本物の画像と判断するような 画像を乱数列から生成する 生成された画像と本物の画像を 正しく判別する 本物のような画像を生成できるようになる 学習が進行すると・・・ 判別器

    生成画像 本物画像 本物 or NOT 5 入力ベクトル 生成器 生成画像 VS
  6. 背景:GANを用いた画像生成例 使用例(顔イラスト画像) @maTya1089, 2015 使用例(寝室) Alec Radford et al., 2015 入力する入力ベクトルを変えれば 生成される画像が変わる

    6 入力ベクトル 生成器 生成画像
  7. 紹介する論文の貢献 •  文章から鮮明な画像を生成する手法を提案 •  文章以外の情報の表現を吸収する手法を提案 •  性能を向上する手法を2種類提案 •  文章以外の情報を転写する手法を提案 7

  8. 提案手法: テキストから画像を生成するアーキテクチャ 8 入力ベクトル 生成器 生成画像 判別器 生成画像 本物画像 本物

    or NOT
  9. 提案手法: テキストから画像を生成するアーキテクチャ φ:text encoder、char-CNN-RNN(Reed et al., CVPR 2016) ↑本論文の著者 画像にはテキスト情報と非テキスト情報がある。

    テキストembeddingsにベクトルzを結合して、テキストに含まれない画像の表現も獲得する 9
  10. 課題:文章に無関係な画像が生成される? •  従来のGANの判別器 画像が本物か生成されたものか判別する –  D(本物画像) → ◦ –  D(生成画像) → × –  生成器は本物に近い画像を生成するように学習する

    •  今回のGANに従来の判別器を用いた場合・・・ –  文章の情報を用いない –  生成器は文章内容に関係のない画像を生成するように学習する 10
  11. 提案手法:マッチング判別器 •  マッチング判別器を提案 画像とテキストの組み合わせが正しいかを判別する –  D(本物画像、正しい文章) → ◦ –  D(生成画像、正しい文章) → × –  D(本物画像、間違った文章) → ×

    –  生成器は文章にマッチする画像の生成を学習する 11
  12. 課題:入力データセット数を増やしたい •  (課題というよりも、試してみた?) •  既存のデータセットから 新しいデータセットを作ることはできるか 12

  13. 提案手法:補間データも学習に使用 •  embeddingsの補間データの表象はデータ多様体に近い傾向 がある(Bengio et al., 2013; Reed et al.,

    2014) •  訓練テキストデータembeddingsの補間データも訓練に利用 –  Gの目的関数を下式に変更 Gに入力する テキストembedding (β=0.5で十分な成果) テキストembedding 13
  14. 実験手法 •  テキストと画像のデータセットを用いて提案した ネットワークをトレーニング •  テキストを入力して画像を生成する •  2種類の学習テクニックを組み合わせて性能を比較 –  マッチング判別器

    –  補間データ使用 14
  15. 実験:パラメータなど •  画像:64×64×3次元 •  テキストエンコーダ –  char-CNN-RNN:出力は1024次元 –  全結合+Leaky ReLU、出力は128次元

    •  ノイズz:100次元 •  normal deconvolu&onal network •  stride-2 convolu&on+バッチ正規化 15
  16. 実験:画像とテキストのデータセット •  CUB –  200種類のカテゴリ –  11788の鳥画像 •  Oxford-102 – 

    102のカテゴリ –  8189の花画像 各画像に対して5つの説明テキスト (著者らが付けた?) this bird has wings that are black and has a yellow crown 013.Bobolink 16
  17. 実験:学習テクニックの効果の比較 提案手法 マッチング判別器 補間データ使用 マッチング判別器 補間データ使用 入力テキスト: an all black

    bird with a dis&nct thick, rounded bill (真っ黒で太くて丸いくちばしを持つ鳥) 考察 •  上2つは色の情報は正しかったが 画像がリアルではない •  補間データを用いると テキストに合う もっともらしい画像が得られた 17
  18. 実験:テキストembeddingを補間して画像生成 •  2つのテキストから 2つのembeddingを得る •  テキストembedding(右図青)の 補間を入力して画像を生成する •  なめらかに画像が変化した • 

    つまりテキストembeddingは連続 した空間に埋め込まれている 18
  19. 課題:文章に含まれない画像情報(スタイル) •  文章に含まれる画像情報 –  黒い羽で黄色い頭頂の鳥 •  文章に含まれない画像情報 –  背景が緑、左を向いている、など – 

    著者らはスタイルと呼んでいる •  入力ベクトルのうち、 –  文章情報はテキストembedding –  スタイル情報はzが獲得する this bird has wings that are black and has a yellow crown 19
  20. 課題:スタイルは転写可能か この画像の スタイル (背景が青色) 「白い腹で頭は赤の鳥」 + 20 生 成 器 「白い腹で頭は赤の鳥」

    (背景が青色)
  21. 提案手法:画像からスタイルを抽出 •  スタイルzと画像のデータセットが必要 –  ランダムなスタイルzとテキストφ(t)から画像を生成してデータセットを用意 •  生成した画像からzに写像するスタイルエンコーダSを学習(損失関数は下式) •  Sは2層の全結合ネットワーク スタイルz

    テキストφ(t) 画像 生成器G スタイルエンコーダS 21
  22. 提案手法、実験:スタイルの転写 スタイルエンコーダS スタイルz 生 成 器 G 22

  23. スタイルを補間して画像生成 •  2つのスタイルを選ぶ •  テキストは固定、スタイルの 補間を入力して画像を生成する •  なめらかにスタイルが変化した •  つまりスタイルは連続した空間に

    埋め込まれている 23
  24. 触ってみた •  著者らの実装がGithubにある –  hTps://github.com/reedscot/icml2016 –  言語:Lua –  機械学習フレームワーク:Torch – 

    トレーニング済みネットワークが配布されている 24
  25. データセットにないテキストを入力した時 •  目的 –  生成される画像が構造を持つのか確認したい •  方法、結果 –  テキスト:the completely

    red cat •  考察 –  猫は鳥だった? –  猫は知らない単語として、似たテキストの学習時の画像を参考に出力された? 25
  26. 実際にいない鳥を入力した時 •  目的 –  論文の入力テキストは該当する鳥がデータセットにある –  実在する鳥のパーツを組み合わせることはできるか確認したい •  方法、結果 – 

    テキスト:the blue bird with green wings •  考察 –  パーツを組み合わせる能力は無い? 26 green wings
  27. 発表のまとめ •  GANのアーキテクチャから発展させ、 文章から画像を生成するアーキテクチャを考案した –  性能を向上する手法も2種類提案 •  補間テキストembedingsも用いると性能が向上 –  文章以外の情報(スタイル)を転写する手法も提案

    •  追試を行った –  パーツごとに指定すると想定した画像は生成されなかった 27
  28. CUBでの画像生成例 28 提案手法 マッチング判別器 補間データ使用 マッチング判別器 補間データ使用

  29. Oxfordでの画像生成例 29 提案手法 マッチング判別器 補間データ使用 マッチング判別器 補間データ使用

  30. 背景:生成画像をなめらかに変化させる 乱数列A 乱数列B (A+B)/2 ・・・ ・・・ 生成器 入力する乱数列を徐々に変化させると、 生成される画像も徐々に変化する 30

  31. テキストエンコード this bird has wings that are black and has

    a yellow crown 013.Bobolink N : データセットの組数 y : ラベル v : 画像 t : テキスト Δ : 損失関数 f : 分類関数 φ : 画像エンコーダ   : テキストエンコーダ T(y) : yのテキスト V(y) : yの画像 Reed, ScoT, et al. "Learning Deep Representa&ons of Fine-Grained Visual Descrip&ons. " (CVPR 2016). 31
  32. char-CNN-RNN Reed, ScoT, et al. "Learning Deep Representa&ons of Fine-Grained

    Visual Descrip&ons." (CVPR 2016). 32
  33. 実験:スタイルエンコーダSの性能評価 •  目的:スタイルエンコーダSで抽出したスタイルが筆者らの想定したスタイル(背 景など)と相関があるか調べたい •  全画像N枚の背景画素値を求める –  画像内のピクセル値の平均RGB •  求めた背景画素値でk-meansを用いて全画像を100クラスに分類

    •  全画像N枚からスタイルエンコーダを用いてスタイルzを抽出 •  各画像のスタイルのコサイン類似度を計算 •  ROC曲線を描いて評価 33
  34. 実験:スタイルエンコーダSの性能評価 34