Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介_20180622_MUNIT _ Multimodal Unsupervised Image-to-Image Translation

hrsma2i
June 22, 2018

文献紹介_20180622_MUNIT _ Multimodal Unsupervised Image-to-Image Translation

文献紹介

hrsma2i

June 22, 2018
Tweet

More Decks by hrsma2i

Other Decks in Research

Transcript

  1. Related Works - GANs: Generative Adversarial Networks - 設計の難しい loss

    関数に対し、その loss 関数すら Neural Network で学習させて しまおうという手法 - image generation, text generation などの多くの応用先 - 生成モデル(generative model) ≒ 教師なし (unsupervised) - P(X) をモデリング (X: 画像など) Generator c.f. ProgressinGAN gaussian noise generated image OR Discriminator real image True 1 / False 0
  2. Related Works - Image Translation - input: an image in

    the source domain - output: an image in the target domain - using GAN
  3. Related Works - Image Translation - cycle consistency loss -

    変換した画像を、逆変換した画像が、元の入力画像と近くなるよう学習 - unsupervised machine translation などでも似たような手法が使われている。
  4. Related Works - Image Translation の問題 - multi-modal mapping ではない。

    - 馬→シマウマ、などドメイン内で多峰性がなければ上手くいくが、 - 猫→犬などの場合、犬の画像は、ポメラニアンでもいいし、柴犬でもいい。 - このようにドメイン内の分布が多峰性( multi-modal) だと、生成がうまくいかない。 - BicycleGAN は multi-modal mapping だが、 supervision が必要。 - 今回は、 mutli-modal かつ unsupervised な image translation を提案。
  5. Related Works - VAE Variational Auto-Encoder - latent representation を

    確率変数とすることで、 連続的な表現を可能にしたもの。
  6. Related Works - Disentangled Representation - なんらかの方法で、 latent representation を、情報の意味で分

    割する方法。 contents (shape, pose, location, …) style (pattern, color, appearance, ...)
  7. Method - MUNIT - 変換する image を Auto-Encoder を使い、以下の 2つの

    latent representation に 分割して embedding - content: 変換後も保存したい情報 - e.g. 変換元の虎の顔の向き、位置 - style: 変換後は持ち越したくなく、かつ、変換先のドメインの情報を使って multi-modal に操作した い情報 - e.g. 変換先の猫の毛色、見た目
  8. Method - MUNIT - 3 つの loss を使う。 - まずは、

    image を Auto-Encoder を 使い、content と style に分けて embedding (これだけだと、無理。次 のGANのステップが必要。) - ①Image reconstruction loss - style と content から image を reconstruction。 s と c で元の image の 本質的な情報を保存するように学習。 ① ①
  9. Method - MUNIT - ② Adversarial loss - 変換後の画像が、target domain

    の画像 か/そうでないかをdiscriminator が識別。 - content: 変換前の image のもの - style: Gaussian noise - これだけだと、c, s の情報に関係ない target っぽい generated image でも Discriminator は騙されてしまう。 (e.g. と りあえず猫っぽい画像を生成しとけば OKってなる。そうでなく、虎の向きは保持 したい。) ② ②
  10. Method - MUNIT - ③ Latent reconstruction loss - 変換に使った

    content と style を変換後 の画像から復元できるようにする。 - 変換後の画像が、変換に使った content と style の情報を保持していないと行けな い。 ③ ③ ③ ③
  11. Method - Auto-Encoder - Downsampling: CNN - AdaIn: parameters in

    normalization layers to represent styles
  12. Method - Auto-Encoder - Discriminator - LSGAN objective - multi-scale

    discriminators - to learn realistic details - to learn correct global structure - Domain-invariant perceptual loss - supervised setting でしか使えない perceptual loss を unsupervised にも拡張 - a distance in the VGG feature space between the output and the reference image - high-resolution の学習を助ける。
  13. - dataset: Edges <-> shoes/handbags - colored image - corresponding

    edge images - eval. metric - quality: human preference - diversity: LPIPS distance - baselines - UNIT - CycleGAN - CycleGAN with noise - BicycleGAN Evaluation - supervised
  14. Evaluation - Baselines - UNIT: latent representation が disentangled でな

    く、 1つ。 - CycleGAN - CycleGAN with noise: input image に Gaussian noise を加える。 - BicycleGAN: continuous multi-modal mapping が可能。ただ、supervision が必要。
  15. Evaluation - Human Preference - to evaluate the quality -

    Amazon Mechanical Turk - 500 questions/worker - 1 source image - 2 translated images from different methods
  16. Evaluation - LPIPS Distances - to evaluate diversity - a

    weighted L2 distance between pairs of deep features of randomly-sampled translated images from the same input - deep feature extractor: ImageNet-pretrained AlexNet - correlate well with human perceptual similarity - 1900 pairs - 100 input images - x 19 output pairs/input
  17. - BicycleGAN との Quality 以外の比較では全てにおいて優っている。 - 3つの loss のうち 1

    つでも 欠けると、 Quality が大幅に下がることから、 すべての loss が有効だと判断できる。 Results - supervised - quantitative
  18. - dataset: Animal image translation - 動物の画像が category ごとにまと まっている。

    - pair なし。 - eval. metric - IS = Inception Score - CIS = conditional Inception Score - baselines - UNIT - CycleGAN - CycleGAN with noise - (BicycleGAN は supervised しか対応し てないので、なし) Evaluation - unsupervised big cats house cats dogs
  19. Evaluation - (C)IS=(Conditional) Inception Score - popular for image generation

    - to evaluate quality and diversity - IS: diversity of all output images - Inception-v3 で識別しやすい画像であるほどスコアが高い。 - CIS: diversity of outputs conditioned on a single input image - more suited for evaluating multi-modal mapping - e.g. 1 枚の猫の画像が、ほぼ完璧な犬の画像に変換されたら、 ISは高くなる。ただ、もし、その変換 先が、画像ごとに同じ犬の画像に変換される( multi-modal mapping でない)なら、 IS は高いが、 CIS は低くなる。
  20. Evaluation - (C)IS=(Conditional) Inception Score - x1: source image -

    x2: target image - x1->2: translated image from 1 to 2 - y: class=mode (e.g. ポメラニアン、柴犬、シベリアンハスキー if X2 is a set of dogs)
  21. - style の指定を、noise ではなく、 target domain の 1 枚の image

    を使い、任意の style で指定できる。 Results - Example-guided image translation
  22. Conclusion - unsupervised な multi-modal image translation の手法を提案した。 - Auto-Encoder

    の中間層を disentangled にすることで解決した。 - supervised image translation においては、supervised multi-modal の BicycleGAN に近いスコアを出した。 - unsupervised image translation においては他を圧勝した。