Upgrade to Pro — share decks privately, control downloads, hide ads and more …

TransGAN: Two Transformers Can Make One Strong GAN

kiyo
April 18, 2021

TransGAN: Two Transformers Can Make One Strong GAN

第六回全日本コンピュータビジョン研究会 Transformer読み会での発表資料です

kiyo

April 18, 2021
Tweet

More Decks by kiyo

Other Decks in Technology

Transcript

  1. 自己紹介 twitter : @hrs1985 Qiita : https://qiita.com/hrs1985 github : https://github.com/kiyohiro8

    株式会社カブクで機械学習エンジニアをしています。 深層生成モデル、画像の変換 ゲームの強化学習 あたりに興味があります。 twitter アイコン
  2. 論文の概要 TransGAN: Two Transformers Can Make One Strong GAN (https://arxiv.org/abs/2102.07074)

    1. Transformer のみで GAN を構成した (CNN が非必須であることを示した) 2. アーキテクチャと学習方法を工夫することで CIFAR-10 や STL-10 で CNN ベースの GAN に匹敵する性能が出せた。 モデルは https://github.com/VITA-Group/TransGAN に公開されている ただし推論のみ
  3. Generative Adversarial Models Generator はノイズ (z) から fake sample を作る

    Discriminator は入力された画像の real / fake を判別する
  4. Attention (Transformer) と GAN CNN + Attention の GAN は

    Self-Attention GAN などで使われており、性能向上に寄与している 今回は Convolutional Layer を一切使わずにAttention (Transformer) のみで GAN を構成した Self-Attention Generative Adversarial Networks (https://arxiv.org/abs/1805.08318) より
  5. Transformer Encoder Block Multi-Head Self Attention → MLP を繋げて 1つのブロックにする

    Multi-Head Self Attention と MLP の前に Layer Normalization を挟む
  6. Memory-Friendly Generator 画像サイズは NLP でいう文の長さ (単語数) に相当する。 32x32 の低解像度でも 1024

    単語の文となってしまい Attention の計算量がかさむ。 Transformer Encoder を何回か通す → UpScaling (pixel shuffle) →これを繰り返し、目的の画像サイズまで大きくしていく ←各 pixel が NLP でいう word に相当する
  7. 結論 ・Transformer のみで構成された GAN である TransGAN を提案した ・学習を工夫することで CNN ベースの

    GAN に匹敵する性能が出せた ・今後自然言語処理分野のテクニックを取り入れることで性能向上ができるかも?