TransGAN: Two Transformers Can Make One Strong GAN

Slide 1

Slide 1 text

TransGAN: Two Transformers Can Make One Strong GAN 第六回全日本コンピュータビジョン勉強会 Transformer 読み会 2021/04/18 kiyo (hrs1985)

Slide 2

Slide 2 text

自己紹介 twitter : @hrs1985 Qiita : https://qiita.com/hrs1985 github : https://github.com/kiyohiro8 株式会社カブクで機械学習エンジニアをしています。深層生成モデル、画像の変換ゲームの強化学習あたりに興味があります。 twitter アイコン

Slide 3

Slide 3 text

論文の概要 TransGAN: Two Transformers Can Make One Strong GAN (https://arxiv.org/abs/2102.07074) 1. Transformer のみで GAN を構成した (CNN が非必須であることを示した) 2. アーキテクチャと学習方法を工夫することで CIFAR-10 や STL-10 で CNN ベースの GAN に匹敵する性能が出せた。モデルは https://github.com/VITA-Group/TransGAN に公開されているただし推論のみ

Slide 4

Slide 4 text

Generative Adversarial Models Generator はノイズ (z) から fake sample を作る Discriminator は入力された画像の real / fake を判別する

Slide 5

Slide 5 text

Attention (Transformer) と GAN CNN + Attention の GAN は Self-Attention GAN などで使われており、性能向上に寄与している今回は Convolutional Layer を一切使わずにAttention (Transformer) のみで GAN を構成した Self-Attention Generative Adversarial Networks (https://arxiv.org/abs/1805.08318) より

Slide 6

Slide 6 text

Transformer Generator / Discriminator Generator / Discriminator ともに Transformer だけで構成されている

Slide 7

Slide 7 text

Transformer Encoder Block Multi-Head Self Attention → MLP を繋げて 1つのブロックにする Multi-Head Self Attention と MLP の前に Layer Normalization を挟む

Slide 8

Slide 8 text

Memory-Friendly Generator 画像サイズは NLP でいう文の長さ (単語数) に相当する。 32x32 の低解像度でも 1024 単語の文となってしまい Attention の計算量がかさむ。 Transformer Encoder を何回か通す → UpScaling (pixel shuffle) →これを繰り返し、目的の画像サイズまで大きくしていく ←各 pixel が NLP でいう word に相当する

Slide 9

Slide 9 text

Discriminator 画像を 8x8 のパッチに分割 →Transformer Encoder を通す →最終層で特徴を集約して real / fake 判定

Slide 10

Slide 10 text

シンプルな TransGAN Transformer の Generator はよい Transformer の Discriminator はダメ

Slide 11

Slide 11 text

データ拡張データ拡張 (DiffAug) を導入することで IS も FID も改善

Slide 12

Slide 12 text

Self-Supervised Auxiliary Task 補助タスクとして、Generator に画像の高解像度化タスクも解かせる低解像度画像高解像度化された画像 MSE loss

Slide 13

Slide 13 text

Locality-Aware Initialization query 位置 (赤) に対して参照できる key の範囲を制限する学習初期では狭く、後期では広い範囲を参照する

Slide 14

Slide 14 text

モデルサイズの効果モデルサイズが大きいほど強い

Slide 15

Slide 15 text

既存手法との比較 CIFAR-10、STL-10 で SoTA またはそれに匹敵する程度の性能が出た

Slide 16

Slide 16 text

出力画像例

Slide 17

Slide 17 text

結論・Transformer のみで構成された GAN である TransGAN を提案した・学習を工夫することで CNN ベースの GAN に匹敵する性能が出せた・今後自然言語処理分野のテクニックを取り入れることで性能向上ができるかも？