Slide 13
Slide 13 text
モデリング
■ GPU1枚9時間に抑える必要があったため⼤きなモデルは動かせない
■ LSGAN[1]にBigGAN[2]の要素を少しずつ⾜していった
– Conditional Batch Normalization (G), Projection (D), Shared Embedding (G),
Hierarchical Latent Noise (G), Non-local Block (G, D)を加えLocal FID 37~
– 通常のConvolution層をResidual Block (G, D)に変更しLocal FID 27~
■ Auxiliary Classifier[3] (D)を追加しLocal FID 15~
– (Adversarial Loss) + (0.1 × Cross Entropy Loss)
– 重み係数がかなり⼤事で1.0~0.2では崩壊
■ Spectral Normalization (G, D), Orthogonal Initialization (G, D)
– 学習画像との類似度を下げるのに役⽴った
13