Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Light-weight GANの論文を読んでみた

Masafumi Abeta
February 28, 2021

Light-weight GANの論文を読んでみた

Pythonデータ分析勉強会#28 の発表資料です。
https://pythondata.connpass.com/event/208171/

Masafumi Abeta

February 28, 2021
Tweet

More Decks by Masafumi Abeta

Other Decks in Science

Transcript

  1. 2 概要 n 512×512以上の⾼解像度画像でも少ないリソースで学習できるGAN。 n 教師画像100枚程度、RTX-2080 GPU 1枚を使⽤して数時間で学習できる。 n Skip-Layer

    channel-wise Excitation (SLE) module がより⾼速な学習のためにモデル重み全体でよりロバ ストな勾配の流れを可能にする。 n Discriminator を feature-encoder として⾃⼰教師学習させる。
  2. 4 Generatorの特徴 256, 1x1 ConvTranspose, etc. 256, 4x4 Nearest Upsample,

    etc. 512, 8x8 512, 16x16 256, 32x32 128, 64x64 64, 128x128 32, 256x256 3 , 512x512 3 , 1024x0124 Skip-layer excitation Skip-layer excitation 64, 128x128 32, 256x256 Skip-layer excitation 3 , 512x512 8C, HxW C, 16Hx16W Adaptive pooling 8C, 4x4 Conv 4×4, s=1, p=0 8C, 1x1 C, 1x1 Conv 1×1, s=1, p=0 SIgmoid C, 1x1 C, 16Hx16W 空間⽅向を削減することで パラメータ数を減らす SEブロックとResブロック を異なる特徴マップ間で適 ⽤したような構造 低解像度領域の特徴(=画像 の全体的なスタイル)が⾼解 像度のスタイルに影響する →スタイルとコンテンツが 分離?
  3. 5 Discriminatorの特徴 ℒrecons = 𝔼!∼#!"#$%! $ , $∼&&!'( ∥ 𝒢

    𝑓 − 𝒯(𝑥) ∥ 𝒯(𝑥) 𝒢 𝑓 Cropが詳細なテク スチャを学習する Discriminator を feature-encoder として⾃⼰教師学習させる。
  4. 7 実験データセット Size 項⽬ 説明 256 × 256 Animal-Face Dog

    and Cat 100-Shot-Obama Panda Grumpy-cat 1024 × 1024 Flickr-Face-HQ (FFHQ) https://github.com/NVlabs/ffhq-dataset Oxford-flowers https://www.robots.ox.ac.uk/~vgg/data/flowers/ art paintings from WikiArt https://en.wikipedia.org/wiki/Wikipedia:Featured_pictures/Artwork/Paintings photographs on natural landscape from Unsplash https://unsplash.com/ Pokemon anime face skull shell
  5. 8 Metric 1. Frechet Distance 𝑑+ = 𝝁, − 𝝁+

    + + tr Σ, + Σ+ − 2 Σ, Σ+ , + 実装 https://github.com/bioinf-jku/TTUR/blob/master/fid.py 2. Learned perceptual similarity 評価⽤ニューラルネットを⽤意し、2つの⼊⼒画像に対する各特徴マップの残差の和を誤差として使⽤? 実装 https://github.com/richzhang/PerceptualSimilarity
  6. 9 ⽐較対象 パラメータ少ないVer DCGANをベースにし、 1) spectral-normalization 2) exponential- moving-average optimization

    on G 3) differentiable-augmentation 4) GLU instead of ReLU in G Baseline +SLE +⾃⼰教師学習
  7. 16 参考⽂献 • Bingchen Liu, Yizhe Zhu, Kunpeng Song, Ahmed

    Elgammal, “Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image Synthesis”, 2021, International Conference on Learning Representations