Upgrade to Pro — share decks privately, control downloads, hide ads and more …

GAN の理論の最新動向 / Theory of GAN

Sansan DSOC
January 29, 2020

GAN の理論の最新動向 / Theory of GAN

■イベント
画像処理 × 深層学習 勉強会
https://sansan.connpass.com/event/161765/

■登壇概要
タイトル:GAN の理論の最新動向

登壇者:DSOC R&Dグループ 吉村皐亮

▼Twitter
https://twitter.com/SansanRandD

Sansan DSOC

January 29, 2020
Tweet

More Decks by Sansan DSOC

Other Decks in Technology

Transcript

  1. Data Strategy and Operation Center ⽬次 GAN と AE の関係についての理論に関わる話をします.

    - GAN (Generative Adversarial Networks) の基礎 - 最適輸送問題 - divergence - GAN と AE (Auto-Encoder) の関係
  2. Data Strategy and Operation Center 最近の話 - ⼈間を discriminator として活⽤,

    ⾳声の⾃然 さの判定 (Human GAN [5]) - 複数⼈の⼈間の移動の予測 (Social-BiGAT [4]) - Pre-training なしの⾼性能な⾔語モデル (Scratch GAN [6]) - 2D画像から3D表現を学習 (RGBD-GAN [7]) GANの基礎 ~できること~ よくある話 - Style Transfer (Cycle GAN [1]) - 条件付けした画像の⽣成 (Conditional GAN [2]) - Super Resolution (SRGAN [3]) [4]の Fig. 1 より引⽤ 応⽤に関連する研究について. [3] の Fig. 2 より引⽤ [5]の Fig. 1 より引⽤
  3. Data Strategy and Operation Center GAN の基礎 ~基本のモデル~ z ノイズ(ベクトル)

    Generator, Discriminator, (真偽を⾒分ける) 本物 or の出⼒ 出⼒ (画像, ⾳声, ⽂など) Generator と Discriminator の⼆つのモデルを考えます. - Generator: 出⼒対象を⽣成. (本物と間違えるような出⼒を⽬指す.) - Discriminator:⼊⼒の真偽を判定. ( の出⼒と本物の分類を⽬指す.)
  4. Data Strategy and Operation Center GAN の基礎 ~損失関数と学習法~ ⽬的関数 (損失関数)

    • ~ () : 訓練データからサンプリングした事例. • ~ () : の⼊⼒となるノイズ分布からサンプリングしたノイズ. ▶ これを, 価値関数 (, ) についての 2-player minmax game で最適化 [8] 訓練データ(正)に対する の尤度 - : 最⼤化したい. (当てたい.) - : 関与しない. (関係ない.) ⽣成データ(偽)に対する の尤度 - : 最⼤化したい. (当てたい.) - : 最⼩化したい. (騙したい.) Min-max 最適化で学習します.
  5. Data Strategy and Operation Center 最適輸送問題[12] ▶ 物質の総量はいずれも等しい. ▶ 輸送

    は ℝ2 → ℝ2 の写像と考える. つまり ~, ~ . ▶ 総輸送コスト ∫ ℝ9 , () を輸送 の集合 , 内で最⼩化する問題. 輸送 輸送コスト 分布 ∈ ℝ2 分布 ∈ ℝ2 微⼩な範囲. 「Mongeの問題」と⾔う. … 実は, この定義では特殊な場合を考えられていないので, well-defined ではない. e.g.) 1点のディラック測度から2点のディラック測度への輸送. 物質をある場所から他の場所へ最⼩費⽤で移す理論. 総輸送コストを最⼩で分布 から分布 に移したい.
  6. Data Strategy and Operation Center well-defined な最適輸送問題 ▶ Π ,

    において, A , , および, これを達成する解を求める 問題をMonge-Kantorovich の問題と⾔う. ▶ Monge-Kantorovich の問題に対しては, 最適輸送の存在は保障される. ▶ ただし, その解の⼀意性は保障されない. Definition 3 of [H. Husain et. Al, 2019] For any , ∈ (), define the set of couplings between and to be Π , = ∈ × : H , = , H , = . For a cost ∶ × → ℝK , the (1-) Wasserstein distance between and is A , = infO∈P(Q,R) H × , (, ) . カップリングを考えて, Monge-Kantorovich の問題へ.
  7. Data Strategy and Operation Center Wasserstein 距離と Kantorovich-Rubinstein 双対性 A

    , = infO∈P(Q,R) H × , (, ) . Lemma 4 (Wasserstein Duality) of [H. Husain et. al, 2019] Let (, ) be a metric space, and suppose ℋA is the set of all 1-Lipschitz functions with respect to . Then for any , ∈ (), we have A , = supW∈ℋX H ℎ − H ℎ コスト に対して 1-Lipschitz な関数集合 ℋA . Kantorovich-Rubinstein Theorem を適⽤. ▶ Wasserstein 距離の Kantorovich-Rubinstein 双対性. inf から, sup への変形.
  8. Data Strategy and Operation Center f-divergence ▶ () = log

    とすると, ` , は KL ダイバージェンス. ▶ = log − ( + 1) log( + 1) とすると, ` , は GAN の の学習部分の⽬的関数. Definition 1 ( f-divergence ) of [H. Husain et. al, 2019] For a convex function : ℝ → (−∞, ∞] with (1) = 0, for any , ∈ () with absolutely continuous with respect to , the -Divergence between and is ` , ≔ ∫ 2Q 2R , with `(, ) = ∞ if is not absolutely continuous with respect to . ▶ 分布間の差異をはかる指標. e.g.) KLダイバージェンス, JSダイバージェンスなど ⼀般化された divergence のクラス. Divergence
  9. Data Strategy and Operation Center ▶ 1-Lipschitz 性は, 証明の途中で Wasserstein

    距離の双対形式を⽤いるところで必要. ▶ 特定の条件下で f-GAN より WAE の最適値の⽅が広義に⼤きい → 双対性を⽰唆. ▶ さらに, が可逆 (つまり, ⽣成画像から元の⼊⼒ノイズを特定できる) なら⼀致. Theorem 8 (-GAN and WAE equivalence) of [H. Husain et. al, 2019] Suppose (, ) is a metric space and let ℋ denote the set of all functions from → ℝ that are 1-Lipschitz (with respect to ). Let : ℝ ⟶ (−∞, ∞] be a convex function with (1) = 0. Then for all > 0, GANn` o, ; ℋ ≤ WAEA,ntu o, with equality if is invertible. A Primal-Dual link between GANs and Autoencoders [11] f-GAN と Wasserstein Autoencoder の双対性を⽰唆.
  10. Data Strategy and Operation Center f-GAN [10] ▶ これは, -divergence

    の下限を計算することで得られる. ▶ -divergence の下限を⽬的関数として Variational Divergence Minimization (VDM) で学習. Definition 6 ( f-GAN ) of [H. Husain et. al, 2019] Let : ℝ → (−∞, ∞] denote a convex function with property (1) = 0 and ⊂ ℱ(, ℝ) a set of discriminators. The -GAN model minimize the following objective for a generator : → GAN` o, ; ≔ sup2∈ {~Q| − }~Q~ ∗ Where ∗() = sup• { t – ()} is the convex conjugate of . 訓練データと⾒分ける期待値. の出⼒を真と間違う期待値. 従来の Variational Divergence Estimation の枠組みだとPとQからの サンプリングから f-divergence の推定値は得られていた. VDM では, モデルパラメータの推定ができるようにした. f-divergence を凸共役に基づき VDM フレームワークで最適化する GAN.
  11. Data Strategy and Operation Center Wasserstein Auto-Encoder (WAE) [9] ▶

    最適輸送を⽤いた Auto-Encoder の定式化. ▶ -divergence のような強⼒な距離の概念を⽤いると学習がうまくいかない ため, Wasserstein 距離を⽤いている. Definition 5 (Wasserstein Autoencoder) of [H. Husain et. al, 2019] Let : × → ℝ…†, λ>0 and Ω: ()×() → ℝ…† with Ω(, ) = 0 for all P ∈ (). The Wasserstein Autoencoder objective is WAEA,ntu o, = inf‰∈ℱ(,()) H }~‰({) , o + λ t Ω(#o, • ) . Reconstruction cost. Regularizer. コスト に対する最適輸送問題として定式化したAuto-Encoder.
  12. Data Strategy and Operation Center Theorem 8 of [H. Husain

    et. al, 2019] 同じ⼊⼒分布, 同じ generator(/ encoder) を⼊⼒にとる -GAN と WAE の 最適値について, (特定の条件下で) 上記の不等式が成⽴する. ▶ -GAN の⽬的関数は, -divergence の項と Wasserstein 距離 の項に分解で き, 前者に対する重みとして がかかる. ▶ generator が可逆の場合には, 両辺が⼀致する. ▶ [注意] -GAN には Conditional GAN は含まれていない. GANn` o , ; ℋ ≤ WAEA,ntu o , -GAN より WAE の最適値の⽅が広義に⼤きい.
  13. Data Strategy and Operation Center [H. Husain et. al, 2019]

    のその他の貢献 WAE と -divergence や Wasserstein 距離との間の関係 ▶ 特定の条件の時, WAE と -GAN と -WAE が⼀致する. ▶ 加えて, これらは Wasserstein 距離とも⼀致する. ▶ -WAE の⽬的関数の最⼩化に, Wasserstein 距離の最⼩化が使える. WAE の generalization bounds を与える ▶ 離散分布に対する OT (最適輸送) ソルバーが利⽤可能になる. ▶ WAE や -GAN, そして, generalization bounds も推定可能になる. -Wasserstein Auto-Encoder. コスト と正則化パラメータ の選び⽅で, WAE の⽬的関数と⼀致する Wasserstein 距離 の項と -divergence の項からなる⽬的関数. WAEとその他の統計量との関係など.
  14. Data Strategy and Operation Center まとめ GAN の基礎 ▶ ⼈間を⽤いたり,

    Graph を組み合わせたりする応⽤も出てきている. ▶ Generator と Discriminator を 2-player minmax game とみなして最適化. 最適輸送問題 ▶ 物質をある場所から他の場所へ最⼩費⽤で移す理論. -divergence ▶ divergence を⼀般化したクラス. -GAN と WAE の関係 ▶ 双対関係が⽰唆された. また, 特定の条件下ではそれぞれの最適値が⼀致. ▶ GAN と AE のハイブリッドのモデルについて, どの場合によりうまくいくのかがわかる. ▶ WAE の⽬的関数の汎化限界が得られた. -GAN と WAE の間の双対関係を⽰唆. また, 特定の条件下で⼀致.
  15. Data Strategy and Operation Center References:1 [1] JY. Zhu, P.

    Park, P. Isola, and A. A. Efros, (2017) “Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks”. ICCV. [2] M. Mirza, and S. Osindero, (2014) “Conditional Generative Adversarial Nets”. arXiv. [3] C. Ledig, L. Theis, F. Huszar, J. Caballero, A. Cunningham, A. Acosta, A. Aitken, A. Tejani, J. Totz, Z. Wang, and W. Shi, (2017) “Photo-realistic single image super-resolution using a generative adversarial network”. CVPR. [4] V. Kosaraju, A. Sadeghian, R. Martin-Martin, I. Reid, S. H. Rezatofighi, and S. Savarese, (2019) “Social-BiGAT: Multimodal Trajectory Forecasting using Bicycle-GAN and Graph Attention Networks”. NeurIPS. [5] K. Fujii, Y. Saito, S. Takamichi, Y. Baba, and H. Saruwatari, (2019) “HumanGAN: generative adversarial network with human-based discriminator and its evaluation in speech perception modeling.” arXiv.
  16. Data Strategy and Operation Center References:2 [6] C. M. d’Autume,

    M. Rosca, J. Rae, and S. Mohamed, (2019) “Training Language GANs from Scratch.” NeurIPS. [7] A. Noguchi, and T. Harada, (2019) “RGBD-GAN: Unsupervised 3D Representation Learning from Natural Image Datasets via RGBD Image Synthesis”. NeurIPS. [8] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio, (2014) “Generative Adversarial Nets”. NIPS. [9] I. Tolstikhin, O. Bousquet, S. Gelly, and B. Schoelkopf, (2018) “Wasserstein Auto-Encoders.” ICLR. [10] S. Nowozin, B. Cseke, and R. Tomioka, (2016) “f-GAN: Training Generative Neural Samplers using Variational Divergence Minimization”. NIPS. [11] H. Husain, R. Nock, and R. C. Williamson, (2019) “A Primal-Dual link between GANs and Autoencoders”. NeurIPS. [12] A. Takatsu (2014) 最適輸送理論梗概. 数理解析研究所講究録.