Upgrade to Pro — share decks privately, control downloads, hide ads and more …

慶應義塾大学 機械学習基礎11 深層生成モデル

Sponsored · Ship Features Fearlessly Turn features on and off without deploys. Used by thousands of Ruby developers.

慶應義塾大学 機械学習基礎11 深層生成モデル

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 生成モデルと深層生成モデル - - 5 ▪ 生成モデル(generative model) ▪ データがどのように生成されているかを表すモデル ▪

    深層生成モデル(deep generative model) ▪ DNNを用いた生成モデル ▪ 画像、音声、テキスト等の高品質な生成を可能にした https://www.whichfaceisreal.com/ Tacotron2 GPT-2 https://demo.allennlp.org/next-token-lm
  2. 深層生成モデルの例 - - 6 一部説明済 ▪ 自己回帰モデル(autoregressive model) 本日の内容 ▪

    自己符号化器(autoencoder, AE) ▪ 変分自己符号化器(variational autoencoder; VAE) ▪ 敵対的生成ネットワーク(generative adversarial network; GAN) その他 ▪ 正規化フロー(normalizing flow) ▪ 拡散モデル(diffusion model)
  3. 【実習】 自己回帰型の言語モデル - - 7 ▪ https://colab.research.google.com/drive/1vwGOMaj05vB0AGl0494l UHhSSAFy7ZUJ?usp=sharing ▪ GPT-2

    ▪ 2019年2月にOpenAIが発表した言語モデル ▪ rinna社が日本語GPT-2を公開 ▪ GPT-3, ChatGPT等派生もある 確実に目的意識を持って、やることを掴 むということです。何事も、最初の動機 が明確なほど、充実した時間を過ごせる はずです。例えば… “高校生活で大事なことは” Radford, Alec, et al. "Language models are unsupervised multitask learners." OpenAI blog 1.8 (2019): 9.
  4. 自己符号化器(Autoencoder, AE) - - 9 ▪ 背景 ▪ 実応用データはしばしば次元 数が大きいが、全ての次元が

    重要な訳ではない ▪ 例:MNISTでは784次元、 4000x3000白黒画像では 1200万次元 ▪ データの特性に応じて偏って 分布しているので、コンパク トな表現に変換したい 応用例: ▪ 次元削減(dimensionality reduction) ▪ 異常検出(anomaly detection) ▪ 可視化(visualization) https://douglasduhaime.com/posts/visualizing-latent-spaces.html
  5. 自己符号化器(autoencoder: AE) - - 10 入力の再構成を学習 ▪ 教師なし学習の一種(決定的) ▪ エンコーダは入力を特徴量に変換する関数

    ▪ デコーダは特徴量を入力の再構成に変換する関数 入力 出力: 入力の再構成 再構成誤差 (reconstruction error) エンコーダ (符号化器) デコーダ (復号化器) 特徴量 (潜在表現)
  6. 自己符号化器の例: 実数値入力に対する活性化関数と誤差関数 - - 12 ▪ 重みW、バイアスb、潜在表現h を用いた2層ニューラルネット ①入力が実数値の場合 ▪

    活性化関数:恒等写像 ▪ 誤差関数:二乗誤差 の次元数より小さい 符号化器 (encoder) 復号化器 (decoder)
  7. 自己符号化器の例: 2値入力に対する活性化関数と誤差関数 - - 13 ▪ 重みW、バイアスb、潜在表現h を用いた2層ニューラルネット ①入力が実数値の場合 ▪

    活性化関数:恒等写像 ▪ 誤差関数:二乗誤差 ②入力が2値(0または1)の場合 ▪ 活性化関数:シグモイド関数 ▪ 誤差関数: ▪ 交差エントロピー誤差 自己符号化器の誤差は入力をどれだけ 再現できたかを表すため、再構成誤差 (reconstruction error)とも呼ばれる
  8. 自己符号化器の例: 重み共有 - - 14 ▪ 重みW、バイアスb、潜在表現h を用いた2層ニューラルネット ▪ と

    の構造が対 称であれば、 をすべて 学習可能とする必要はない →以下の重み共有を行う より小さい次元 符号化器 (encoder) 復号化器 (decoder) 仮に学習可能としたとしてもこの形が最適なので、学習可能 とする必要がない(=過剰なモデルとならないようにする)
  9. 【機械学習基礎の復習】尤度とは - - 17 ▪ 観測値 の同時確 率を最大化したい ▪ サンプルは母集団から独立同分

    布で抽出されたものとする (i.i.d.; independent and identically distributed) ▪ 「 が既知で、 が未知」 から 「 が既知で、 が未知」に 見方を変える ▪ 尤度(likelihood, ゆうど): ▪ データが与えられたうえでの モデルの尤もらしさ ▪ 規格化(=足して1)されて いないので確率ではない
  10. KLダイバージェンス(カルバックライブラーダイバージェンス, Kullback–Leibler divergence; KLD) - - 18 離散 ▪ ▪

    二つの確率分布間の「近さ」を測り, のとき となる ▪ 非対称であるため数学的な距離ではない 連続 ▪ XとYの間の相互情報量 https://cdn-ak.f.st-hatena.com/images/fotolife/y/yusuke_ujitoko/20170507/20170507192925.png XとYが独立であればP(X,Y)=P(X)P(Y) 相互情報量がゼロ
  11. 変分自己符号化器(variational autoencoder: VAE) [Kingma & Welling 2014] - - 21

    入力の再構成+潜在表現の分布を学習 ▪ 教師なし学習の一種(確率的) ▪ エンコーダは特徴量に関する確率分布(近似事後分布) ▪ デコーダは入力に関する確率分布(条件付き分布:尤度関数) 入力 出力: 入力の再構成 再構成誤差 (reconstruction error) エンコーダ (符号化器) デコーダ (復号化器) 特徴量 (潜在表現)
  12. VAEの学習:方針 - - 22 対数周辺尤度の最大化を目指す ▪ 観測 がある未知の分布 から生成されたと仮定 ▪

    パラメータ をもつモデル で を近似 ▪ 観測 の出現確率の最大化  対数周辺尤度 の最大化 ▪ と の関係は :同時確率に対し特定 の確率変数に対して和 を取ることで消去でき るため 周辺化
  13. VAEの学習:損失関数の導出 - - 23 対数周辺尤度 の最大化 ▪ ▪ を変分下限(evidence lower

    bound: ELBO)と呼ぶ ▪ とりあえず変分下限を大きくすれば 対数周辺尤度も大きくなる!  分母分子に同じ項を導入  期待値の定義 イェンセンの不等式
  14. VAEの学習:損失関数の導出 - - 24 変分下限 の最大化 ▪ ▪ 右辺第1項(対数尤度)を大きくし,第2項(KLD)を小さくすればよい ▪

    補足:対数周辺尤度と変分下限の差は であること を示せる ▪ 変分下限の最大化(対数周辺尤度に近づけること)は真の事後分布 を で近似することを意味する(変分推論:variational inference)
  15. VAEの学習:再構成誤差と正則化項 - - 25 変分下限右辺第1項(対数尤度:再構成誤差) ▪ 画像の各ピクセルが2値(ベルヌーイ分布)であると 仮定すれば負の交差エントロピーとなる ▪ ▪

    交差エントロピーは最小化(再構成誤差) ▪ 負の交差エントロピーは最大化(対数尤度) 変分下限右辺第2項(KLD:正則化項) ▪ に正規分布, に標準正規分布 を仮定すれば解析的に求まる ▪ 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0
  16. 再パラメータ化トリック - - 26 再パラメータ化トリック(reparameterization trick) ▪ 順伝播計算時に潜在状態 を からサンプリングすると

    計算グラフが切れるため誤差逆伝播法を適用できない ▪ とすることで解決 ▪ は標準正規分布 からサンプリング
  17. 敵対的生成ネットワーク(GAN; Generative Adversarial Network ) [Goodfellow+ 2014] - - 34

    ▪ 2つのDNNで構成 ▪ Generator (G): 本物のサンプルと似た偽物を生成するように学習 ▪ Discriminator (D): 本物と偽物のサンプルを見分けるように学習 ▪ 画像生成、音声合成、データ拡張、等に応用 DCGAN [Radford+ 15] [Karras+ ICLR18]
  18. GANの構成 - - 35 ▪ Generatorは乱数 (ノイズ)を入力として偽物のサンプルを出力 ▪ Discriminatorには、本物 OR

    偽物のサンプルを入力 ▪ 生成の際はGeneratorのみを使用 G (Generator) D (Discriminator) OR 本物 サンプルが与えられた うえで、そのサンプル の生成源Sが本物である 確率の推定値 偽物 乱数
  19. GANの学習における損失関数を書き直す - - 37 ▪ 以下の損失関数を用いて DiscriminatorとGeneratorを交 互に更新(ミニマックス法) これまで登場した損失関数との 対応がわかりにくい

    ▪ Discriminatorの損失関数 ▪ 本物を本物と予測する確率が高く、 偽物を本物と予測する確率が低け れば損失が減る ▪ Generatorの損失関数 符号を反転するゆえ「敵対的」↑
  20. 条件付けによる生成のコントロール - - 38 ▪ GANの問題: 指定されたクラス(例:緑色のロゴ、数字の7)の みを生成するようにコントロールできない ▪ Conditional

    GAN (CGAN) [Mirza+ 2014]: クラスラベルをGenerator への追加入力とする ▪ Auxiliary classifier GAN (AC-GAN) [Odena+ 2017]: クラスラベルを 追加入力および追加出力とする https://arxiv.org/pdf/1810.10395.pdf
  21. 本講義全体の参考図書 - - 39 ▪ ★機械学習スタートアップシリーズ これならわかる深層学習入門 瀧雅人著 講談 社(本講義では、異なる表記を用いることがあるので注意)

    ▪ ★Dive into Deep Learning (https://d2l.ai/) ▪ 深層学習 改訂第2版 (機械学習プロフェッショナルシリーズ) 岡谷貴之著 講談社 ▪ ディープラーニングを支える技術 岡野原大輔著 技術評論社 ▪ 画像認識 (機械学習プロフェッショナルシリーズ) 原田達也著 講談社 ▪ 深層学習による自然言語処理 (機械学習プロフェッショナルシリーズ) 坪井祐太、 海野裕也、鈴木潤 著、講談社 ▪ IT Text 自然言語処理の基礎 岡﨑直観、荒瀬由紀、鈴木潤、鶴岡慶雅、宮尾祐介 著、オーム社 ▪ 東京大学工学教程 情報工学 機械学習 中川 裕志著、東京大学工学教程編纂委員会 編 丸善出版 ▪ パターン認識と機械学習 上・下 C.M. ビショップ著 丸善出版
  22. 参考文献 - - 40 1. https://qiita.com/kenmatsu4/items/b029d697e9995d93aa24 2. Kingma, D. P.,

    & Welling, M. (2013). Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114. 3. Kingma, D. P., & Welling, M. (2019). An introduction to variational autoencoders. arXiv preprint arXiv:1906.02691. 4. Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., ... & Bengio, Y. (2014). Generative adversarial nets. Advances in neural information processing systems, 27. 5. Mirza, M., & Osindero, S. (2014). Conditional generative adversarial nets. arXiv preprint arXiv:1411.1784. 6. Rezende, D., & Mohamed, S. (2015, June). Variational inference with normalizing flows. In International conference on machine learning (pp. 1530- 1538). PMLR.
  23. 参考文献 - - 41 1. Radford, A., Metz, L., &

    Chintala, S. (2015). Unsupervised representation learning with deep convolutional generative adversarial networks. arXiv preprint arXiv:1511.06434. 2. Karras, T., Aila, T., Laine, S., & Lehtinen, J. (2017). Progressive growing of gans for improved quality, stability, and variation. arXiv preprint arXiv:1710.10196. 3. Patashnik, O., Wu, Z., Shechtman, E., Cohen-Or, D., & Lischinski, D. (2021). Styleclip: Text-driven manipulation of stylegan imagery. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 2085-2094).