Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Trends in Deep Generative model and Self-superv...

Trends in Deep Generative model and Self-supervised Learning at NeurIPS2019

Yoshiki Masuyama

June 25, 2020
Tweet

More Decks by Yoshiki Masuyama

Other Decks in Research

Transcript

  1. 自己紹介 ◼ 升山 義紀 (Masuyama Yoshiki) ◼ 所属 ◦ 早稲田大学

    基幹理工学研究科 表現工学専攻 及川研究室 (M2) ◦ 産総研 人工知能研究センター(RA) ◼ 研究テーマ ◦ 音声・音響信号処理: DNNを用いた複素数の特徴量のモデリング ◦ マルチモーダル深層学習: 自己教師あり学習による視聴覚統合 2
  2. はじめに ◼ 注意 ◦ 報告内容の信頼性には十分注意していますが、報告内容すべてに 関する専門性は有しないため,誤りを含む可能性があります ◦ 多数の論文を直感的に紹介し興味を持ってもらうために,数学的 に厳密ではない説明をする箇所があります ◦

    NeurIPS2019で発表された深層生成モデル・自己教師あり学習に 関連する研究をすべて紹介しているわけではありません ◼ 対象 ◦ GANに代表される深層生成モデルのチュートリアルを動かしたこ とがある方 ◦ 自己教師あり学習について聴いたことがあるが,どう使えるのか わからない方 ◦ これらの技術を自分のタスクに応用したい方 × 深層生成モデル・自己教師あり学習の詳細な理論を知りたい方 3
  3. 発表概要 データを理解し信号処理に活用 ◼ 深層生成モデル: データの生成過程を獲得 ◦ Flowのための可逆なモデルの発展 ◦ GAN・VAEの深化 ◼

    自己教師あり学習: データの潜在的な特徴を獲得 ◦ 時系列データや3Dデータへの応用 ◼ 応用: DNNを用いた信号処理 ◦ 深層生成モデルを事前情報として使った信号処理 4
  4. 深層生成モデルの概要 複雑かつ非自明な生成過程のモデリング ◼ DNNを用いた確率モデルでリアルなデータの生成を実現 ◦ 例1: 顔画像生成 (StyleGAN) ◦ 例2:

    音声合成 (WaveNet launches in the Google Assistant*) • 自然音声と区別のつかない音声を合成可能 • 近年,条件付けで所望の声質での合成も可能に 上図: T. Karras et al., “A Style-Based Generator Architecture for Generative Adversarial Networks,” in CVPR, Figure 8より該当部分抜粋, 2019. *音源: “WaveNet launches in the Google Assistant,” https://deepmind.com/blog/article/wavenet-launches-google-assistant (2020/03/06) 基準 合成画像 “逆”画像 5
  5. 深層生成モデルの応用 サンプリングに限らない生成モデルの応用 ◼ 例1: GANを用いた異常検知 ◼ 例2: VAEを用いた音声強調 学習済みの深層生成モデルから データの正常性を評価可能

    ⇒ 生成以外にも利用可能 上図: T. Schlegl et al., “Unsupervised anomaly detection with generative adversarial networks to guide marker discovery,” in IPMI, Figure 1, 2017. 下図: “Statistical Speech Enhancement Based on Probabilistic Integration of Variational Autoencoder and Non-Negative Matrix Factorization,” http://sap.ist.i.kyoto-u.ac.jp/members/yoshiaki/demo/vae-nmf/ (2020/0306) 6
  6. Variational autoencoderの概要 DNNを用いた生成モデルと推論モデルの学習 ◼ 変分ベイズの枠組みにDNNを導入 ◦ 潜在変数を持つ生成モデルの拡張 ◦ Encoderは潜在変数への推論モデル,Decoderが生成モデル ◼

    潜在変数の事前分布が必要 ◦ 学習は対数周辺尤度の下限(ELBO) を最大化 ◦ ELBOの最大化に潜在変数の事前分布が必要(e.g., 正規分布) Dec. Enc. 7
  7. Generative adversarial networkの概要 敵対的学習による自由度の高い学習 ◼ 暗黙的な生成モデルの学習 ◦ データの尤度を最大化する代わりに敵対的学習を利用 ⇒ 未知のデータの分布と生成分布のJS-Div最小化

    ◼ 敵対的学習の不安定性 ◦ 一般的にGANの学習は不安定(e.g., Mode collapse) ◦ 様々な学習テクニックや正則化法が存在 Gen. Dis. Real/Fake Fake image Real image 8
  8. GAN, VAE, Flowの比較 各深層生成モデルの比較 ◼ 各モデルの比較 ◦ VAE・Flowは尤度にもとづいた学習 ⇒ 目的関数の計算に推論モデルを利用

    ◦ GANは尤度の代わりに敵対的学習の枠組みを利用 ⇒ 自由度は高いが推論モデルがない 学習基準 学習対象 DNN構造 VAE 変分下限最大化 Encoder Decoder 自由 GAN 敵対的学習 Generator Discriminator 自由 Flow 対数尤度最大化 Flow 可逆 10
  9. 深層生成モデル@NeurIPS2019 (1/2) Flowの台頭 ◼ 1件 ⇒ 約12件へと発表件数増加 ◦ NeurIPS2018のGlowが火付け役(現在約360引用) ◦

    NeurIPS2019ではモデル拡張に関する研究が多数 ◼ 画像変換や声質変換といった応用よりの発表も複数 ◦ Blow: a single-scale hyperconditioned flow for non-parallel raw- audio voice conversion • 潜在変数への推論 + サンプリング変換による声質変換 ⇒ 推論が近似なく簡単に計算できるFlowのメリットを活用 Inverse Flow D. P. Kingma and P. Dhariwal, “Glow: Generative flow with invertible 1x1 convolutions,” in NeurIPS, 2018. J. Serrà et al., “Blow: a single-scale hyperconditioned flow for non-parallel raw-audio voice conversion,” in NeurIPS, 2019. 11
  10. 深層生成モデル@NeurIPS2019 (2/2) GAN・VAEの深化 ◼ GAN: 圧倒的人気は継続 ◦ GANの学習理論・安定化の話は継続的に注目されているトピック • 本発表ではクラス分類タスクを正則化に用いたDNNに注目

    ◦ Nonparametric Density Estimation & Convergence Rates for GANs under Besov IPM Losses (Honorable Mention Outstanding Paper Award) • ノンパラメトリックな確率密度推定における収束レートの解析 • ロス関数の選択が学習にどう効いてくるのかを理論的に示唆 ◼ VAE: 理論よりの発表多数 ◦ 昨年と変わらず約10件の発表 ◦ 潜在変数の事前分布の設計に関する発表に注目 A. Uppal et al., “Nonparametric Density Estimation & Convergence Rates for GANs under Besov IPM Losses,” in NeurIPS, 2019. 12
  11. NeurIPS2019における注目ポイント1 Flowのための可逆なモデルの拡張 ◼ 従来のモデルの課題 ◦ ヤコビアンの行列式を効率よく計算するためにモデルを制限 ⇒ GANやVAEよりも学習できる写像の自由度が低い ◼ 従来のFlowに使われてきたモデルの例

    ◦ ヤコビアンが特定の形式になるようにモデルを制限 ⇒ 学習時にかかるメモリや計算時間を短縮するため ◦ 有名なFlow • Planar Flow: ヤコビアンが対角行列 + ランク1行列 • Coupling Flows: ヤコビアンがスパースな構造をもつ下三角行列 • Autoregressive Flows: ヤコビアンが下三角行列 13
  12. MintNet Flowのための可逆な層の特徴づけ ◼ Fixed point iterationによる逆写像の計算 ◦ 橙色の領域の写像であれば以下の反復計算で逆写像を近似可能 ◦ 並列化に適しており,理想的には計算コストはO(T)

    ◦ 従来のautoregressive flowでは,計算コストはO(D)かつD≫T ◼ Mint layer: 橙色の領域の写像をmasked conv.で表現 ◦ Masked conv.: カーネルが因果的な構造を持つ畳み込み アルゴリズム: Y. Song et al., “MintNet: Building invertible neural networks with masked convolutions,” in NeurIPS, Algorithm 1, 2019. 15
  13. Residual Flows for Invertible Generative Modeling DNNの構造の制約がないFlow ◼ 従来手法: i-ResNet

    ◦ Residual blockを持つ可逆な写像を構築 ◦ 写像としての自由度は高いがコスト関数の計算コスト大 ⇒ 効率的なヤコビアンの行列式の計算方法を提案 • ヤコビアンの行列式を無限級数の和のトレースに変換 ⇒ 無限級数を打ち切ることで近似計算 リプシッツ定数を1以下に制限 T. Q. Chen et al., “Residual Flows for Invertible Generative Modeling,” in NeurIPS, 2019. 16
  14. Residual Flows for Invertible Generative Modeling DNNの構造の制約がないFlow ◼ 提案: Russian

    roulette estimator ◦ i-ResNetにおける打ち切りによる近似ではバイアスが発生 ◦ Russian roulette estimator: バイアスが発生しない近似法 ◦ i-ResNetの学習が失敗する場合でも頑健に学習可能 図: T. Q. Chen et al., “Residual Flows for Invertible Generative Modeling,” in NeurIPS, Figure 2, 2019. 17
  15. NeurIPS2019における注目ポイント2 GANの学習安定化の生成モデル的解釈 ◼ 学習安定化のテクニック ◦ AC-GAN = conditional GAN +

    axially classifier • GANにより生成された画像のクラス分類タスクを補助的に利用 ◦ SS-GAN = BigGAN + self-supervised training • 画像を回転させ,その回転角を識別するタスクを補助的に利用 ⇒ どちらもクラス分類タスクを利用 ◼ 安定化テクニックの生成モデル的解釈 ◦ Vanilla GANは生成分布とデータの分布の間のJS-Div最小化に対応 ◦ クラス分類ロスが加わると…? A. Odena et al., “Conditional Image Synthesis With Auxiliary Classifier GANs,” in ICML, 2017. T. Chen et al., “Self-supervised GANs via auxiliary rotation loss,” in CVPR, 2019. 18
  16. Twin Auxiliary Classifiers GAN 多様なデータ生成のためのAC-GANの拡張 ◼ AC-GANの課題 ◦ クラス分類タスクは,生成データがどのクラスにあたるかのばら つき

    (|)をとらえられていない ⇒ 各クラス(青,緑,赤)におけるデータの多様性が減少 ⇒ 似た生成データのみを生成してしまう 図: M. Gong et al., “Twin Auxiliary Classifiers GAN,” in NeurIPS, Figure 2より該当部分抜粋, 2019. 19
  17. Twin Auxiliary Classifiers GAN 多様なデータ生成のためのAC-GANの拡張 ◼ TAC-GAN ◦ ばらつきを直接評価するのは困難 ◦

    一定の条件下でばらつきはJS-Divで計算できるためGANと同じ敵対 的学習の枠組みでクラスのばらつきを評価可能 ◦ ターゲットの分布に近づいていることを確認 図: M. Gong et al., “Twin Auxiliary Classifiers GAN,” in NeurIPS, Figure 2より該当部分抜粋, 2019. 20
  18. Self-supervised GAN: Analysis and Improve- ment with Multi-class Minimax Game

    安定的な学習のためのSS-GANの理論拡張 ◼ 従来手法: Self-supervised GAN (SS-GAN) ◦ GANの学習は識別境界が大きく変化するため学習が不安定 ◦ 学習安定化のために回転角を予測する自己教師あり学習を利用 図: T. Chen et al., “Self-supervised GANs via auxiliary rotation loss,” in CVPR, Figure 1, 2019. 21
  19. Self-supervised GAN: Analysis and Improve- ment with Multi-class Minimax Game

    安定的な学習のためのSS-GANの理論拡張 ◼ 提案手法: Self-supervised GAN (SS-GAN) ◦ 分類タスクを別で解くのではなく,”偽(生成)”も含めた多クラス 分類問題として定式化 TAC-GANと同じく補助 分類タスクがデータの ばらつきを制限してい た点の改善 図: S. Minaee et al., “Self-supervised GAN: Analysis and Improvement with Multi-class Minimax Game,” in NeurIPS, Figure 1, 2019. 22
  20. NeurIPS2019における注目ポイント3 VAEの潜在変数の事前分布の設計手法の発展 ◼ 潜在変数の事後分布に対するover-regularization ◦ VAEの潜在変数がどのような事前分布を持っているかは非自明 ⇒ Vanilla VAEでは単純な正規分布を仮定 ⇒

    複雑なデータの構造を表現しきれない ◼ 複雑な事前分布をデータセット全体から学習 ◦ Learning Hierarchical Priors in VAEs: • 潜在変数の事前分布を階層構造にし,データから学習 ◦ Generating Diverse High-Fidelity Images with VQ-VAE-2 • ベクトル量子化を用いて潜在変数を離散的なコードブックで 表現(このコードブックを学習) • 潜在変数による条件付けを多段で行う画像生成 A. Klushyn et al., “Learning Hierarchical Priors in VAEs,” in NeurIPS, 2019. A. Razavi et al., “Generating Diverse High-Fidelity Images with VQ-VAE-2,” in NeurIPS, 2019. 23
  21. 深層生成モデル関連まとめ 各アプローチごとに深化 ◼ Flowのための可逆なモデルが増加 ◦ モデルの自由度が上がればすぐに応用・発展手法が登場 • WaveGlow(ICASSP2019) ⇒ WaveFFJORD

    (ICASSP2020) • Glow(NeurIPS2018) ⇒ VideoFlow (ICLR2020) ◼ NeurIPS2019から今後へ ◦ Flow Contrastive Estimation of Energy-Based Models • Bayesian deep learning workshopで発表 • 紹介しなかったEnergy-based model (EBM)とFlowを同時に学習 • 応用に合わせてEBMとFlowを使い分け 各モデルの得意・不得意を理解し補いあうアプローチへ R. Gao et al., “Flow Contrastive Estimation of Energy-Based Models,” in NeurIPS Bayesian deep learning workshop, 2019. 24
  22. 自己教師あり学習 教師がないデータから特徴を獲得 ◼ Pretextタスクを解くことで有効な特徴を獲得 ◦ Pretextタスク: 教師をデータ自身から生成できるタスク ◦ Downstreamタスク: 本来解きたいタスク(教師ラベル少)

    ◼ 教師なし学習との関係(個人的見解) ◦ 教師なし学習: 人が用意した教師ラベルを用いない学習全般 ◦ 自己教師あり学習: Pretextタスクを解くことで教師なし学習を実現 (流行に乗って多くの研究が自己教師あり学習といっている節も?) 特徴抽出 Pretextタスク Loss 特徴抽出 (重み固定) Targetタスク Loss ラベル 識別器 鈴⽊ 智之, “Self-supervised Learningによる特徴表現学習,” http://hirokatsukataoka.net/temp/cvpaper.challenge/SSL_0929_final.pdf (2020/04/10) 25
  23. 自己教師あり学習の例 自然言語処理における事前学習 ◼ BERT ◦ マスクした単語の予測/隣接文かの判定を行うことで後段処理に 適切な言語表現を獲得 ⇒ これらのタスクは文章のみから学習可能 ◼

    ALBERT ◦ BERTの発展手法(モデルの軽量化等) ◦ PretextタスクとしてSentence order predictionを提案 • 隣接文予測の一般化として,2つの文が正順かを判定 • 画像認識においても並び替えによる自己教師あり学習が存在 NLPにおける事前学習はいわゆる自己教師あり学習とは異なるが, 本質的な目的は同じ(よりよい表現を事前に獲得したい) J. Devlin et al., “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,” in NAACL, 2019. Z. Lan et al., “ALBERT: A Lite BERT for Self-supervised Learning of Language Representations,” in ICLR, 2020. 28
  24. 自己教師あり学習@NeurIPS2019 学習方法・広い適用範囲 ◼ “Self-supervised”とつく発表件数は10件 ◦ 他にも”Representation learning”の文脈で使用例あり ◦ 本発表では様々なデータ形式への応用例を紹介 ◦

    相互情報量に基づいた学習も人気トピック ◼ 相互情報量に基づいた学習の例 ◦ Putting An End to End-to-End: Gradient-Isolated Learning of Representations (Honorable Mention Outstanding Paper Award) • End-to-endの誤差逆伝播を必要としない表現学習法を提案 • 勾配消失の問題を改善 ◦ Unsupervised State Representation Learning in Atari • 強化学習における状態表現学習へ自己教師あり学習を応用 S Löwe et al., “Putting An End to End-to-End: Gradient-Isolated Learning of Representations ,” in NeurIPS, 2019. A. Anand et al., “Unsupervised State Representation Learning in Atari,” in NeurIPS, 2019. 32
  25. Unsupervised Scalable Representation Learning for Multivariate Time Series 時系列データへの応用 ◼

    Triplet lossの教師なし拡張 ◦ 目的: 一般の時系列データから特徴表現を獲得 ◦ 同じ系列の一部分をpositive sample,別の時系列の一部分を negative sampleとしてTriplet lossで学習 ◦ Causal CNNで時系列の情報を取りだし Global average pooling 時間方向圧縮 図: J. Y. Franceschi et al., “Unsupervised Scalable Representation Learning for Multivariate Time Series,” in NeurIPS, Figure 1, 2019. UCR archive に対し得られた 表現を可視化 33
  26. Self-Supervised Deep Learning on Point Clouds by Reconstructing Space 3次元点群データへの応用

    ◼ 3次元点群データに対する自己教師あり学習 ◦ 課題: 膨大な各点に対し人手でラベリングを行うのは高コスト ◦ 点群をボクセルで切り分けクラスラベルを作成 ◦ ボクセル単位で位置を入れ替えたうえで,各点のラベルを推定 図: J. Sauder and B. Sievers, “Self-Supervised Deep Learning on Point Clouds by Reconstructing Space,” in NeurIPS, Figure 1, 2019. 表: 同文献, Table 2, 2019. ModelNet40での点群分類 34
  27. Scene Representation Networks: Continuous 3D- Structure-Aware Neural Scene Representations 3D空間表現を多視点幾何と深層学習で獲得

    (Honorable Mention Outstanding Paper Award) ◼ 複数方向からの2D画像のみで3次元構造を学習 ◦ 単なるAutoEncoderではなく多視点幾何の技術に基づいたデコーダ (Neural Renderer)を利用 ⇒ 既存技術にもとづいたDNNの構成 図: “Scene Representation Networks: Continuous 3D-Structure-Aware Neural Scene Representations,” (slide), https://vsitzmann.github.io/srns/slides.pdf (2020/04/10)
  28. 自己教師あり学習関連まとめ まだまだ発展途上 ◼ データの種類に合った様々な補助タスクの設計 ◦ 点群データ: 点群の位置に基づいたラベルを推定 ◦ 時系列データ: Triplet

    lossの教師なし拡張 ◼ NeurIPS2019 → 今後 ◦ コンテキストを理解して初めて解けるpretextタスクを人手で設定 ⇒「なぜそのタスクを解くのか?」の根拠が弱い ⇒ 後段のタスクから理論的にpretextタスクを構築できるか? ◦ 相互情報量に基づいた学習が画像・音声で注目されつつある ⇒ データ形式によらない学習法として今後汎用的に使われるか? 36
  29. 信号処理への応用 雑音除去や補間など汎用的な技術 ◼ 画像の雑音除去の例 ◦ High-Quality Self-Supervised Deep Image Denoising

    ◼ 画像の復元の例 ◦ Global Guarantees for Blind Demodulation with Generative Priors 上図: Sue. Laine et al., “High-Quality Self-Supervised Deep Image Denoising,” in NeurIPS, Figure 4より該当部分を抜粋, 2019. 下図: P. Hand and B. Joshi, “Global Guarantees for Blind Demodulation with Generative Priors,” in NeurIPS, Figure 2より該当部分を抜粋, 2019. 37
  30. Solving inverse problems with deep networks: New architectures, theoretical foundations,

    and applications Workshopの開催 ◼ 概要 ◦ 従来: 統計モデルや物理モデルにもとづいた手法が主流 ◦ 近年: 深層学習は基本性能が高いが大きな誤差を生み出す危険性も ⇒ これら2つの手法をつなげ新たな方向へ ◼ トピックは大きく2つ ◦ 逆問題への深層生成モデルを使ったアプローチ • 従来の統計モデルと比べての優位性などについて理論的な側面 から議論 ◦ 自己教師あり学習による雑音除去 • 雑音の乗った画像の各ピクセルの値をその周辺のピクセルの 情報から推定することで,雑音除去を実現 38
  31. Global Guarantees for Blind Demodulation with Generative Priors 深層生成モデルを使った場合の理論保証 ◼

    問題設定 ◦ 2変数の積に関する逆問題(例: 前のスライドの数字画像の復元) ◦ 各変数に関して深層生成モデル を設定し,潜在変数 , を推定 ◼ 主定理 ◦ 局所最小解は4つの双曲型集合に含まれる(勾配降下で到達可能) 大域最適解に到達 する様な初期化法 も合わせて提案 図: P. Hand and B. Joshi, “Global Guarantees for Blind Demodulation with Generative Priors,” in NeurIPS, Figure 1より該当部分抜粋, 2019. MNIST画像 歪み画像 40
  32. まとめ データを理解し信号処理に活用 ◼ 深層生成モデル: データの生成過程を獲得 ◦ Flowのための可逆なDNNの構造が拡充 ◦ GAN,VAE,Flow以外の手法も発展 ◦

    複数のアプローチを組み合わせる部分に発展の余地あり ◼ 自己教師あり学習: データの潜在的な特徴を獲得 ◦ 時系列データや3Dデータへの応用先が拡大 ◦ 発展途上であり,なぜその事前学習タスクでいいのか不明瞭 ◼ 応用: DNNを用いた信号処理 ◦ 深層生成モデルを使った信号処理の理論保証 ◦ 上記2つの技術の発展をどう効率的に取り込んでいけるかが鍵 41