Trends in Deep Generative model and Self-supervised Learning at NeurIPS2019

深層生成モデルおよび自己教師あり学習の動向 @NeurIPS2019 早稲田大学基幹理工学研究科表現工学専攻升山義紀 1

自己紹介 ◼ 升山義紀 (Masuyama Yoshiki) ◼ 所属 ◦ 早稲田大学
基幹理工学研究科表現工学専攻及川研究室 (M2) ◦ 産総研人工知能研究センター(RA) ◼ 研究テーマ ◦ 音声・音響信号処理: DNNを用いた複素数の特徴量のモデリング ◦ マルチモーダル深層学習: 自己教師あり学習による視聴覚統合 2

はじめに ◼ 注意 ◦ 報告内容の信頼性には十分注意していますが、報告内容すべてに関する専門性は有しないため，誤りを含む可能性があります ◦ 多数の論文を直感的に紹介し興味を持ってもらうために，数学的に厳密ではない説明をする箇所があります ◦
NeurIPS2019で発表された深層生成モデル・自己教師あり学習に関連する研究をすべて紹介しているわけではありません ◼ 対象 ◦ GANに代表される深層生成モデルのチュートリアルを動かしたことがある方 ◦ 自己教師あり学習について聴いたことがあるが，どう使えるのかわからない方 ◦ これらの技術を自分のタスクに応用したい方 × 深層生成モデル・自己教師あり学習の詳細な理論を知りたい方 3

発表概要データを理解し信号処理に活用 ◼ 深層生成モデル: データの生成過程を獲得 ◦ Flowのための可逆なモデルの発展 ◦ GAN・VAEの深化 ◼
自己教師あり学習: データの潜在的な特徴を獲得 ◦ 時系列データや3Dデータへの応用 ◼ 応用: DNNを用いた信号処理 ◦ 深層生成モデルを事前情報として使った信号処理 4

深層生成モデルの概要複雑かつ非自明な生成過程のモデリング ◼ DNNを用いた確率モデルでリアルなデータの生成を実現 ◦ 例1: 顔画像生成 (StyleGAN) ◦ 例2:
音声合成 (WaveNet launches in the Google Assistant*) • 自然音声と区別のつかない音声を合成可能 • 近年，条件付けで所望の声質での合成も可能に上図: T. Karras et al., “A Style-Based Generator Architecture for Generative Adversarial Networks,” in CVPR, Figure 8より該当部分抜粋, 2019. *音源: “WaveNet launches in the Google Assistant,” https://deepmind.com/blog/article/wavenet-launches-google-assistant (2020/03/06) 基準合成画像 “逆”画像 5

深層生成モデルの応用サンプリングに限らない生成モデルの応用 ◼ 例1: GANを用いた異常検知 ◼ 例2: VAEを用いた音声強調学習済みの深層生成モデルからデータの正常性を評価可能
⇒ 生成以外にも利用可能上図: T. Schlegl et al., “Unsupervised anomaly detection with generative adversarial networks to guide marker discovery,” in IPMI, Figure 1, 2017. 下図: “Statistical Speech Enhancement Based on Probabilistic Integration of Variational Autoencoder and Non-Negative Matrix Factorization,” http://sap.ist.i.kyoto-u.ac.jp/members/yoshiaki/demo/vae-nmf/ (2020/0306) 6

Variational autoencoderの概要 DNNを用いた生成モデルと推論モデルの学習 ◼ 変分ベイズの枠組みにDNNを導入 ◦ 潜在変数を持つ生成モデルの拡張 ◦ Encoderは潜在変数への推論モデル，Decoderが生成モデル ◼
潜在変数の事前分布が必要 ◦ 学習は対数周辺尤度の下限(ELBO) を最大化 ◦ ELBOの最大化に潜在変数の事前分布が必要(e.g., 正規分布) Dec. Enc. 7

Generative adversarial networkの概要敵対的学習による自由度の高い学習 ◼ 暗黙的な生成モデルの学習 ◦ データの尤度を最大化する代わりに敵対的学習を利用 ⇒ 未知のデータの分布と生成分布のJS-Div最小化
◼ 敵対的学習の不安定性 ◦ 一般的にGANの学習は不安定(e.g., Mode collapse) ◦ 様々な学習テクニックや正則化法が存在 Gen. Dis. Real/Fake Fake image Real image 8

Flowの概要生成と推論を１つのモデルで実現 ◼ 可逆なDNNに限定したことで対数尤度最大化で学習可能 ◦ 可逆な変換を繰り返し複雑なデータの分布を単純な分布に変換 ◦ 単一のモデルで生成と潜在変数の推論が可能 ◼ FlowのためのDNNの条件
◦ 可逆な変換が学習できる構造であること ◦ 写像のヤコビアンの行列式の計算が簡単であること ⇒ DNNの構造を大きく制限 Inverse Flow 9

GAN, VAE, Flowの比較各深層生成モデルの比較 ◼ 各モデルの比較 ◦ VAE・Flowは尤度にもとづいた学習 ⇒ 目的関数の計算に推論モデルを利用
◦ GANは尤度の代わりに敵対的学習の枠組みを利用 ⇒ 自由度は高いが推論モデルがない学習基準学習対象 DNN構造 VAE 変分下限最大化 Encoder Decoder 自由 GAN 敵対的学習 Generator Discriminator 自由 Flow 対数尤度最大化 Flow 可逆 10

深層生成モデル@NeurIPS2019 (1/2) Flowの台頭 ◼ 1件 ⇒ 約12件へと発表件数増加 ◦ NeurIPS2018のGlowが火付け役(現在約360引用) ◦
NeurIPS2019ではモデル拡張に関する研究が多数 ◼ 画像変換や声質変換といった応用よりの発表も複数 ◦ Blow: a single-scale hyperconditioned flow for non-parallel raw- audio voice conversion • 潜在変数への推論 + サンプリング変換による声質変換 ⇒ 推論が近似なく簡単に計算できるFlowのメリットを活用 Inverse Flow D. P. Kingma and P. Dhariwal, “Glow: Generative flow with invertible 1x1 convolutions,” in NeurIPS, 2018. J. Serrà et al., “Blow: a single-scale hyperconditioned flow for non-parallel raw-audio voice conversion,” in NeurIPS, 2019. 11

深層生成モデル@NeurIPS2019 (2/2) GAN・VAEの深化 ◼ GAN: 圧倒的人気は継続 ◦ GANの学習理論・安定化の話は継続的に注目されているトピック • 本発表ではクラス分類タスクを正則化に用いたDNNに注目
◦ Nonparametric Density Estimation & Convergence Rates for GANs under Besov IPM Losses (Honorable Mention Outstanding Paper Award) • ノンパラメトリックな確率密度推定における収束レートの解析 • ロス関数の選択が学習にどう効いてくるのかを理論的に示唆 ◼ VAE: 理論よりの発表多数 ◦ 昨年と変わらず約10件の発表 ◦ 潜在変数の事前分布の設計に関する発表に注目 A. Uppal et al., “Nonparametric Density Estimation & Convergence Rates for GANs under Besov IPM Losses,” in NeurIPS, 2019. 12

NeurIPS2019における注目ポイント1 Flowのための可逆なモデルの拡張 ◼ 従来のモデルの課題 ◦ ヤコビアンの行列式を効率よく計算するためにモデルを制限 ⇒ GANやVAEよりも学習できる写像の自由度が低い ◼ 従来のFlowに使われてきたモデルの例
◦ ヤコビアンが特定の形式になるようにモデルを制限 ⇒ 学習時にかかるメモリや計算時間を短縮するため ◦ 有名なFlow • Planar Flow: ヤコビアンが対角行列 + ランク1行列 • Coupling Flows: ヤコビアンがスパースな構造をもつ下三角行列 • Autoregressive Flows: ヤコビアンが下三角行列 13

MintNet Flowのための可逆な層の特徴づけ ◼ ヤコビアンが三角行列となる写像の特徴 ◦ 和と積に関して閉じている ◦ その写像とヤコビアンが非特異ならば可逆主な従来のモデルは過度に制限を受けた構造図:
Y. Song et al., “MintNet: Building invertible neural networks with masked convolutions,” in NeurIPS, Figure 2, 2019. 14

MintNet Flowのための可逆な層の特徴づけ ◼ Fixed point iterationによる逆写像の計算 ◦ 橙色の領域の写像であれば以下の反復計算で逆写像を近似可能 ◦ 並列化に適しており，理想的には計算コストはO(T)
◦ 従来のautoregressive flowでは，計算コストはO(D)かつD≫T ◼ Mint layer: 橙色の領域の写像をmasked conv.で表現 ◦ Masked conv.: カーネルが因果的な構造を持つ畳み込みアルゴリズム: Y. Song et al., “MintNet: Building invertible neural networks with masked convolutions,” in NeurIPS, Algorithm 1, 2019. 15

Residual Flows for Invertible Generative Modeling DNNの構造の制約がないFlow ◼ 従来手法: i-ResNet
◦ Residual blockを持つ可逆な写像を構築 ◦ 写像としての自由度は高いがコスト関数の計算コスト大 ⇒ 効率的なヤコビアンの行列式の計算方法を提案 • ヤコビアンの行列式を無限級数の和のトレースに変換 ⇒ 無限級数を打ち切ることで近似計算リプシッツ定数を1以下に制限 T. Q. Chen et al., “Residual Flows for Invertible Generative Modeling,” in NeurIPS, 2019. 16

Residual Flows for Invertible Generative Modeling DNNの構造の制約がないFlow ◼ 提案: Russian
roulette estimator ◦ i-ResNetにおける打ち切りによる近似ではバイアスが発生 ◦ Russian roulette estimator: バイアスが発生しない近似法 ◦ i-ResNetの学習が失敗する場合でも頑健に学習可能図: T. Q. Chen et al., “Residual Flows for Invertible Generative Modeling,” in NeurIPS, Figure 2, 2019. 17

NeurIPS2019における注目ポイント2 GANの学習安定化の生成モデル的解釈 ◼ 学習安定化のテクニック ◦ AC-GAN = conditional GAN +
axially classifier • GANにより生成された画像のクラス分類タスクを補助的に利用 ◦ SS-GAN = BigGAN + self-supervised training • 画像を回転させ，その回転角を識別するタスクを補助的に利用 ⇒ どちらもクラス分類タスクを利用 ◼ 安定化テクニックの生成モデル的解釈 ◦ Vanilla GANは生成分布とデータの分布の間のJS-Div最小化に対応 ◦ クラス分類ロスが加わると…？ A. Odena et al., “Conditional Image Synthesis With Auxiliary Classifier GANs,” in ICML, 2017. T. Chen et al., “Self-supervised GANs via auxiliary rotation loss,” in CVPR, 2019. 18

Twin Auxiliary Classifiers GAN 多様なデータ生成のためのAC-GANの拡張 ◼ AC-GANの課題 ◦ クラス分類タスクは，生成データがどのクラスにあたるかのばらつき
(|)をとらえられていない ⇒ 各クラス(青，緑，赤)におけるデータの多様性が減少 ⇒ 似た生成データのみを生成してしまう図: M. Gong et al., “Twin Auxiliary Classifiers GAN,” in NeurIPS, Figure 2より該当部分抜粋, 2019. 19

Twin Auxiliary Classifiers GAN 多様なデータ生成のためのAC-GANの拡張 ◼ TAC-GAN ◦ ばらつきを直接評価するのは困難 ◦
一定の条件下でばらつきはJS-Divで計算できるためGANと同じ敵対的学習の枠組みでクラスのばらつきを評価可能 ◦ ターゲットの分布に近づいていることを確認図: M. Gong et al., “Twin Auxiliary Classifiers GAN,” in NeurIPS, Figure 2より該当部分抜粋, 2019. 20

Self-supervised GAN: Analysis and Improve- ment with Multi-class Minimax Game
安定的な学習のためのSS-GANの理論拡張 ◼ 従来手法: Self-supervised GAN (SS-GAN) ◦ GANの学習は識別境界が大きく変化するため学習が不安定 ◦ 学習安定化のために回転角を予測する自己教師あり学習を利用図: T. Chen et al., “Self-supervised GANs via auxiliary rotation loss,” in CVPR, Figure 1, 2019. 21

Self-supervised GAN: Analysis and Improve- ment with Multi-class Minimax Game
安定的な学習のためのSS-GANの理論拡張 ◼ 提案手法: Self-supervised GAN (SS-GAN) ◦ 分類タスクを別で解くのではなく，”偽(生成)”も含めた多クラス分類問題として定式化 TAC-GANと同じく補助分類タスクがデータのばらつきを制限していた点の改善図: S. Minaee et al., “Self-supervised GAN: Analysis and Improvement with Multi-class Minimax Game,” in NeurIPS, Figure 1, 2019. 22

NeurIPS2019における注目ポイント3 VAEの潜在変数の事前分布の設計手法の発展 ◼ 潜在変数の事後分布に対するover-regularization ◦ VAEの潜在変数がどのような事前分布を持っているかは非自明 ⇒ Vanilla VAEでは単純な正規分布を仮定 ⇒
複雑なデータの構造を表現しきれない ◼ 複雑な事前分布をデータセット全体から学習 ◦ Learning Hierarchical Priors in VAEs: • 潜在変数の事前分布を階層構造にし，データから学習 ◦ Generating Diverse High-Fidelity Images with VQ-VAE-2 • ベクトル量子化を用いて潜在変数を離散的なコードブックで表現(このコードブックを学習) • 潜在変数による条件付けを多段で行う画像生成 A. Klushyn et al., “Learning Hierarchical Priors in VAEs,” in NeurIPS, 2019. A. Razavi et al., “Generating Diverse High-Fidelity Images with VQ-VAE-2,” in NeurIPS, 2019. 23

深層生成モデル関連まとめ各アプローチごとに深化 ◼ Flowのための可逆なモデルが増加 ◦ モデルの自由度が上がればすぐに応用・発展手法が登場 • WaveGlow(ICASSP2019) ⇒ WaveFFJORD
(ICASSP2020) • Glow(NeurIPS2018) ⇒ VideoFlow (ICLR2020) ◼ NeurIPS2019から今後へ ◦ Flow Contrastive Estimation of Energy-Based Models • Bayesian deep learning workshopで発表 • 紹介しなかったEnergy-based model (EBM)とFlowを同時に学習 • 応用に合わせてEBMとFlowを使い分け各モデルの得意・不得意を理解し補いあうアプローチへ R. Gao et al., “Flow Contrastive Estimation of Energy-Based Models,” in NeurIPS Bayesian deep learning workshop, 2019. 24

自己教師あり学習教師がないデータから特徴を獲得 ◼ Pretextタスクを解くことで有効な特徴を獲得 ◦ Pretextタスク: 教師をデータ自身から生成できるタスク ◦ Downstreamタスク: 本来解きたいタスク(教師ラベル少)
◼ 教師なし学習との関係(個人的見解) ◦ 教師なし学習: 人が用意した教師ラベルを用いない学習全般 ◦ 自己教師あり学習: Pretextタスクを解くことで教師なし学習を実現 (流行に乗って多くの研究が自己教師あり学習といっている節も？) 特徴抽出 Pretextタスク Loss 特徴抽出 (重み固定) Targetタスク Loss ラベル識別器鈴⽊智之, “Self-supervised Learningによる特徴表現学習,” http://hirokatsukataoka.net/temp/cvpaper.challenge/SSL_0929_final.pdf (2020/04/10) 25

自己教師あり学習の人気 Yann LeCunのAAAI2020講演 “Self-supervised learning,” https://drive.google.com/file/d/1r-mDL4IX_hzZLDBKp8_e8VZqD7fOzBkF/view (2020/0306) 教師なし学習 → 自己教師あり学習
26

自己教師あり学習の人気 Yann LeCunのAAAI2020講演信号の一部を教師とし，それ以外の部分から推定 “Self-supervised learning,” https://drive.google.com/file/d/1r-mDL4IX_hzZLDBKp8_e8VZqD7fOzBkF/view (2020/0306) 27

自己教師あり学習の例自然言語処理における事前学習 ◼ BERT ◦ マスクした単語の予測/隣接文かの判定を行うことで後段処理に適切な言語表現を獲得 ⇒ これらのタスクは文章のみから学習可能 ◼
ALBERT ◦ BERTの発展手法(モデルの軽量化等) ◦ PretextタスクとしてSentence order predictionを提案 • 隣接文予測の一般化として，２つの文が正順かを判定 • 画像認識においても並び替えによる自己教師あり学習が存在 NLPにおける事前学習はいわゆる自己教師あり学習とは異なるが，本質的な目的は同じ(よりよい表現を事前に獲得したい) J. Devlin et al., “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,” in NAACL, 2019. Z. Lan et al., “ALBERT: A Lite BERT for Self-supervised Learning of Language Representations,” in ICLR, 2020. 28

自己教師あり学習の例画像認識のための事前学習 ◼ 多種多様な方法が提案 ◦ ジグソーパズル: 画像のパッチを適切に並び替え ◦ CNNで画像から特徴抽出を行い，FCNで位置関係を推定図:
M. Noroozi and P. Favaro, “Unsupervised learning of visual representations by solving jigsaw puzzles,” in ICCV, Figure 1より該当部分抜粋, 2016. 29

自己教師あり学習の例画像認識のための事前学習 ◼ 多種多様な方法が提案 ◦ 画像を90°単位で回転させ，回転角を推定 ◦ シンプルだが高性能で現在でもベースラインとして重要図: S.
Gidaris et al., “Unsupervised representation learning by predicting image rotations,” in ICLR, Figure 2, 2018. 30

自己教師あり学習の有効性教師あり学習の性能を改善 ◼ 少数のラベリングでも高い性能を実現 ◦ ImageNetで10%のラベリングのみでtop5精度91.2%を達成 ◦ 100%ラベリングした場合でも自己教師あり事前学習で性能改善図: O.
J. Hénaff et al., “Data-Efficient Image Recognition with Contrastive Predictive Coding”, arXiv:1905.09272, Figure 1, 2019. 表: 同文献, Table3, 2019. PASCAL 2007での物体検出 31

自己教師あり学習@NeurIPS2019 学習方法・広い適用範囲 ◼ “Self-supervised”とつく発表件数は10件 ◦ 他にも”Representation learning”の文脈で使用例あり ◦ 本発表では様々なデータ形式への応用例を紹介 ◦
相互情報量に基づいた学習も人気トピック ◼ 相互情報量に基づいた学習の例 ◦ Putting An End to End-to-End: Gradient-Isolated Learning of Representations (Honorable Mention Outstanding Paper Award) • End-to-endの誤差逆伝播を必要としない表現学習法を提案 • 勾配消失の問題を改善 ◦ Unsupervised State Representation Learning in Atari • 強化学習における状態表現学習へ自己教師あり学習を応用 S Löwe et al., “Putting An End to End-to-End: Gradient-Isolated Learning of Representations ,” in NeurIPS, 2019. A. Anand et al., “Unsupervised State Representation Learning in Atari,” in NeurIPS, 2019. 32

Unsupervised Scalable Representation Learning for Multivariate Time Series 時系列データへの応用 ◼
Triplet lossの教師なし拡張 ◦ 目的: 一般の時系列データから特徴表現を獲得 ◦ 同じ系列の一部分をpositive sample，別の時系列の一部分を negative sampleとしてTriplet lossで学習 ◦ Causal CNNで時系列の情報を取りだし Global average pooling 時間方向圧縮図: J. Y. Franceschi et al., “Unsupervised Scalable Representation Learning for Multivariate Time Series,” in NeurIPS, Figure 1, 2019. UCR archive に対し得られた表現を可視化 33

Self-Supervised Deep Learning on Point Clouds by Reconstructing Space 3次元点群データへの応用
◼ 3次元点群データに対する自己教師あり学習 ◦ 課題: 膨大な各点に対し人手でラベリングを行うのは高コスト ◦ 点群をボクセルで切り分けクラスラベルを作成 ◦ ボクセル単位で位置を入れ替えたうえで，各点のラベルを推定図: J. Sauder and B. Sievers, “Self-Supervised Deep Learning on Point Clouds by Reconstructing Space,” in NeurIPS, Figure 1, 2019. 表: 同文献, Table 2, 2019. ModelNet40での点群分類 34

Scene Representation Networks: Continuous 3D- Structure-Aware Neural Scene Representations 3D空間表現を多視点幾何と深層学習で獲得
(Honorable Mention Outstanding Paper Award) ◼ 複数方向からの2D画像のみで3次元構造を学習 ◦ 単なるAutoEncoderではなく多視点幾何の技術に基づいたデコーダ (Neural Renderer)を利用 ⇒ 既存技術にもとづいたDNNの構成図: “Scene Representation Networks: Continuous 3D-Structure-Aware Neural Scene Representations,” (slide), https://vsitzmann.github.io/srns/slides.pdf (2020/04/10)

自己教師あり学習関連まとめまだまだ発展途上 ◼ データの種類に合った様々な補助タスクの設計 ◦ 点群データ: 点群の位置に基づいたラベルを推定 ◦ 時系列データ: Triplet
lossの教師なし拡張 ◼ NeurIPS2019 → 今後 ◦ コンテキストを理解して初めて解けるpretextタスクを人手で設定 ⇒「なぜそのタスクを解くのか？」の根拠が弱い ⇒ 後段のタスクから理論的にpretextタスクを構築できるか？ ◦ 相互情報量に基づいた学習が画像・音声で注目されつつある ⇒ データ形式によらない学習法として今後汎用的に使われるか？ 36

信号処理への応用雑音除去や補間など汎用的な技術 ◼ 画像の雑音除去の例 ◦ High-Quality Self-Supervised Deep Image Denoising
◼ 画像の復元の例 ◦ Global Guarantees for Blind Demodulation with Generative Priors 上図: Sue. Laine et al., “High-Quality Self-Supervised Deep Image Denoising,” in NeurIPS, Figure 4より該当部分を抜粋, 2019. 下図: P. Hand and B. Joshi, “Global Guarantees for Blind Demodulation with Generative Priors,” in NeurIPS, Figure 2より該当部分を抜粋, 2019. 37

Solving inverse problems with deep networks: New architectures, theoretical foundations,
and applications Workshopの開催 ◼ 概要 ◦ 従来: 統計モデルや物理モデルにもとづいた手法が主流 ◦ 近年: 深層学習は基本性能が高いが大きな誤差を生み出す危険性も ⇒ これら2つの手法をつなげ新たな方向へ ◼ トピックは大きく2つ ◦ 逆問題への深層生成モデルを使ったアプローチ • 従来の統計モデルと比べての優位性などについて理論的な側面から議論 ◦ 自己教師あり学習による雑音除去 • 雑音の乗った画像の各ピクセルの値をその周辺のピクセルの情報から推定することで，雑音除去を実現 38

深層生成モデルを用いたアプローチ深層生成モデルをPriorとして信号処理に利用 ◼ 従来: データのスパース性・低ランク性を利用 ◦ データがどのような性質を持つか人手でモデル化し罰則項を設計 ◼ 近年: 深層生成モデルを活用
観測信号信号の性質(e.g., スパース性)に基づいて人手で設計した罰則深層生成モデルで生成できる範囲内にデータを制限 39

Global Guarantees for Blind Demodulation with Generative Priors 深層生成モデルを使った場合の理論保証 ◼
問題設定 ◦ ２変数の積に関する逆問題(例: 前のスライドの数字画像の復元) ◦ 各変数に関して深層生成モデルを設定し，潜在変数 , を推定 ◼ 主定理 ◦ 局所最小解は4つの双曲型集合に含まれる(勾配降下で到達可能) 大域最適解に到達する様な初期化法も合わせて提案図: P. Hand and B. Joshi, “Global Guarantees for Blind Demodulation with Generative Priors,” in NeurIPS, Figure 1より該当部分抜粋, 2019. MNIST画像歪み画像 40

まとめデータを理解し信号処理に活用 ◼ 深層生成モデル: データの生成過程を獲得 ◦ Flowのための可逆なDNNの構造が拡充 ◦ GAN，VAE，Flow以外の手法も発展 ◦
複数のアプローチを組み合わせる部分に発展の余地あり ◼ 自己教師あり学習: データの潜在的な特徴を獲得 ◦ 時系列データや3Dデータへの応用先が拡大 ◦ 発展途上であり，なぜその事前学習タスクでいいのか不明瞭 ◼ 応用: DNNを用いた信号処理 ◦ 深層生成モデルを使った信号処理の理論保証 ◦ 上記2つの技術の発展をどう効率的に取り込んでいけるかが鍵 41

Trends in Deep Generative model and Self-superv...

Trends in Deep Generative model and Self-supervised Learning at NeurIPS2019

More Decks by Yoshiki Masuyama

Other Decks in Research

Featured

Transcript