音声合成 (WaveNet launches in the Google Assistant*) • 自然音声と区別のつかない音声を合成可能 • 近年,条件付けで所望の声質での合成も可能に 上図: T. Karras et al., “A Style-Based Generator Architecture for Generative Adversarial Networks,” in CVPR, Figure 8より該当部分抜粋, 2019. *音源: “WaveNet launches in the Google Assistant,” https://deepmind.com/blog/article/wavenet-launches-google-assistant (2020/03/06) 基準 合成画像 “逆”画像 5
⇒ 生成以外にも利用可能 上図: T. Schlegl et al., “Unsupervised anomaly detection with generative adversarial networks to guide marker discovery,” in IPMI, Figure 1, 2017. 下図: “Statistical Speech Enhancement Based on Probabilistic Integration of Variational Autoencoder and Non-Negative Matrix Factorization,” http://sap.ist.i.kyoto-u.ac.jp/members/yoshiaki/demo/vae-nmf/ (2020/0306) 6
NeurIPS2019ではモデル拡張に関する研究が多数 ◼ 画像変換や声質変換といった応用よりの発表も複数 ◦ Blow: a single-scale hyperconditioned flow for non-parallel raw- audio voice conversion • 潜在変数への推論 + サンプリング変換による声質変換 ⇒ 推論が近似なく簡単に計算できるFlowのメリットを活用 Inverse Flow D. P. Kingma and P. Dhariwal, “Glow: Generative flow with invertible 1x1 convolutions,” in NeurIPS, 2018. J. Serrà et al., “Blow: a single-scale hyperconditioned flow for non-parallel raw-audio voice conversion,” in NeurIPS, 2019. 11
◦ Nonparametric Density Estimation & Convergence Rates for GANs under Besov IPM Losses (Honorable Mention Outstanding Paper Award) • ノンパラメトリックな確率密度推定における収束レートの解析 • ロス関数の選択が学習にどう効いてくるのかを理論的に示唆 ◼ VAE: 理論よりの発表多数 ◦ 昨年と変わらず約10件の発表 ◦ 潜在変数の事前分布の設計に関する発表に注目 A. Uppal et al., “Nonparametric Density Estimation & Convergence Rates for GANs under Besov IPM Losses,” in NeurIPS, 2019. 12
◦ 従来のautoregressive flowでは,計算コストはO(D)かつD≫T ◼ Mint layer: 橙色の領域の写像をmasked conv.で表現 ◦ Masked conv.: カーネルが因果的な構造を持つ畳み込み アルゴリズム: Y. Song et al., “MintNet: Building invertible neural networks with masked convolutions,” in NeurIPS, Algorithm 1, 2019. 15
(|)をとらえられていない ⇒ 各クラス(青,緑,赤)におけるデータの多様性が減少 ⇒ 似た生成データのみを生成してしまう 図: M. Gong et al., “Twin Auxiliary Classifiers GAN,” in NeurIPS, Figure 2より該当部分抜粋, 2019. 19
一定の条件下でばらつきはJS-Divで計算できるためGANと同じ敵対 的学習の枠組みでクラスのばらつきを評価可能 ◦ ターゲットの分布に近づいていることを確認 図: M. Gong et al., “Twin Auxiliary Classifiers GAN,” in NeurIPS, Figure 2より該当部分抜粋, 2019. 20
複雑なデータの構造を表現しきれない ◼ 複雑な事前分布をデータセット全体から学習 ◦ Learning Hierarchical Priors in VAEs: • 潜在変数の事前分布を階層構造にし,データから学習 ◦ Generating Diverse High-Fidelity Images with VQ-VAE-2 • ベクトル量子化を用いて潜在変数を離散的なコードブックで 表現(このコードブックを学習) • 潜在変数による条件付けを多段で行う画像生成 A. Klushyn et al., “Learning Hierarchical Priors in VAEs,” in NeurIPS, 2019. A. Razavi et al., “Generating Diverse High-Fidelity Images with VQ-VAE-2,” in NeurIPS, 2019. 23
ALBERT ◦ BERTの発展手法(モデルの軽量化等) ◦ PretextタスクとしてSentence order predictionを提案 • 隣接文予測の一般化として,2つの文が正順かを判定 • 画像認識においても並び替えによる自己教師あり学習が存在 NLPにおける事前学習はいわゆる自己教師あり学習とは異なるが, 本質的な目的は同じ(よりよい表現を事前に獲得したい) J. Devlin et al., “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,” in NAACL, 2019. Z. Lan et al., “ALBERT: A Lite BERT for Self-supervised Learning of Language Representations,” in ICLR, 2020. 28
相互情報量に基づいた学習も人気トピック ◼ 相互情報量に基づいた学習の例 ◦ Putting An End to End-to-End: Gradient-Isolated Learning of Representations (Honorable Mention Outstanding Paper Award) • End-to-endの誤差逆伝播を必要としない表現学習法を提案 • 勾配消失の問題を改善 ◦ Unsupervised State Representation Learning in Atari • 強化学習における状態表現学習へ自己教師あり学習を応用 S Löwe et al., “Putting An End to End-to-End: Gradient-Isolated Learning of Representations ,” in NeurIPS, 2019. A. Anand et al., “Unsupervised State Representation Learning in Atari,” in NeurIPS, 2019. 32
◼ 3次元点群データに対する自己教師あり学習 ◦ 課題: 膨大な各点に対し人手でラベリングを行うのは高コスト ◦ 点群をボクセルで切り分けクラスラベルを作成 ◦ ボクセル単位で位置を入れ替えたうえで,各点のラベルを推定 図: J. Sauder and B. Sievers, “Self-Supervised Deep Learning on Point Clouds by Reconstructing Space,” in NeurIPS, Figure 1, 2019. 表: 同文献, Table 2, 2019. ModelNet40での点群分類 34
◼ 画像の復元の例 ◦ Global Guarantees for Blind Demodulation with Generative Priors 上図: Sue. Laine et al., “High-Quality Self-Supervised Deep Image Denoising,” in NeurIPS, Figure 4より該当部分を抜粋, 2019. 下図: P. Hand and B. Joshi, “Global Guarantees for Blind Demodulation with Generative Priors,” in NeurIPS, Figure 2より該当部分を抜粋, 2019. 37