深層生成モデルによるメディア生成

深層生成モデルによるメディア（画像・音声）生成亀岡弘和日本電信電話株式会社 NTTコミュニケーション科学基礎研究所 [email protected] 筑波大学大学院システム情報工学研究科社会工学専攻社会工学ファシリテーター育成プログラム「メディア生成AI」 2020年 1/17(金)
14:00‐18:00, 1/24(金) 14:00‐18:00, 2/7(金) 14:00‐18:00

自己紹介亀岡弘和（かめおかひろかず） 略歴： 2007 東京大学大学院情報理工学系研究科システム情報学専攻博士課程修了 2007 日本電信電話株式会社入社 NTTコミュニケーション科学基礎研究所配属
2011 東京大学大学院情報理工学系研究科システム情報学専攻客員准教授 2015 NTTコミュニケーション科学基礎研究所特別研究員 2016 国立情報学研究所客員准教授 2019 筑波大学大学院システム情報工学研究科客員准教授 専門：  音声・音楽などの音響信号を対象とした信号処理や機械学習  計算論的聴覚情景分析，音源分離，音声合成・変換など

本講義の目的と目標 深層学習(AI)研究に触れる  深層学習(AI)の研究の面白さや凄さを体感する  特に深層生成モデルと呼ぶ近年発展が著しい分野を扱う 温故知新（故きを温ねて新しきを知る）  深層生成モデルと古典的な確率モデルの関連を理解する 
古典的な確率モデルがベースにする普遍的な考え方を学ぶ  信号処理の基礎を学ぶ プログラミングに触れる  簡単なプログラミングの演習を通して，信号やデータの扱いに慣れ，確率モデルを用いた各種処理を実装する

深層生成モデル (Deep Generative Models) 深層学習×生成モデル＝深層生成モデル  ニューラルネットワークの能力を活かして極めてリアルなデータ（画像や音声など）の生成を可能にする確率モデル 代表例 
自己回帰生成ネットワーク (AutoregressiveGenerativeNetwork)  変分自己符号化器 (VariationalAutoEncoder)  フローベース生成モデル (Flow‐based Generative Model)  敵対的生成ネットワーク (GenerativeAdversarialNetwork)

VAEによるランダム顔画像生成 [Kingma+2014] 画像サンプルは下記サイトより https://github.com/podgorskiy/VAE 学習データ学習した確率モデルからランダム生成した画像

Crossmodal Voice/Face Synthesis [Kameoka+2018] VAEによる声からの顔予測と顔からの声質予測入力音声のみから話者の顔を予測する入力音声の声質を、入力顔画像に合わせて変換する音声・画像サンプルは下記サイトより
http://www.kecl.ntt.co.jp/people/kameoka.hirokazu/Demos/crossmodal‐vc/index.html

テキスト音声合成（テキストのみから音声を生成）のサンプル 音声波形のランダム生成 WaveNet (AGN) による音声波形生成 [van den Oord+2016] 音声サンプルは下記サイトより https://deepmind.com/blog/article/wavenet‐generative‐model‐raw‐audio
DNN音声合成 [Zen+2013] WaveNet 英語音声で学習した WaveNetより生成した波形ピアノ曲で学習した WaveNetより生成した波形

Flowによるランダム顔画像生成 [Kingma+2018] 画像サンプルは下記サイトより https://openai.com/blog/glow/ Glowと呼ぶ方式による生成例

GANによるランダム顔画像生成 [Goodfellow+2014, Karras+2019] 画像サンプルは下記サイトより無限に生成可能 https://thispersondoesnotexist.com/ NVIDIAが開発したStyleGANと呼ぶ方式による生成例

講義内容 深層生成モデルの実応用例の紹介 深層生成モデルと古典的な確率モデルの関連  自己回帰生成ネット (AGN) vs 自己回帰モデル (AutoRegressive model)
 変分自己符号化器 (VAE) vs 主成分分析 (Principal Component Analysis )  フローベース生成モデル (Flow) vs 独立成分分析 (Independent Component Analysis ) 古典的確率モデルのおさらい  ARモデル（＝線形予測分析），PCA，ICA プログラミング演習 ニューラルネットワークの基礎 深層生成モデルのアイディアの解説  AGN (WaveNet)，VAE，Flow，敵対的生成ネット (GAN)

超高次元データの生成モデル 音声波形や画像は超高次元なデータ  音声波形（44.1kHzサンプリング）の場合：わずか1秒間で40,000次元  画像（1024x1024ピクセル）の場合： 1,000,000次元 高次元であるだけでなく複雑な相関構造（つまり同時分布）をもつ 各種深層生成モデルのアイディア
 AGN  VAE  Flow  GAN ⇒どうやって , … , の複雑な分布をモデル化するか？本講義でそれぞれの考え方を解説

各種深層生成モデルと古典的確率モデル敵対的生成ネット (GAN) 自己回帰ネット (AGN) 自己回帰 (AR)モデルニューラルネット (NN) 変分自己符号化器
(VAE) 主成分分析 (PCA) ニューラルネット (NN) フローベース生成モデル (Flow) 独立成分分析 (ICA) ニューラルネット (NN) 深層生成モデル古典的確率モデル

ニューラルネットワークの基礎自己回帰(AutoRegressive)モデル線形予測分析

線形予測分析 (LinearPrediction) ARモデルを用いた音声信号の分析法 音声情報処理研究の歴史の幕開けとなった信号処理技術（統計的手法を取り入れた初めての音声研究として有名）  音声分析合成（ボコーダ）  音声音響符号化 
音声認識のための音声特徴量  音声強調（残響除去、ブラインド音声分離）などへの応用 日本発の技術としても知られる  Levinson‐Durbin‐板倉アルゴリズム、偏自己相関(PARCOR)、線スペクトル対(Line Spectrum Pair) の発明や板倉齋藤距離の発見など、板倉文忠氏（名古屋大学名誉教授）の電電公社時代の活躍が世界的に有名

「予測誤差」を最小化 動機：符号化への応用  少ないパラメータで音声信号を表現したい 問題：線形予測誤差の最小化  時刻の信号のサンプル値を、過去のサンプル値 ,
, … , の線形結合で「予測」  「予測」の誤差を最小にするには結合係数（予測係数という）をどう置けば良い？ time

最小二乗誤差推定による定式化 問題：すべてのでとなるを求めたい  目的関数  最小解ではを満たすため・・・

最小二乗誤差推定による定式化 連立方程式に帰着以上より最適予測係数は以下の方程式を満たすこの方程式をYule‐Walker方程式という

線形予測符号化 (Linear Predictive Coding) 時系列信号の可逆圧縮符号化の標準的な方式時系列信号予測係数予測誤差 Golomb‐Rice符号化符号化して
伝送線形予測分析器出現頻度の高い振幅値に短い符号の割り当て予測誤差の振幅は 0付近に集中

線形系としての解釈 所与の信号から予測誤差を出力する線形システム 予測誤差を入力として所与の信号を出力する線形システムは？所与の信号予測誤差移動平均システム（全零モデル）予測誤差所与の信号自己回帰システム（全極モデル）

線形系としての解釈 伝達関数にを代入したものは周波数応答⇒声道スペクトル 自己回帰システムで表現した音声生成過程モデルと解釈可能音声波形声道インパルス応答声帯振動 Fourier 変換
Fourier 変換 Fourier 変換声帯スペクトル声道スペクトル音声スペクトル声帯振動音声波形自己回帰システム声帯声道

線形予測分析によるソース・フィルタ分解 音声の分析と合成声帯音声波形声道特性声帯振動波形 • ソースフィルタモデル（音声生成過程モデル）パルス列音源白色雑音源
声帯波形線形システム合成音声声道特性（有声音源）（無声音源）分析：音声波形を声帯波形と声道特性に分解合成：推定した声帯情報と声道情報から元音声を再現

WaveNet（ニューラルボコーダ）の登場 [van den Oord+2016] 線形方式から非線形方式へ  線形予測分析  ニューラルネットの導入 ⇔
where 過去サンプルの線形結合 (モデルとしての表現力は限定的) ガウス分布 where , … , , を入力としての分布を出力するニューラルネットを表す

WaveNet [van den Oord+2016] 最近DeepMindにより発表された高品質音声合成方式 アイディアのポイント  波形のサンプルごとの自己回帰型生成モデル  量子化された離散振幅値の条件付確率分布を畳み込みニューラルネット
(ConvolutionalNeuralNetwork)でモデル化

WaveNet [van den Oord+2016] 振幅の量子化 ( ‐law符号化) 条件付分布のモデル化  Causal
Conv  Gated CNN  Residual Net  Dilated Conv WaveNetは高品質だがをもとに1サンプルずつ逐次生成するため、波形生成に時間がかかるのが難点振幅を256個の離散値に量子化（層目）時刻より前の個の振幅値系列 , ⋯ , s , s を入力の離散分布（256次元）を出力

WaveNet [van den Oord+2016] 下記ページよりWaveNetの音声サンプルを聴くことが可能 https://deepmind.com/blog/article/wavenet‐generative‐model‐raw‐audio

 AGN  のようにfactorizeしてモデル化・学習の対象を1次元の分布に帰着させることで問題を簡単化  学習できたらによりを生成可能  VAE, Flow, GANは？ ⇒どうやって , … , の複雑な分布をモデル化するか？ [van den Oord+2016] ⇒本日はVAEの考え方について解説

次元圧縮の考え方 高次元のデータであっても要素間に何らかの相関構造や制約があれば，低次元空間に圧縮可能  圧縮可能とは，データを低次元空間に変換しても情報を（ほぼ）失わず逆変換により（ほぼ）元に戻せる，ということ  例えば，以下のようなデータは圧縮可能か？いずれも2次元空間に圧縮可能（2次元平面に分布）
（2次元曲面に分布）

次元圧縮法の1つ  射影したときにばらつきが大きくなる軸を1つ1つ見つける  各データが局在する低次元な線形部分空間を見つける 定式化  データ
の下でとなるようなおよびを求める問題（ただし，）  基底の直交制約：  これを解くと，最適なはの固有ベクトルになる主成分分析 (PrincipalComponentAnalysis) ⇔ 平均を0とする

主成分分析 (PrincipalComponentAnalysis) まず，これをに代入（低次元空間への直交射影）

主成分分析 (PrincipalComponentAnalysis)  の最適化問題  ノルム制約条件を考慮したラグランジュ関数  をに関して偏微分して0と置くと固有値問題に帰着

PCAの生成モデル的解釈 データの生成プロセス  の最尤推定低次元＆無相関高次元＆相関ありがPCAに相当[Tipping1999]
潜在変数空間

PCAの生成モデル的解釈 一種の自己符号化器低次元空間

PCAの生成モデル的解釈 一種の自己符号化器低次元空間ベイズ則より

PCAの生成モデル的解釈 一種の自己符号化器低次元空間符号化器(Encoder) 復号化器(Decoder) っぽい（同じように分布する）データをランダム生成できるベイズ則より

PCAで求まった復号化器によるデータ生成学習データ生成データ曲面状に分布するデータを再現する能力は乏しい

変分自己符号化器 (VariationalAutoEncoder) [Kingma+2014] NNを用いたPCAの非線形拡張低次元空間復号化器(Decoder) ここがNN （と
の非線形な関係を表現可能）はどうなる？？ベイズ則より分母計算が困難

変分自己符号化器 (VariationalAutoEncoder) [Kingma+2014] NNを用いたPCAの非線形拡張低次元空間符号化器(Encoder) 復号化器(Decoder) ここがNN （
との非線形な関係を表現可能）を近似する NNを導入

変分自己符号化器 (VariationalAutoEncoder) [Kingma+2014] NNを用いたPCAの非線形拡張低次元空間符号化器(Encoder) 復号化器(Decoder) ここがNN （
との非線形な関係を表現可能）を近似する NNを導入両NNが無矛盾となるように学習

VAEの定式化  から導かれる事後分布をで近似する Kullback‐Leibler (KL)ダイバージェンス最小化問題として定式化 VAE学習ロス

VAEの学習 学習ロス：  第一項  第二項 ※ は学習データによるサンプル平均を表すガウス分布同士のKLダイバージェンスに関する期待値計算
はによって具体形が決まるの非線形関数になっており，期待値は解析的に得られないのサンプリングによるモンテカルロ近似は？パラメータがサンプリング元の分布に含まれるためこれではに関する勾配が計算できないに関して微分可能！

変数変換トリック  ⇔ を利用すると，パラメータをサンプリング元の分布から[ ]の中に移すことができたのサンプリングによるモンテカルロ近似 ⇒
に関して微分可能！のときとの誤差に相当（つまり自己符号化器として解釈可能）

VAEの復号化器によるデータ生成学習データ生成データ VAE PCA

Crossmodal Voice/Face Synthesis [Kameoka+2018] Time Time 言語情報容貌特徴できるだけ一致させる
声質特徴抽出器 Channel 入力音声変換音声言語情報抽出器容貌特徴抽出器音声合成器入力顔画像顔画像生成器声質特徴音声変換器顔画像予測器 5つのNNを同時学習言語抽出器容貌特徴抽出器音声合成器声質特徴抽出器顔画像生成器：入力音声の発話内容に相当する情報を抽出：入力顔画像の容貌に相当する情報を抽出：発話内容と画像特徴から音声を生成：音声の声質特徴に相当する情報 ̂を抽出：声質特徴 ̂から顔画像を生成

 AGN  のようにfactorizeしてモデル化・学習の対象を1次元の分布に帰着させることで問題を簡単化  学習できたらによりを生成可能  VAE  要素間に相関構造や制約がある高次元データは低次元空間に圧縮可能という考え方  符号化器と復号化器のをNNでモデル化し，となるように , を学習  学習できたらによりを生成可能  Flow, GANは？ ⇒どうやって , … , の複雑な分布をモデル化するか？ ⇒本日はFlow, GANの考え方について解説

ニューラルネットワークの基礎独立成分分析 (Independent Component Analysis )

独立成分分析(ICA)によるブラインド音源分離 ブラインド音源分離  複数のマイクロホンで取得した観測信号から同時に鳴っている複数の音源信号を分離する技術 独立成分分析  ブラインド音源分離を行うための統計的手法 ICAによる分離信号 http://www.kecl.ntt.co.jp/icl/signal/sawada/demo/bss2to4/index.html

ブラインド音源分離の問題元の信号は独立依存関係があるなるべく独立に • 一方から他方が推測できない • 同じ成分が双方に入っている
• 一方から他方が推測できる • 具体的にはどうやる？

問題の定式化  個の音源信号が混ざり合い，個の観測信号が得られたとする 分離行列により分離信号を生成する。 
の推定は観測信号のみから行う  分離信号が互いに独立になるようにする

混合信号の統計的性質 1 2 4 8 →赤い線に近づく振幅のヒストグラム混合信号

中心極限定理 (Central Limit Theorem) 元々の信号がどのような統計的性質をもったものであれ，多くの信号を足し合わせると，その振幅値の分布は正規分布に近づく平均０分散１の正規分布

最尤法によるICAの定式化 統計的独立性と非ガウス性 最尤法によるICA  音源の確率分布に非ガウス分布を仮定し分離行列を最尤推定音源数振幅頻度振幅
振幅の頻度分布が正規分布に近づいていく（中心極限定理）非ガウス的ガウス的時間分離信号の非ガウス性の最大化により音源信号を復元可能

最尤法によるICAの定式化 分離行列を推定 観測信号の確率密度関数（の尤度関数）  確率密度関数の変数変換  音源信号の独立性と非Gauss性を仮定
：Laplace分布など

ICAのパラメータ推定アルゴリズム 通常の勾配法  更新則  毎ステップ逆行列計算が必要 自然勾配法 [Amari+1996]  の実質的な変化分
のノルム制約下で最急降下方向を求める  逆行列計算が不要（はステップサイズ）

音源信号の散布図

音源信号と混合信号の散布図

自然勾配法による推定の様子 赤（□）：を初期値に設定 緑（△）：を初期値に設定

ICAの考え方 観測信号を音源信号の可逆な線形変換としてモデル化 音源信号の確率分布を仮定⇒観測信号の確率分布を導出⇒ が最大になるように
を推定（可逆変換）最大化 NNにより非線形化・多層化したもの＝Flow

ニューラルネットワークの基礎 Flow

Flowの考え方  観測データを潜在変数の可逆な非線形変換(NN)でモデル化 潜在変数の確率分布を仮定⇒観測データの確率分布を導出⇒ が最大になるようにNNパラメータを推定 ...
[Dinh+2016]

Flowの考え方  観測データを潜在変数の可逆な非線形変換(NN)でモデル化 潜在変数の確率分布を仮定⇒観測データの確率分布を導出⇒ が最大になるようにNNパラメータを推定 ...
のときより，ヤコビ行列 (Jacobian) の分布が，変換関数との分布を用いて表される ⇒

Flowのイメージ https://blog.evjang.com/2018/01/nf1.html

Flowの考え方  観測データを潜在変数の可逆な非線形変換(NN)でモデル化 潜在変数の確率分布を仮定⇒観測データの確率分布を導出⇒ が最大になるようにNNパラメータを推定 
変数変換を多数回行い（既知の単純な）確率分布を変形していくことで複雑な分布形を表現  が最大になるように（の中のパラメータ）を学習  学習できたらでを生成可能 ... 学習では，生成ではを利用

可逆変換関数のモデル化  をどうモデル化するか  標準的な全結合NN？ ... 活性化関数は逆関数が存在するものを選ぶ
→ はどうなる？よりよって最悪の計算が必要（を三角行列に制約？⇒かなり制約的）

可逆変換関数のモデル化  をどうモデル化するか  Nonlinear Independent Components Estimation (NICE) [Dinh+2014]
 Additive coupling layer  Random permutation layer ⇒要素を置換（置換行列を乗じる）  Scaling layer ⇒対角行列を乗じる ... : where where : ⇒ split copy non‐ linear

可逆変換関数のモデル化  をどうモデル化するか  Real‐valued non‐volume preserving (R‐NVP) flow [Dinh+2016]
 R‐NVP transformation layer  Glow [Kingma+2018] はNICEとR‐NVPの拡張 ... split : : ⇒ copy non‐ linear

可逆変換関数のモデル化  をどうモデル化するか  Masked Autoregressive Flow (MAF) [Papamakarios+2017] ...
→ ：ヤコビ行列：尤度関数の評価は並列計算可能： for 1, … , : 生成に逐次計算が必要

可逆変換関数のモデル化  をどうモデル化するか  Inverse Autoregressive Flow (IAF) [Kingma+2017] ...
ヤコビ行列：尤度関数の評価に逐次計算が必要生成は並列計算可能 * ： → ：

Flowの考え方（再掲）  観測データを潜在変数の可逆な非線形変換(NN)でモデル化 潜在変数の確率分布を仮定⇒観測データの確率分布を導出⇒ が最大になるようにNNパラメータを推定 
変数変換を多数回行い（既知の単純な）確率分布を変形していくことで複雑な分布形を表現  が最大になるように（の中のパラメータ）を学習  学習できたらでを生成可能 ... 学習では，生成ではを利用

Generative Adversarial Network (GAN) [Goodfellow+2014] 分布形を仮定することなく学習サンプルの分布に従う擬似サンプルを生成する生成器を学習する枠組 実サンプルか生成器が生成した擬似サンプルかを識別する識別器
をだますようにを学習  もだまされないように学習は識別スコアを小さくしたい識別境界を越えたいは識別スコアを大きくしたい敵対ロス（から見た識別スコア） ⇒音声合成への応用も [Kaneko+2016][Saito+2016]

Generative Adversarial Network (GAN) [Goodfellow+2014] 分布フィッティングとしての解釈  がどういう時に敵対ロスは最大になるか？  よって
のみにとってのロスはとのJensen‐Shanon (JS) ダイバージェンス

GANの考え方 確率分布のモデル化を回避しようという考え方 尤度関数を用いない学習法 ⇒生成器と識別器を敵対的に学習 学習が進むとに従うサンプルを生成する生成器が得られる 学習できたらは
により生成可能

GANの問題点 学習が不安定になる傾向  との学習率のバランス調整が難しい  モード崩壊（同じようなサンプルしか生成しないようなが得られる） 原因はJSダイバージェンスにある？ 
JSダイバージェンスは各分布がdisjoint（重なりがない）場合に∞になる ⇒ が未熟な状態でがに達していると目的関数が∞になる（をどう更新しても目的関数を小さくできない状況に・・・）

Wasserstein GAN [Arjovsky+2017] Wasserstein距離でとの近さを測ることで前記問題を解決 Wasserstein距離の定義  のイメージ 
ヒストグラムとヒストグラムの近さを測る規準  ヒストグラムを各地点に堆積した石と解釈し、のように堆積した石を運んでのような地形にする際にかかる最小の「労力」 ※ 1の場合は「Earth Mover’s Distance (EMD)」と呼ぶ A B

Earth Mover’s Distance (EMD) 下記のような場合EMDはになる  分布同士がdisjointであっても適切に分布間の近さを測ることができる

Earth Mover’s Distance (EMD) EMDの計算自体が最適化問題（最小輸送問題）  地点から地点に運ぶ石の量： ,
 （労力）= （石の量）（運ぶ距離）と定義すると、ヒストグラムとヒストグラムのEMDは以下となる  とが離散的な場合、線形計画問題の形式で書けるただし地点に運ばれる石の総量地点から運ばれる石の総量

EMDを計算するための線形計画問題が分かればEMDが分かる主問題双対問題強双対定理

（参考）線形計画問題の双対問題の導出 主問題 双対問題このベクトルの要素の中に一つでも 0でない値があると目的関数値は ∞になる ⇒そのような領域は考えなくて良い minとmaxの順序を入れ替える変数変換
を消去

EMDを計算するための線形計画問題  と置くと 不等式制約はと書けるので双対問題（再掲） A B も
も非負値なので、ももできるだけ大きくしたい（しかし制約がある）

EMDを計算するための線形計画問題 不等式制約のイメージ 従ってEMD（離散バージョン）は  とが連続分布の場合はもし , ⋯
, が決まっていれば , ⋯ , の上限値が決まる（逆も然り）のときとするとはに関して最大になる Lipschitz連続関数

Wasserstein GAN の学習アルゴリズム  とのEMDを最小化するを求める最適化問題  とをニューラルネットワークで表現
 それぞれのパラメータおよびを学習  がLipschitz連続となるようにするためのアイディア  Weight Clipping [Arjovsky+2017]  Gradient Penalty [Gulrajani+2017]  Spectral Normalization [Miyato+2018] GANと同様minmax問題（敵対的学習）になっている

各種生成モデルのアイディアのまとめ AGN  を学習  学習できたらによりを生成可能 VAE 
符号化器と復号化器のをNNでモデル化し，となるように , を学習  学習できたらによりを生成可能 Flow  が最大になるように , … , （NNパラメータ）を学習  学習できたらでを生成可能 GAN  生成器 ( )と識別器 ( )を敵対的に学習  学習できたらは ~ , により生成可能

深層生成モデルによるメディア生成

深層生成モデルによるメディア生成

Other Decks in Research

Featured

Transcript