= a , s , x 、出力は = 1,1, 1 , … , , , ~(|a ) ~(| , s ) ~(|,, x ) 属性ラベルの生成 音素状態系列 = {1 , … , }の生成 音響特徴量系列 = {1 , … , }の生成 For n = 1, … , : For = 1, … , : 音響特徴量 の生成 ~( |1 , … , , , , ) ~( |1 , … , −1 , , s ) For = 1, … , : 音素状態 の生成 話者情報やスタイル情報、 話題などが最初に決まる、 簡単なカテゴリカル分布でモデル化 属性ラベルと音素状態系列に依存 して、話者性などを踏まえた 音響特徴量系列が決まる、 多様なコンテキストを考慮可能な ニューラル音声合成でモデル化 属性ラベルに依存して、話す内容やスピー ドを踏まえた音素状態系列が決まる、 コンテキストを考慮した自己回帰生成が 可能なニューラル言語モデルでモデル化 音響モデル用データがどのように生成されたかを仮定