Slide 6
Slide 6 text
Copyright©2018 NTT corp. All Rights Reserved. 6
生成過程のモデル化
入力は = a
, s
, x
、出力は = 1,1, 1 , … , , ,
~(|a
)
~(| , s
)
~(|,, x
)
属性ラベルの生成
音素状態系列 = {1
, … ,
}の生成
音響特徴量系列 = {1
, … ,
}の生成
For n = 1, … , :
For = 1, … , : 音響特徴量
の生成
~(
|1
, … ,
, , ,
)
~(
|1
, … , −1
, , s
)
For = 1, … , : 音素状態
の生成
話者情報やスタイル情報、
話題などが最初に決まる、
簡単なカテゴリカル分布でモデル化
属性ラベルと音素状態系列に依存
して、話者性などを踏まえた
音響特徴量系列が決まる、
多様なコンテキストを考慮可能な
ニューラル音声合成でモデル化
属性ラベルに依存して、話す内容やスピー
ドを踏まえた音素状態系列が決まる、
コンテキストを考慮した自己回帰生成が
可能なニューラル言語モデルでモデル化
音響モデル用データがどのように生成されたかを仮定