Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ニューラル言語モデルとニューラル音声合成を用いた音響モデル用学習データの生成モデルの検討

Ryo Masumura
September 12, 2018

 ニューラル言語モデルとニューラル音声合成を用いた音響モデル用学習データの生成モデルの検討

Ryo Masumura

September 12, 2018
Tweet

More Decks by Ryo Masumura

Other Decks in Research

Transcript

  1. Copyright©2018 NTT corp. All Rights Reserved. 本研究の概要 2  現状の到達点

     オリジナルデータから構築したニューラル音響モデルと比較して、 提案モデルで生成したデータから構築したニューラル音響モデルは 7割程度の性能を達成 • それなりにうまくいっているとも見れるし、全然ダメとも見れる  生成のイメージ  ニューラル言語モデルで音素状態系列を生成し、 ニューラル音声合成で音響特徴量系列を生成  音響モデル用学習データとは?  一般的なニューラル音響モデルの場合、 音響特徴量系列とラベル系列(音素状態系列)の組の集合  音響モデル用学習データをランダムに生成可能 な生成モデルを検討
  2. Copyright©2018 NTT corp. All Rights Reserved. 3 本研究のモチベーション  実サービスのログによる音響モデル用学習データは、

    個人情報等のプライバシー情報を含むため、 限られた期日を超えたらデータを消去しなければならない  なぜ必要なのか?  セキュアなストレージに保存されることもしばしばあり、 他の実データログと組み合わせた音響モデル学習も困難 限られた日数(例えば90日)で 消さなければならない サービスごとにセキュアな ストレージが異なり、 混ぜて学習が困難  オリジナルの音響モデル用学習データを完全に消去 しても、永続的に音響モデルを学習できる環境の構築
  3. Copyright©2018 NTT corp. All Rights Reserved. 4 本研究のアプローチ  モデルに変換すれば、個人を特定する情報は消える

    音響モデル用 学習データ の生成モデル オリジナルの 音響モデル用学習データ 学習 生成 再構成した 音響モデル用学習データ 音響モデル 学習 音響モデル 学習 同等の性能が出れば、 元のデータを消去しても、 いつでも同等のモデルを学習可能 これを精緻に モデル化したい  「同質」とは、生成したデータから学習した音響モデルが、 元のデータから学習した音響モデルと同等の性能がでること  オリジナルデータと同質のデータを生成可能な 生成モデルを構築できれば良いのでは?
  4. Copyright©2018 NTT corp. All Rights Reserved. 5 音響モデル用学習データの定義  音響特徴量系列:

    = {1 , … , }  音素状態系列: = {1 , … , }  対数メルフィルタバンク等の連続値ベクトル系列  状態クラスタリングにより事前に決定した 状態共有トライフォンの離散シンボル系列  属性ラベル:  話者情報や話題情報などを表す離散シンボル (CSJであれば,A01F0001等の講演番号など)  音響モデル用データ: = { 1, 1, 1 , … , (, , )}  DNN-HMMハイブリッド型の音声認識システム で用いられるニューラル音響モデル用のデータを想定
  5. Copyright©2018 NTT corp. All Rights Reserved. 6 生成過程のモデル化  入力は

    = a , s , x 、出力は = 1,1, 1 , … , , , ~(|a ) ~(| , s ) ~(|,, x ) 属性ラベルの生成 音素状態系列 = {1 , … , }の生成 音響特徴量系列 = {1 , … , }の生成 For n = 1, … , : For = 1, … , : 音響特徴量 の生成 ~( |1 , … , , , , ) ~( |1 , … , −1 , , s ) For = 1, … , : 音素状態 の生成 話者情報やスタイル情報、 話題などが最初に決まる、 簡単なカテゴリカル分布でモデル化 属性ラベルと音素状態系列に依存 して、話者性などを踏まえた 音響特徴量系列が決まる、 多様なコンテキストを考慮可能な ニューラル音声合成でモデル化 属性ラベルに依存して、話す内容やスピー ドを踏まえた音素状態系列が決まる、 コンテキストを考慮した自己回帰生成が 可能なニューラル言語モデルでモデル化  音響モデル用データがどのように生成されたかを仮定
  6. Copyright©2018 NTT corp. All Rights Reserved. 7 属性ラベルの生成 a =

    Categorical(; a )  学習済みのカテゴリカル分布のパラメータを元に、 属性ラベルを生成 a = [ 1 , , , … , || , , ]  例えばCSJにおいて講演IDを属性ラベルとして使う場合、 各講演IDの発話数を数えればパラメータとなる a a の形のサイコロを ふって、出た目の 属性ラベルを生成  カテゴリカル分布(ユニグラム)によりモデル化
  7. Copyright©2018 NTT corp. All Rights Reserved. 8 音素状態系列の生成 0 1

    1 2 −2 −1 −1 0 1 −2 −1 1 2 −1 … … 1 , … , −1 , , s = Categorical( ; (1 , … , −1 , , s ))  カテゴリカル分布のパラメータを学習済みのニューラル言 語モデルで予測し、分布に従い次の音素状態を生成 :ニューラル言語モデル 属性ラベルの 埋め込みベクトル化 音素状態の 埋め込みベクトル化 LSTMで履歴を考慮して 埋め込みベクトル化 ソフトマックス層で、 カテゴリカル分布の パラメータ化 s : の形のサイコロを ふって、出た目の 音素状態を生成  LSTM言語モデルによりモデル化
  8. Copyright©2018 NTT corp. All Rights Reserved. 9 音響特徴量系列の生成  正規分布の平均ベクトルと分散ベクトルを学習済みのニュー

    ラル音声合成で予測し、分布に従い次の音素状態を生成 1 2 −1 1 , 1 2 1 2 −1 1 2 −1 1 2 −1 … … … 2 , 2 2 −1 , −1 2 , 2 属性ラベルの 埋め込みベクトル化 音素状態の 埋め込みベクトル化 BLSTMで 前後の履歴を考慮して 埋め込みベクトル化 線形層で、正規分布 の平均ベクトルと 分散ベクトルを推定 1 , … , , , , x = Normal( ; 1 , … , , , , x , exp(()(1 , … , , , , x ))) :ニューラル音声合成 2 :ニューラル音声合成 x : 正規分布に従い、 最尤orランダムに 特徴量を生成  密度ネットワークニューラル音声合成によりモデル化
  9. Copyright©2018 NTT corp. All Rights Reserved. 評価実験 10 データ種類 データ量(時間)

    音響モデル用学習データ CSJ 3,214講演 506.0 評価データ CSJ 30講演 6.4  ニューラル音響モデルの構造  音響モデル用学習データの生成モデルの構造  入力:フィルタバンク特徴量120次元 中間:2DConvolution(128x5x11)-2DMaxPooling(2x1) -LSTM512-ReLU1024 出力: ソフトマックス層3072ユニット  ニューラル言語モデル部分 • 属性ラベル埋め込みサイズ: 128 • 音素状態埋め込みサイズ: 650 • LSTMユニットサイズ 650 • ソフトマックス出力層: 3,072  ニューラル音声合成部分 • 属性ラベル埋め込みサイズ: 128 • 音素状態埋め込みサイズ: 650 • BLSTMユニットサイズ: 3x1024 • 線形出力層: 240 (平均+分散)  ニューラル音響モデルの音声認識性能で評価
  10. Copyright©2018 NTT corp. All Rights Reserved. 評価の前に 11 -8 -6

    -4 -2 0 2 4 6 8 400 450 500 550 600 ログメルフィルタバンク係数の大きさ フレームインデクス オリジナルのデータ ニューラル音声合成から最尤で再構成したデータ ニューラル音声合成から分布に従いランダムに生成したデータ  属性ラベルと音素状態系列はオリジナルのものを用いて、 音響特徴量系列のみを生成モデルで生成  最尤基準に生成するとオリジナルにかなり近いがややオーバースムージング  分布に従いランダムに生成すると分散でオリジナルよりも揺れがはるかに大きい RMSE ニューラル音声合成から 最尤で再構成したデータ 0.48 ニューラル音声合成から分布に 従いランダムに生成したデータ 0.73  音響特徴量生成部分が良さそうかを調査
  11. Copyright©2018 NTT corp. All Rights Reserved. 評価結果 12 学習データ量 (時間)

    単語誤り率 (%) オリジナルのデータ 504 13.62 生成モデルから生成したデータ (特徴量生成は最尤基準) 50 44.44 500 44.60 5,000 44.31 生成モデルから生成したデータ (特徴量生成は分布に 従い確率的) 50 45.49 500 40.44 5,000 39.65  生成モデルで生成したデータから構築した学習することで、 オリジナルのデータから学習した場合の7割程度の性能を達成  分布に従った確率的な生成は最尤基準の生成と比べてオリジナルと は遠い音響特徴量を生成しているにも関わらず音声認識には有効  最尤基準の生成は少しのデータを生成するのみで性能がサチっている  評価データに対する単語誤り率による評価
  12. Copyright©2018 NTT corp. All Rights Reserved. 13  なぜいまひとつなのか? 

    音素状態系列の生成はパープレキシティの観点でみても ほぼうまくいっているため、音響特徴量系列に課題あり おわりに  現状の到達点  生成モデルで生成したデータから構築した学習することで、 オリジナルのデータから学習した場合の7割程度の性能を達成 • オーバースムージングを避けつつ元の系列を精緻に再現できないといけない?  今後の予定  より精緻な音響特徴量生成を導入したモデル化  Data Augmentationの観点での利用 • ニューラル言語モデルのような自己回帰生成がランダム生成には理想的?  音響モデル用学習データをランダムに生成可能 な生成モデルを検討