Upgrade to Pro — share decks privately, control downloads, hide ads and more …

階層再帰型Encoder-Decoderに基づく談話コンテキストEnd-to-End音声認識

 階層再帰型Encoder-Decoderに基づく談話コンテキストEnd-to-End音声認識

Ryo Masumura

March 06, 2019
Tweet

More Decks by Ryo Masumura

Other Decks in Research

Transcript

  1. Copyright©2019 NTT corp. All Rights Reserved. 階層再帰型Encoder-Decoderに基づく 談話コンテキストEnd-to-End音声認識 増村 亮,

    田中 智大, 森谷 崇史, 篠原 雄介, 大庭 隆伸, 青野 裕司 日本電信電話株式会社 NTTメディアインテリジェンス研究所
  2. Copyright©2019 NTT corp. All Rights Reserved. 2 研究背景  End-to-End音声認識の技術検討が進んできている

     2種類の方法が主流  CTCに基づくEnd-to-End音声認識 [Sak+ 2015][Zwig+ 2017]  Encoder-Decoderに基づくEnd-to-End音声認識 [Bahdanau+ 2015][Chan+ 2015]  RNN transducerに基づくEnd-to-End音声認識 [Rao+ 2017]  その他にもいくつかの方法が取り組まれている  RNN neural alignerに基づくEnd-to-End音声認識 [Sak+ 2017]  音響特徴量系列からテキストを直接生成するタイプのモデル化 を本研究におけるEnd-to-End音声認識とする  Transformerに基づくEnd-to-End音声認識 [Dong+ 2018]
  3. Copyright©2019 NTT corp. All Rights Reserved. 3 Encoder-Decoderに基づく手法  条件付きの言語モデル(自己回帰生成モデル)でモデル化

     注意機構を用いることで、音響特徴量系列とテキスト(トークン系列) のアライメントを考慮することができ、高精度な音声認識を実現可能 Attention Decoder () Speech Encoder , = =1 ( |1 , … , −1 , , ) トークン系列: ={1 , … , } 音響特徴量系列: ={1 , … , } 音響特徴量系列を 連続ベクトル系列に変換 連続ベクトル系列の情報をもとに、 自己回帰によりトークン系列を生成
  4. Copyright©2019 NTT corp. All Rights Reserved. 4 課題  従来のEnd-to-End音声認識は発話単位のモデル化であり、

    発話境界を越えたコンテキストを考慮できない  例えば、CSJ(談話タスク)のような長い音声を扱う場合でも、 従来は発話ごとに区切って、発話独立に音声認識を実施 Attention Decoder (1) Speech Encoder 1 1 Attention Decoder (2) Speech Encoder 2 2 Attention Decoder (3) Speech Encoder 3 3 音響特徴量系列の系列 {1,…, } トークン系列の系列 {1,…, }  発話境界を越えたコンテキストを捉えないと誤るケース 講演 (話題) 音声認識結果 正解文 S00F0019 (北海道旅行) 解散物がおいしいっていう 海産物がおいしいっていう A01M0097 (音声関連) それから第二世と第四声 それから第二声と第四声 A06F0135 (男女の分析) これは生産の比較です これは性差の比較です 発話系列であっても、 発話ごとに独立に音声認識
  5. Copyright©2019 NTT corp. All Rights Reserved. 5 アイデア  条件付き言語モデルであるEncoder-Decoderモデルと

    長距離コンテキスト言語モデルを組み合わせられるのでは? Hierarchical Text Encoder −2 −1 Decoder (−1) (−1) −2 Hierarchical Text Encoder −1 Decoder ()  長距離コンテキスト言語モデル: 階層再帰型エンコーダデコーダに基づくモデル化により、 発話境界を跨ぐコンテキストを利用した言語予測が可能なモデル化  対話における応答生成が初出 [Sordoni+ 2016][Serban+ 2017]  音声認識のリスコアリングでも利用 [Masumura+ 2018] 1,…, = =1 (|1,…, −1, ) = =1 =1 ( |1 , … , −1 , 1,…, −1, )
  6. Copyright©2019 NTT corp. All Rights Reserved. 提案手法  談話コンテキストEnd-to-End音声認識 

    発話境界を跨ぐ長距離言語コンテキストと対象発話の音声を考慮 Hierarchical Text Encoder Extended Attention Decoder Speech Encoder −1 Hierarchical Text Encoder −2 −1 () Extended Attention Decoder Speech Encoder −1 −1 (−1) −2 (−2) 1, … , 1, … , , = =1 (|1, … , −1, , ) = =1 =1 ( |1 , … , −1 , 1,..., −1, , ) 談話始端1から 直前発話−1までの テキスト情報を ベクトルに埋め込む 音響特徴量系列を 連続ベクトル系列に変換 音声情報が埋め込まれた と言語コンテキスト からテキストを生成 6
  7. Copyright©2019 NTT corp. All Rights Reserved. モデルの詳細な構造  ある発話のトークン単位の予測分布を求めるために、 音声コンテキストと長距離言語コンテキストを使う流れ

    (1 ) (2 ) 0 1 −1 1 発話内の直前のトークンまでの情報 と長距離の言語コンテキストまでを 埋め込んだベクトルを作成 言語コンテキストを元に 音声に注意機構をかけて、 固定長ベクトル化 音声コンテキスト、 発話内の言語コンテキスト、 そして長距離の言語コンテキスト から次のトークンの分布を推定 1 談話始端から直前の 発話までを埋め込む  階層再帰型Encoder-Decoderに音声入力を扱えるように拡張 7
  8. Copyright©2019 NTT corp. All Rights Reserved. 学習  談話単位の音声とテキストの組のデータ集合から学習 

    発話単位の音声とテキストの組のデータ集合のデータから、 事前学習を行うことが有効  発話単位のデータも、1発話のみの談話単位のデータとみなすこと ができるため、同一のフレームワークで事前学習可能 = arg min − =1 =1 log (|1, … , −1, , )  対数尤度最大化基準 (クロスエントロピー最小化) 8
  9. Copyright©2019 NTT corp. All Rights Reserved. デコーディング  従来と同様に発話ごとにビームサーチでデコーディング、 ただし生成した情報が次のコンテキストになる

     音声認識誤りが発生すれば、その情報もコンテキストとして 次の発話の生成に考慮してしまうことになるため、 誤りの伝搬に繋がり得ることに注意 = arg max (| 1 , … , −1 , , ) +1 = arg max +1 (+1| 1 , … , , +1, ) +2 = arg max +2 (+2| 1 , … , +1 , +2, ) 9
  10. Copyright©2019 NTT corp. All Rights Reserved. 評価実験 データ データ量 (時間)

    講演数 総発話数 総文字数 Train 512.6 3,181 413,240 13,349,780 Valid 4.8 33 4,166 122,097 Test 1 1.8 10 1,272 48,064 Test 2 1.9 10 1,292 47,970 Test 3 1.3 10 1,385 32,089  日本語話し言葉コーパス(CSJ)による評価  CSJの発話単位への分割はKaldiレシピに従う  トークンには文字を採用  学習データの頻度2以上の総文字種類数3,084で全てを語彙に採用 10
  11. Copyright©2019 NTT corp. All Rights Reserved. 実験条件  提案手法の談話コンテキストEnd-to-End音声認識と 従来手法の発話単位End-to-End音声認識を比較

     ネットワーク構成  音声エンコーダ: 40次元対数メルフィルタバンク係数を30msのサ ブサンプリングで入力した4層512ユニットBLSTM  階層テキストエンコーダ:512次元単語分散表現+トークン単位の 1層512ユニットLSTM+発話単位の1層512ユニットLSTM  テキストデコーダ: 512次元単語分散表現+トークン単位の 1層512ユニットLSTM+512ユニット非線形変換層(tanh)+ 3084ユニット線形変換層(softmax)  その他の条件  最適化: ミニバッチ確率的勾配降下法、 (学習率は開発セットで調整、アーリーストッピング実施)  デコーディング: ビーム幅は20 11
  12. Copyright©2019 NTT corp. All Rights Reserved. 評価①  End-to-End音声認識の言語モデルとしての性能を パープレキシティにより評価

    End-to-End音声認識 音声エンコーダ Test 1 Test 2 Test 3 発話単位 w/o 12.48 14.13 14.75 談話コンテキスト w/o 11.62 12.95 13.26 発話単位 w 1.35 1.28 1.32 談話コンテキスト w 1.31 1.25 1.28  音声エンコーダを除いてモデル化を行う場合 (条件付けされていない言語モデル)についても評価  発話境界を越えた言語コンテキストを考慮することにより、 言語予測性能が改善していることを確認 12
  13. Copyright©2019 NTT corp. All Rights Reserved. 評価②  End-to-End音声認識の文字誤り率(%)による評価 End-to-End音声認識

    t番目の発話のコンテキスト Test 1 Test 2 Test 3 発話単位 - 11.5 8.8 10.8 談話コンテキスト 音声認識結果 (t-1) 11.3 8.5 10.4 談話コンテキスト 音声認識結果(1:t-1) 10.7 8.1 10.0  談話コンテキストEnd-to-End音声認識については、 直前の1発話のみをコンテキストとして用いる場合や、 正解文をコンテキストとして用いる場合(オラクル条件)とも比較  発話境界を越えた言語コンテキストを考慮することにより、 文字誤り率が改善できることを確認  コンテキストに用いる情報に音声認識誤りを含まれていても、 悪影響は小さい 談話コンテキスト 正解文 (t-1) 11.3 8.5 10.3 談話コンテキスト 正解文 (1:t-1) 10.6 8.0 9.8 13
  14. Copyright©2019 NTT corp. All Rights Reserved. 考察  談話コンテキストを考慮することによる改善例、改悪例 

    発話内の情報だけでは難しい or 不可能な場合の性能を改善  前の発話の言語的な制約に引きずられて、音響的には 全く異なる文を生成してしまい誤る事象も、ごくたまに発生 講演 (前の話題) 発話単位 談話コンテキスト S00F0019 (北海道旅行) 解散物がおいしいっていう 海産物がおいしいっていう S00F0019 (北海道旅行) 講演の 公園の ※大通り公園 S00M0008 (演出) アドリブの子音を アドリブのシーンを A01M0097 (音声関連) それから第二世と第四声 それから第二声と第四声 A06F0135 (男女の分析) これは生産の比較です これは性差の比較です 講演 (前の文の最後) 発話単位 談話コンテキスト S00F0148 (デパートに…) よく遊びにいってたんですけど 結構遊びにいってたんですけど 14
  15. Copyright©2019 NTT corp. All Rights Reserved. まとめ  談話コンテキスト(発話境界を越えた情報)を考慮可能な End-to-End音声認識を提案

     発話単位のEncoder-Decoderモデルと長距離コンテキスト言語モデル を組み合わせた条件付き言語モデルに基づくモデル構造  発話単位Encoder-Decoderモデルと比較して、 10%程度の音声認識誤りを削減  発話内では判別がほぼ不可能な同音異義語等の問題も解決 15