階層再帰型Encoder-Decoderに基づく談話コンテキストEnd-to-End音声認識

Slide 1

Slide 1 text

Slide 2

Slide 2 text

Copyright©2019 NTT corp. All Rights Reserved. 2 研究背景  End-to-End音声認識の技術検討が進んできている  2種類の方法が主流  CTCに基づくEnd-to-End音声認識 [Sak+ 2015][Zwig+ 2017]  Encoder-Decoderに基づくEnd-to-End音声認識 [Bahdanau+ 2015][Chan+ 2015]  RNN transducerに基づくEnd-to-End音声認識 [Rao+ 2017]  その他にもいくつかの方法が取り組まれている  RNN neural alignerに基づくEnd-to-End音声認識 [Sak+ 2017]  音響特徴量系列からテキストを直接生成するタイプのモデル化を本研究におけるEnd-to-End音声認識とする  Transformerに基づくEnd-to-End音声認識 [Dong+ 2018]

Slide 3

Slide 3 text

Copyright©2019 NTT corp. All Rights Reserved. 3 Encoder-Decoderに基づく手法  条件付きの言語モデル(自己回帰生成モデル)でモデル化  注意機構を用いることで、音響特徴量系列とテキスト(トークン系列) のアライメントを考慮することができ、高精度な音声認識を実現可能 Attention Decoder () Speech Encoder , = =1 ( |1 , … , −1 , , ) トークン系列: ={1 , … , } 音響特徴量系列: ={1 , … , } 音響特徴量系列を連続ベクトル系列に変換連続ベクトル系列の情報をもとに、自己回帰によりトークン系列を生成

Slide 4

Slide 4 text

Copyright©2019 NTT corp. All Rights Reserved. 4 課題  従来のEnd-to-End音声認識は発話単位のモデル化であり、発話境界を越えたコンテキストを考慮できない  例えば、CSJ(談話タスク)のような長い音声を扱う場合でも、従来は発話ごとに区切って、発話独立に音声認識を実施 Attention Decoder (1) Speech Encoder 1 1 Attention Decoder (2) Speech Encoder 2 2 Attention Decoder (3) Speech Encoder 3 3 音響特徴量系列の系列 {1,…, } トークン系列の系列 {1,…, }  発話境界を越えたコンテキストを捉えないと誤るケース講演 (話題) 音声認識結果正解文 S00F0019 (北海道旅行) 解散物がおいしいっていう海産物がおいしいっていう A01M0097 (音声関連) それから第二世と第四声それから第二声と第四声 A06F0135 (男女の分析) これは生産の比較ですこれは性差の比較です発話系列であっても、発話ごとに独立に音声認識

Slide 5

Slide 5 text

Copyright©2019 NTT corp. All Rights Reserved. 5 アイデア  条件付き言語モデルであるEncoder-Decoderモデルと長距離コンテキスト言語モデルを組み合わせられるのでは？ Hierarchical Text Encoder −2 −1 Decoder (−1) (−1) −2 Hierarchical Text Encoder −1 Decoder ()  長距離コンテキスト言語モデル: 階層再帰型エンコーダデコーダに基づくモデル化により、発話境界を跨ぐコンテキストを利用した言語予測が可能なモデル化  対話における応答生成が初出 [Sordoni+ 2016][Serban+ 2017]  音声認識のリスコアリングでも利用 [Masumura+ 2018] 1,…, = =1 (|1,…, −1, ) = =1 =1 ( |1 , … , −1 , 1,…, −1, )

Slide 6

Slide 6 text

Copyright©2019 NTT corp. All Rights Reserved. 提案手法  談話コンテキストEnd-to-End音声認識  発話境界を跨ぐ長距離言語コンテキストと対象発話の音声を考慮 Hierarchical Text Encoder Extended Attention Decoder Speech Encoder −1 Hierarchical Text Encoder −2 −1 () Extended Attention Decoder Speech Encoder −1 −1 (−1) −2 (−2) 1, … , 1, … , , = =1 (|1, … , −1, , ) = =1 =1 ( |1 , … , −1 , 1,..., −1, , ) 談話始端1から直前発話−1までのテキスト情報をベクトルに埋め込む音響特徴量系列を連続ベクトル系列に変換音声情報が埋め込まれたと言語コンテキストからテキストを生成 6

Slide 7

Slide 7 text

Copyright©2019 NTT corp. All Rights Reserved. モデルの詳細な構造  ある発話のトークン単位の予測分布を求めるために、音声コンテキストと長距離言語コンテキストを使う流れ (1 ) (2 ) 0 1 −1 1 発話内の直前のトークンまでの情報と長距離の言語コンテキストまでを埋め込んだベクトルを作成言語コンテキストを元に音声に注意機構をかけて、固定長ベクトル化音声コンテキスト、発話内の言語コンテキスト、そして長距離の言語コンテキストから次のトークンの分布を推定 1 談話始端から直前の発話までを埋め込む  階層再帰型Encoder-Decoderに音声入力を扱えるように拡張 7

Slide 8

Slide 8 text

Copyright©2019 NTT corp. All Rights Reserved. 学習  談話単位の音声とテキストの組のデータ集合から学習  発話単位の音声とテキストの組のデータ集合のデータから、事前学習を行うことが有効  発話単位のデータも、1発話のみの談話単位のデータとみなすことができるため、同一のフレームワークで事前学習可能 = arg min − =1 =1 log (|1, … , −1, , )  対数尤度最大化基準 (クロスエントロピー最小化) 8

Slide 9

Slide 9 text

Copyright©2019 NTT corp. All Rights Reserved. デコーディング  従来と同様に発話ごとにビームサーチでデコーディング、ただし生成した情報が次のコンテキストになる  音声認識誤りが発生すれば、その情報もコンテキストとして次の発話の生成に考慮してしまうことになるため、誤りの伝搬に繋がり得ることに注意 = arg max (| 1 , … , −1 , , ) +1 = arg max +1 (+1| 1 , … , , +1, ) +2 = arg max +2 (+2| 1 , … , +1 , +2, ) 9

Slide 10

Slide 10 text

Copyright©2019 NTT corp. All Rights Reserved. 評価実験データデータ量 (時間) 講演数総発話数総文字数 Train 512.6 3,181 413,240 13,349,780 Valid 4.8 33 4,166 122,097 Test 1 1.8 10 1,272 48,064 Test 2 1.9 10 1,292 47,970 Test 3 1.3 10 1,385 32,089  日本語話し言葉コーパス(CSJ)による評価  CSJの発話単位への分割はKaldiレシピに従う  トークンには文字を採用  学習データの頻度2以上の総文字種類数3,084で全てを語彙に採用 10

Slide 11

Slide 11 text

Copyright©2019 NTT corp. All Rights Reserved. 実験条件  提案手法の談話コンテキストEnd-to-End音声認識と従来手法の発話単位End-to-End音声認識を比較  ネットワーク構成  音声エンコーダ: 40次元対数メルフィルタバンク係数を30msのサブサンプリングで入力した4層512ユニットBLSTM  階層テキストエンコーダ:512次元単語分散表現+トークン単位の 1層512ユニットLSTM＋発話単位の1層512ユニットLSTM  テキストデコーダ: 512次元単語分散表現+トークン単位の 1層512ユニットLSTM+512ユニット非線形変換層(tanh)+ 3084ユニット線形変換層(softmax)  その他の条件  最適化: ミニバッチ確率的勾配降下法、 (学習率は開発セットで調整、アーリーストッピング実施)  デコーディング: ビーム幅は20 11

Slide 12

Slide 12 text

Copyright©2019 NTT corp. All Rights Reserved. 評価①  End-to-End音声認識の言語モデルとしての性能をパープレキシティにより評価 End-to-End音声認識音声エンコーダ Test 1 Test 2 Test 3 発話単位 w/o 12.48 14.13 14.75 談話コンテキスト w/o 11.62 12.95 13.26 発話単位 w 1.35 1.28 1.32 談話コンテキスト w 1.31 1.25 1.28  音声エンコーダを除いてモデル化を行う場合 (条件付けされていない言語モデル)についても評価  発話境界を越えた言語コンテキストを考慮することにより、言語予測性能が改善していることを確認 12

Slide 13

Slide 13 text

Copyright©2019 NTT corp. All Rights Reserved. 評価②  End-to-End音声認識の文字誤り率(%)による評価 End-to-End音声認識 t番目の発話のコンテキスト Test 1 Test 2 Test 3 発話単位 - 11.5 8.8 10.8 談話コンテキスト音声認識結果 (t-1) 11.3 8.5 10.4 談話コンテキスト音声認識結果(1:t-1) 10.7 8.1 10.0  談話コンテキストEnd-to-End音声認識については、直前の1発話のみをコンテキストとして用いる場合や、正解文をコンテキストとして用いる場合(オラクル条件)とも比較  発話境界を越えた言語コンテキストを考慮することにより、文字誤り率が改善できることを確認  コンテキストに用いる情報に音声認識誤りを含まれていても、悪影響は小さい談話コンテキスト正解文 (t-1) 11.3 8.5 10.3 談話コンテキスト正解文 (1:t-1) 10.6 8.0 9.8 13

Slide 14

Slide 14 text

Copyright©2019 NTT corp. All Rights Reserved. 考察  談話コンテキストを考慮することによる改善例、改悪例  発話内の情報だけでは難しい or 不可能な場合の性能を改善  前の発話の言語的な制約に引きずられて、音響的には全く異なる文を生成してしまい誤る事象も、ごくたまに発生講演 (前の話題) 発話単位談話コンテキスト S00F0019 (北海道旅行) 解散物がおいしいっていう海産物がおいしいっていう S00F0019 (北海道旅行) 講演の公園の ※大通り公園 S00M0008 (演出) アドリブの子音をアドリブのシーンを A01M0097 (音声関連) それから第二世と第四声それから第二声と第四声 A06F0135 (男女の分析) これは生産の比較ですこれは性差の比較です講演 (前の文の最後) 発話単位談話コンテキスト S00F0148 (デパートに…) よく遊びにいってたんですけど結構遊びにいってたんですけど 14

Slide 15

Slide 15 text

Copyright©2019 NTT corp. All Rights Reserved. まとめ  談話コンテキスト(発話境界を越えた情報)を考慮可能な End-to-End音声認識を提案  発話単位のEncoder-Decoderモデルと長距離コンテキスト言語モデルを組み合わせた条件付き言語モデルに基づくモデル構造  発話単位Encoder-Decoderモデルと比較して、 10%程度の音声認識誤りを削減  発話内では判別がほぼ不可能な同音異義語等の問題も解決 15