Slide 6
Slide 6 text
Copyright©2019 NTT corp. All Rights Reserved.
提案手法
談話コンテキストEnd-to-End音声認識
発話境界を跨ぐ長距離言語コンテキストと対象発話の音声を考慮
Hierarchical
Text Encoder
Extended
Attention
Decoder
Speech
Encoder
−1
Hierarchical
Text Encoder
−2
−1
()
Extended
Attention
Decoder
Speech
Encoder
−1
−1
(−1)
−2
(−2)
1, … , 1, … , , =
=1
(|1, … , −1, , )
=
=1
=1
(
|1
, … , −1
, 1,..., −1, , )
談話始端1から
直前発話−1までの
テキスト情報を
ベクトルに埋め込む
音響特徴量系列を
連続ベクトル系列に変換
音声情報が埋め込まれた
と言語コンテキスト
からテキストを生成
6