発話境界を跨ぐ長距離言語コンテキストと対象発話の音声を考慮 Hierarchical Text Encoder Extended Attention Decoder Speech Encoder −1 Hierarchical Text Encoder −2 −1 () Extended Attention Decoder Speech Encoder −1 −1 (−1) −2 (−2) 1, … , 1, … , , = =1 (|1, … , −1, , ) = =1 =1 ( |1 , … , −1 , 1,..., −1, , ) 談話始端1から 直前発話−1までの テキスト情報を ベクトルに埋め込む 音響特徴量系列を 連続ベクトル系列に変換 音声情報が埋め込まれた と言語コンテキスト からテキストを生成 6