Slide 43
Slide 43 text
43
この問題設定をモデリングするとなると?
条件付き自己回帰生成モデルとしての確率モデルとしての定式化
Hierarchical
Text Encoder
Extended
Attention
Decoder
Speech
Encoder
𝑿𝑡
𝑾𝑡−1
𝑪𝑡
Hierarchical
Text Encoder
𝑾𝑡−2
𝑪𝑡−1
𝑯𝑡
𝑃(𝑾𝑡)
Extended
Attention
Decoder
Speech
Encoder
𝑿𝑡−1
𝑯𝑡−1
𝑃(𝑾𝑡−1)
𝑪𝑡−2
𝑃(𝑾𝑡−2)
𝑃(𝑾𝑡|𝑾1, … , 𝑾𝑡−1, 𝑿𝑡, 𝜣)
= ෑ
𝑛=1
𝑁𝑡
𝑃(𝑤𝑛
𝑡|𝑤1
𝑡, … , 𝑤𝑡−1
𝑡 , 𝑾1,..., 𝑾𝑡−1, 𝑿𝑡, 𝜣)
モデル化
学習 (複数人会話データを用いた最適化)
𝜣 = arg min
𝜣
−
𝑑=1
𝐷
𝑡=1
𝑇𝑑
log 𝑃(𝑾𝑡|𝑾1, … , 𝑾𝑡−1, 𝑿𝑡, 𝜣)
音声をテキストに一気通貫で変換するEnd-to-End音声認識に対して、
会話コンテキストも考慮できるようにモデル化 [Masumura+ 2019]
[Masumura+ 2019] Ryo Masumura, Tomihiro Tanaka, Takafumi Moriya, Yusuke Shinohara, Takanobu Oba, Yushi Aono, "Large Context
End-to-End Automatic Speech Recognition via Extension of Hierarchical Recurrent Encoder-Decoder Models", In Proc. ICASSP, 2019