Forward Generation Present utterance ( , Input frames ) Future utterance • 複数モダリティ(音声,動画)のアライメント(エンコード)を学習 • 損失関数 ℒ𝐹𝐺 = − 𝑖=1 𝑁𝑤 log 𝑃(𝑤𝑖 |𝑤1 , … , 𝑤𝑖−1 , 𝐹, 𝑈) • 𝐹 = {𝑓1 , … , 𝑓𝑁𝑓 }:動画フレーム群 • 𝑈 = {𝑢1 , … , 𝑢𝑁𝑢 }:Present utterance • 𝑊 = {𝑤1 , … , 𝑤𝑁𝑤 }:Future utterance 対応