et al.,2007)でトークナイズ, Byte-Pair Encoding (BPE) (Sennrich et al., 2015)をかけて ソース文、ターゲット文で32kのvocabularyになった モデル Transformer (Vaswani et al., 2017) (IWSLTにはsmall, その他にはbase) NATモデル O(1)で推論できるものが5種類、O(k)で推論できるのを2種類先行研究から用意 sequence-level knowledge distillation(Kim and Rush, 2016)を適用 11