model”[Kudo, 2018], “subword regularization” [Kudo, 2018] と⽐較 • Unigram LM: Sentencepiece を⽤いて複数の分割候補を獲得 • NMT system: Transformer (base) • Data (WAT ASPEC En↔Ja tasks) Ø Vocab size: 16,000 (separately for En and Ja) Ø training set: 1.5 m examples n (first part of original training data) Ø dev set: 1,790 examples Ø test set: 1,812 examples 10 • Hyperparameters Ø NMT n Optimizer: Adam (𝛽! = 0.9, 𝛽" = 0.98) n Warm up steps: 4,000 n Initial learning rate: 5e-4 n Dropout rate: 0.1 n Batch size: 10,000 tokens n Beam size: 4 Ø BiLSTM n Optimizer: Adam (𝛽! = 0.9, 𝛽" = 0.98) n Embedding dims: 256 n Learning rate: 5e-4 n Dropout rate: 0.1 n Batch size: 256 Ø k=5 u サブワード正則化では one-best decoding を採⽤ Ø 提案⼿法は 1 つのサブワード列しか使⽤して いないため
ØTraining data に施したような提案⼿法の分割を test data に施す n Test data の参照⽂を⽤いて (つまり test data の対訳コーパスを持っている) n これを gold bilingual segmentationとする • Oracle translation の性能評価 ØGold bilingual segmentation を施したソース⽂を翻訳した時の性能評価 12