Slide 3
Slide 3 text
Understanding Seq2Seq Pretraining
● baseline:Transformer-Big
● model:mBART25 [Liu+2020]
○ パラメータ更新の有無で 3種類を比較
■ Encoder, Decoderともにfreeze
■ Decoderのみfreeze
■ freezeなし
○ 語彙サイズは同じ
○ pretrain data:ComonCrawl (CC)
● dataset:WMT19 En-De, WMT16 En-Ro, IWSLT17 En-Fr
○ En-Deに関してはEn-Ro, En-Frのサイズに合わせた小規模なものも使用
■ En-De(S)と表記
3