テキストのスパンを削除しマスクトークンへ • ポアソン分布に従ってスパン長を randomにして35%の単語をマスク ▪ 各インスタンス内での文の順序を入れ替える ◦ ドメインシフトの軽減を期待 ◦ data:NewsCrawl, TED, OpenSubtitle • Input Adaptation in Finetuning ◦ 微調整時にソースにノイズを加え,ターゲットをソースそのままにする ▪ ソースの単語の10%にノイズを加える ▪ 1:9でノイズのある/ないデータを組み合わせ微調整 ◦ モデルの頑健性の向上を期待 ▪ 入力に摂動を加えover-estimationの緩和を狙う 14