Understanding and Improving Sequence-to-Sequence Pretraining for Neural Machine Translation

Slide 1

Slide 1 text

論文紹介 ACL2022 発表者 : B4 木山朔発表日 : 10/24 1 Understanding and Improving Sequence-to-Sequence Pretraining for Neural Machine Translation

Slide 2

Slide 2 text

Introduction ● Seq2Seqを事前学習したモデル（mBART [Liu+2020]）がMTでSOTA ● Seq2Seqの事前学習の性質の理解と改良 ○ Seq2Seqの事前学習 vs Encoderのみの事前学習の分析 ■ Decoderを同時に学習する上での影響を調査 ○ 新たな手法の提案 ■ in-domain pretraining：ドメインに特化した事前学習 ■ input adaptation in fine-tuning：原文にノイズを加え原文を出力させるよう微調整 2

Slide 3

Slide 3 text

Understanding Seq2Seq Pretraining ● baseline：Transformer-Big ● model：mBART25 [Liu+2020] ○ パラメータ更新の有無で 3種類を比較 ■ Encoder, Decoderともにfreeze ■ Decoderのみfreeze ■ freezeなし ○ 語彙サイズは同じ ○ pretrain data：ComonCrawl (CC) ● dataset：WMT19 En-De, WMT16 En-Ro, IWSLT17 En-Fr ○ En-Deに関してはEn-Ro, En-Frのサイズに合わせた小規模なものも使用 ■ En-De(S)と表記 3

Slide 4

Slide 4 text

Impact of Jointly Pretrained Decoder 1/4 ● translation performance ○ Enc:×,Dec:×はvocab-sizeが大きいため学習が困難 ○ 大規模なデータでは Decoderの事前学習が効いていない ■ 「事前学習は大規模データにはあまり効果的でない」という共通認識と一致 ○ 小規模なデータでは Decoderの事前学習が効いている 4

Slide 5

Slide 5 text

Impact of Jointly Pretrained Decoder 2/4 ● example ○ Decoderも事前学習したモデル ■ 良い翻訳だが語順が refと異なる ● BLEUが高くない原因？ ● 大規模データでの上がり幅に関係 ■ 翻訳ミスの減少 ● 特に小規模データにみられる 5 empiricalに上記二つを検証

Slide 6

Slide 6 text

Impact of Jointly Pretrained Decoder 3/4 ● diversity ○ 複数の参照訳で評価 [Du+2021] ■ WMT14 En->Deのみ検証 ■ 500文に10人文の訳 [Ott+2018] ○ Decoderも事前学習すると性能向上 ■ Decoderは語順の異なる多様な翻訳を生成 6 事前学習が大規模なデータでも有効

Slide 7

Slide 7 text

Impact of Jointly Pretrained Decoder 4/4 ● adequacy ○ 二人のアノテータに人手評価 ■ WMT19 De->En の100文に対し実施 ● Under translation ● Mis translation ● Over translation ○ 小規模データでのEncoderのみ事前学習 ■ Over translationが発生 ■ ソースの文脈の影響が大きすぎる？ ○ 大規模データでは発生しない ■ in-domainデータが多いため 7

Slide 8

Slide 8 text

Pretraining and Finetuning Discrepancy 1/6 ● Seq2Seqのside-effect ○ 事前学習と微調整における不一致 ■ Domain Discrepancy ● 事前学習：general domain ● 微調整：specific domain ○ domainの適応が必要となる ○ Seq2Seq事前学習とスクラッチ学習における不一致 ■ Objective Discrepancy ● 事前学習+微調整：入力文の再構築を学習 ● スクラッチ学習：ある言語から別言語への文の翻訳を学習 ○ 学習の目的が異なる ● WMT19 En-De(S)のtest-dataの結果を報告 8

Slide 9

Slide 9 text

Pretraining and Finetuning Discrepancy 2/6 ● lexical distribution in training data ○ 異なるドメインでの語彙分布 ■ 語彙レベルでの違いを分析 ■ 単語の頻度をlog-scaleでプロット ■ CC：general domain ■ WMT19：news domain ○ ロングテール領域で明確な差 ■ ロングテール領域はドメインに特化した情報を持つ事前学習から微調整時にドメインシフト 9

Slide 10

Slide 10 text

Pretraining and Finetuning Discrepancy 3/6 10 　　 CC WMT news domain ● domain classifier for test data ○ テストデータが学習データと同じドメインに従うか？ ○ ドメイン分類器を構築 ■ WMT19 En-Deの学習データとCCがbase ■ それぞれ1.0Mのサンプルを取り分類器を学習 ○ ほとんどの文がnews domainと認識 ■ 学習データとテストデータは同じドメイン

Slide 11

Slide 11 text

Pretraining and Finetuning Discrepancy 4/6 ● model uncertainty [Ott+2018] ○ 各time-stepにおける文対の平均確率を計算 ○ distractor：CCデータからrefと長さが一致する文 ■ 意味的にはソースと不一致 ● Decoderの事前学習の影響 ○ 最初の数stepでモデルの確らしさが大幅に向上 ■ モデルがソースの文脈に大きく支配 ■ over-estimation問題を誘発している？ ● distractorでも向上している... 11

Slide 12

Slide 12 text

Pretraining and Finetuning Discrepancy 5/6 ● hallucination under Perturbation ○ hallcination：入力とは無関係な流暢な出力 ○ ノイズの多い入力下でのモデルを評価 [Lee+2018] ■ FPI：ソース系列に単一の追加入力トークンを挿入 (First Position Insertion) ■ RSM：ノイズの多い入力をシミュレート (Random Span Masking) ○ hallcinationの割合をHUPとして算出 ■ 参照訳と摂動されていない文の翻訳間での BLEUの差が5より大きく，摂動された文とされていない文の翻訳間の BLEUの差が3以下 ○ 傾向 ■ Decoderも同時に学習すると HUPが高い ● hallcinationが多い 12

Slide 13

Slide 13 text

Pretraining and Finetuning Discrepancy 6/6 ● beam search problem ○ beam-sizeが大きくなるとモデル性能が低下 [Tu+2017] ○ over-estimationがこの問題を引き起こしている [Ott+2018][Cohen+2019] ● analysis ○ Seq2Seq事前学習でもbeam-search-problemを検証 ○ 異なるbeam-sizeにおける出力のcopy tokenの比率も検証 ■ ソースを翻訳せずにターゲットにコピーする比率 ○ Decoderも事前学習すると上記の傾向が増加 ■ beam-sizeが上がるとcopyも増加 ● 関連がある 13

Slide 14

Slide 14 text

Improving Seq2Seq Pretraining ● In domain Pretraining ○ in-domainの単言語データで学習を継続 ■ テキストのスパンを削除しマスクトークンへ ● ポアソン分布に従ってスパン長を randomにして35%の単語をマスク ■ 各インスタンス内での文の順序を入れ替える ○ ドメインシフトの軽減を期待 ○ data：NewsCrawl, TED, OpenSubtitle ● Input Adaptation in Finetuning ○ 微調整時にソースにノイズを加え，ターゲットをソースそのままにする ■ ソースの単語の10%にノイズを加える ■ 1:9でノイズのある/ないデータを組み合わせ微調整 ○ モデルの頑健性の向上を期待 ■ 入力に摂動を加えover-estimationの緩和を狙う 14

Slide 15

Slide 15 text

Experimental Results 1/2 ● performance and robustness ○ input adapt ■ BLEUは同等 ■ HUPは減少 ○ in-domain ■ BLEUは向上 ■ HUPはまばら ○ input adapt + in-domain ■ BLEUは向上 ■ HUPも向上 ● 頑健性が向上 15

Slide 16

Slide 16 text

Experimental Results 2/2 ● multi reference ○ 提案手法の効果が顕著に ● In-Domain only ○ In-Domainのデータのみでの事前学習を検討 ■ 大幅な精度向上 ○ mBART25+input adaptと比較 ■ mBART25の方が良い ● データの規模が大きいため 16

Slide 17

Slide 17 text

Analysis 1/2 ● Narrowing domein gap ○ ロングテール領域はドメインに特化した情報を持つ ■ 低頻度語に対して効いているか検証 ○ 翻訳結果の単語の精度を計算 (compare-mt3) ○ 頻度に基づく単語の三つのカテゴリ [Wang+2021] [Jiao+2021] ■ high：上位3000語 ■ med：上位3001-12000語 ■ low：上位12001-語 ○ 低頻度語に対してBLEUスコアの増加が確認 ■ domain gapが縮まっている 17

Slide 18

Slide 18 text

Analysis 2/2 ● Alleviating Over-estimation ○ モデルの不確実性が増加 ● Mitigating beam search degradation ○ input adaptによりcopyが減少 18

Slide 19

Slide 19 text

Conclusion ● mBARTの分析と改良手法の提案 ○ Decoderを同時に学習する上での影響 ■ 利点：多様性のある翻訳と，妥当性に関連するエラーを軽減 ● 特にsmall-scaleのデータに対して顕著 ■ 欠点：翻訳の質が制限され， over-estimationの問題が発生 ○ 新たな手法の提案 ■ in-domain pretraining：ドメインに特化した事前学習 ● 翻訳性能の向上を確認 ■ input adaptation in fine-tuning：原文にノイズを加え原文を出力させるよう微調整 ● モデルの頑健性の向上を確認 19