Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介2022前期_Redistributing Low Frequency Words: Making the Most of Monolingual Data in Non-Autoregressive Translation

論文紹介2022前期_Redistributing Low Frequency Words: Making the Most of Monolingual Data in Non-Autoregressive Translation

maskcott

June 15, 2022
Tweet

More Decks by maskcott

Other Decks in Research

Transcript

  1. Introduction 背景 • 非自己回帰モデル( NAT)は全トークンを同時に出力するため、 翻訳速度が上がる一方でマルチモダリティ問題が発生しやすい → 表現の多様性を減らすために知識蒸留が行われる • 知識蒸留データで学習することによって元の学習データ内にあった

    重要な低頻出語が失われる可能性がある 先行研究 • 非自己回帰モデルの学習時に元データで事前学習してから、 知識蒸留後のデータで fine-tune(Ding et al.) 2 マルチモダリティ問題の例 (“Thank you” → “Danke”, “Danke schon”, “Vielen Dank”) NATモデル Danke Dank “Danke schon” の気持ち “Vielen Dank” の気持ち Thank You
  2. 知識蒸留(Knowledge distillation: KD) 一般的なNATの学習手順 1. 対訳コーパスで教師モデル(自己回帰モデル)を学習 2. 学習データの原言語文を教師モデルに翻訳させて 擬似データを作成する 3.

    擬似データを用いて生徒モデルの NATを学習させる 2のステップが知識蒸留に相当 → 対訳データの多様性を教師モデルの生成するものに限定 → NATにとって学習が容易になり大幅に翻訳性能が向上 5
  3. 提案手法(Monolingual Knowledge Distillatrion) • 教師モデルを用いて擬似データを作成する際に 単言語コーパスを翻訳 → 対訳データにおける低頻度単語で失われるはずの 情報を単言語データの分布に転移させる •

    擬似データで学習したモデルには対訳データの知識も暗 黙的に含まれることが期待される(後述の実験) • src → tgt と tgt → src の両方で擬似データを作成するこ とも提案 6
  4. KDと低頻度語に関する分析 • Ding et al., 2021 に基づいて low-frequency word (LFW)

    linkの分析 → src → tgt のアライメントは一意に近づく一方で tgt → src のアライメントが少なくなることを実証 → アライメントの質を測る指標 • 手法(学習データを分割している?) 1. fastalignで単語アライメントを作成し、 src側が低頻出語なものを抽出(辞書) 2. (元データから対訳文をサンプリングしてサブセットを作成(辞書の作成に利用しない?)) 3. 辞書の単語アライメントに関して 2のデータを用いて次の指標で評価 ▪ Recall : 低頻度語のうちどれだけ辞書に基づいたアライメントが張られているか ▪ Precision : 辞書の中のアライメントがどれだけ正しいか(人手評価) ▪ F1 : PrecisionとRecallの調和平均 7
  5. KDと低頻度語に関する分析 8 • Monolingual KD の方が KD よりもアライメントの質が良い( F1) •

    低頻度語における src → tgt のアライメントと tgt → src のアライメントに関して、 forward と backward で補完的である → 両方向で蒸留データを作成することで、低頻度語におけるアライメントが双方向で改善される → 単語アライメント的な観点からも両方の単言語コーパスを使うのが良さそう
  6. 実験設定 データセット 1. Bigingual data WMTのデータセット(表) 2. Monolingual data News

    Crawl等からサンプリング 比較のためデータサイズを揃える NATモデル 1. MaskPredict 2. Levenshtein Transformer 9
  7. 実験結果(En-De devset) • forward monolingual KD は通常のKDに比べて どちらのモデルでもBLEUが高い → 対訳コーパスの知識と単言語コーパスの知識の両方が利

    用されていることを示唆 • 両方の単言語コーパスを利用することで BLEUが向上 → tgt 側の低頻度語に焦点を当てた知識蒸留も効果がある • 通常の知識蒸留と組み合わせることでも性能が向上 → 単言語コーパスを用いる提案手法と既存の知識蒸留は 相互補完的な効果がある • 単言語コーパスのサンプリング方法に関してロバスト → テストでは Random を利用 10
  8. 各データセットの複雑さに関する分析 • Monolingual KD が低頻度語の単語アライメントを向上させることで学習データの複雑さを低減 • ある src 単語の翻訳の複雑さ( complexity)をエントロピーで定式化(

    Zhou et al. (2020) ) • 知識蒸留をすることで複雑さは小さくなっている → 翻訳先がより明確になっている • 提案手法の単言語コーパスを用いることで、 より複雑さが小さくなっている 13 fast-align で得られた単語アライメントを 利用して計算
  9. 頻度別単語の翻訳性能に関する分析 単語の頻度別に翻訳の accuracyを計算 • 単言語コーパスを用いることで低頻度語の accuracyが 大幅に向上 • monolingual KD

    が低頻度語を新しい単言語コーパス の分布に再分配することで性能が向上している • 組み合わせることで低頻度語の accuracyが上がってい ることからも、既存手法との補完的な性質が確認 14
  10. 単言語コーパスの活用 • データの規模 15 • 教師モデルの学習 • 5× まではスコアが向上 •

    10× で減少に転じたのはモデルの容量が原因? • 単言語コーパスによる教師モデルの強化は効果なし • KDによるATからNATへの情報伝達のロスに起因
  11. 結論 • 対訳データに含まれる低頻度語の分布を外部の単言語データを用いて再分配する、シンプルで効果的 かつスケーラブルなアプローチである monolingual KD を提案 • monolingual KD

    の活用方法 1. 逆方向の monolingual KD と組み合わせることで低頻度のターゲット単語をより多く生成可能 2. 既存の KD と組み合わせることで両コーパスの知識を明示的に補完する 3. 低コストで入手できる単言語データを拡大する 16