文献紹介: Why Self-Attention? A Targeted Evaluation of Neural Machine Translation Architectures

F637b583c221c132af26c91cb3dba0ca?s=47 Yumeto Inaoka
December 12, 2018

文献紹介: Why Self-Attention? A Targeted Evaluation of Neural Machine Translation Architectures

2018/12/12の文献紹介で発表

F637b583c221c132af26c91cb3dba0ca?s=128

Yumeto Inaoka

December 12, 2018
Tweet

Transcript

  1. Why Self-Attention? A Targeted Evaluation of Neural Machine Translation Architectures

    文献紹介 2018/12/12 長岡技術科学大学 自然言語処理研究室 稲岡 夢人 1
  2. Literature • Why Self-Attention? A Targeted Evaluation of Neural Machine

    Translation Architectures. • Gongbo Tang, Mathias Müller, Annette Rios, Rico Sennrich. • Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 4263-4272, 2018. 2
  3. Abstract  ConvolutionやSelf-AttentionがRNNより優秀 ← 理論のみで原因のテストはされていない  Subject-Verb Agreement (広範囲の関係捕捉) Word

    Sense Disambiguation (意味素性の抽出) のタスクで性質を確認  広範囲の関係捕捉はRNNが優れており、 WSDはSelf-Attentionが遥かに優れることを確認 3
  4. Introduction  再帰型から畳み込みに至るまで様々な構造が NMTで効果を示してきた  BLEUでそれらを比較する研究がある → BLEUで性質を知るのは本質的に難しい  ネットワークの経路長が依存関係の学習能力に

    影響すると主張する研究がある → 理論的な議論のみで実験によるテストはない 4
  5. Hypothesis  RNN以外のモデルによる性能向上は 長距離の依存関係の捕捉によるものではない  CNNとTransformerは意味素性の抽出に優れ、 それによってBLEUが改善している 5

  6. Contributions  CNNやTransformerがRNNよりも長距離の 依存関係の捕捉に優れているわけではない  TransformerのAttention headの数が長距離の 依存関係を捕捉する能力に影響を与える  TransformerはWSDにおいて優れており、

    強力な意味素性抽出器である 6
  7. NMT Architectures  以下の3つを評価 • RNN-based • CNN-based • Transformer-based

     いずれもEncoderとDecoderの二部構成 7
  8. RNN-based NMT  RNNは新しい入力によって状態が変化  各状態は前の状態にのみ直接接続  トークン間の距離がnならネットワーク上の 経路長もnになる 

    EncoderとDecoderはAttentionで接続 8
  9. CNN-based NMT  CNNは畳み込み層で局所的な相互関係を捕捉  paddingを入力に加えて出力と同じ長さにする  トークン間の距離がnならネットワーク上の 経路長は最大でn/(k-1)になる (k:

    kernel size)  トークンの位置を推測することができないので Positional Embeddingsを導入 9
  10. Transformer-based NMT  Self-Attentionを用いている → 直接他のトークンへ接続される  複数のAttention headsを持つ 

    任意のトークン間のネットワーク上の経路長は1  CNNと同様にPositional Embeddingsを導入 10
  11. Contrastive Evaluation  特定の翻訳エラーに対するモデルの感度をテスト  原言語fから目的言語eの生成確率P(e|f)を計算  参照訳とエラーを含む訳で確率を計算して比較 11

  12. Subject-Verb Agreement  主語と動詞の一致を判断できるかを以って 長距離の関係捕捉の性能を評価する 12

  13. Datasets  WMT17 shared task • 5.9 Million sentence pairs

    in training set • newstest2013 as the validation set • newstest2014 & newstest2017 as the test tests  Lingeval97 • 97,000 English→German Contrastive translation pairs • Using 35,105 instances which include subject-verb 13
  14. Results  Transformerが最高性能  RNNよりCNNの方がBLEUは高いが、 長距離の関係捕捉はRNNが高い 14 *RNN-bideep is a

    difference toolkit implemented in Marian.
  15. Results  CNNは距離が長いと 正解率が落ちる  RNNとTransformerは 長距離でも優秀  TransformerがRNNより 特に優秀とは言えない

    15
  16. RNN vs. Transformer  [Tran et al. 2018]はTransformerはLSTMsよりも Subject-Verb Agreementタスクにおいて悪いこと

    を示している → 学習データの量を少量に合わせて実験 → パラメータを合わせて実験 16
  17. Results  少量のデータでは確かに RNNの方が高性能  Attention headsの数が 精度へ大きく影響 17

  18. Word Sense Disambiguation  語義曖昧性を持つ単語を含む入力文を翻訳させ、 正解訳と誤った単語に置換した訳を比較 (例) Schlange(独) の訳としてline(英) が正解なら、

    lineをsnakeやserpentに置換 18
  19. Datasets  ContraWSD  German→English • 84 different German word

    senses • 7,200 lexical ambiguities • 3.5 contractive translations on average  German→French  71 difference German word senses  6,700 lexical ambiguities  2.2 contractive translations on average 19
  20. Results  Transformerが最も優秀 → 強力な意味素性抽出器として動作  TransRNNはTransformerよりAcc.が低下 → WSDはEncoderだけでなくDecoderでも動作 20

    *TransRNN is a hybrid model with a Transformer encoder and an RNN decoder. *uedin-wmt17 is a model that achieved the best result in DE→EN
  21. Conclusions  ネットワーク上における経路長が短いCNNと Transformerが長距離の関係のモデリングに おいて優れているということはない  Attention headの数が長距離の関係のモデリング において性能に影響する 

    TransformerはCNN, RNNと比較して WSDという別のタスクで優れている 21
  22. Conclusions  NMTの性能評価は単にBLEUの計算ではない  モデル固有のtrade-offを見つけ、長所と短所を 明確に理解することが重要 22