Slide 1

Slide 1 text

Why Self-Attention? A Targeted Evaluation of Neural Machine Translation Architectures 文献紹介 2018/12/12 長岡技術科学大学 自然言語処理研究室 稲岡 夢人 1

Slide 2

Slide 2 text

Literature • Why Self-Attention? A Targeted Evaluation of Neural Machine Translation Architectures. • Gongbo Tang, Mathias Müller, Annette Rios, Rico Sennrich. • Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 4263-4272, 2018. 2

Slide 3

Slide 3 text

Abstract  ConvolutionやSelf-AttentionがRNNより優秀 ← 理論のみで原因のテストはされていない  Subject-Verb Agreement (広範囲の関係捕捉) Word Sense Disambiguation (意味素性の抽出) のタスクで性質を確認  広範囲の関係捕捉はRNNが優れており、 WSDはSelf-Attentionが遥かに優れることを確認 3

Slide 4

Slide 4 text

Introduction  再帰型から畳み込みに至るまで様々な構造が NMTで効果を示してきた  BLEUでそれらを比較する研究がある → BLEUで性質を知るのは本質的に難しい  ネットワークの経路長が依存関係の学習能力に 影響すると主張する研究がある → 理論的な議論のみで実験によるテストはない 4

Slide 5

Slide 5 text

Hypothesis  RNN以外のモデルによる性能向上は 長距離の依存関係の捕捉によるものではない  CNNとTransformerは意味素性の抽出に優れ、 それによってBLEUが改善している 5

Slide 6

Slide 6 text

Contributions  CNNやTransformerがRNNよりも長距離の 依存関係の捕捉に優れているわけではない  TransformerのAttention headの数が長距離の 依存関係を捕捉する能力に影響を与える  TransformerはWSDにおいて優れており、 強力な意味素性抽出器である 6

Slide 7

Slide 7 text

NMT Architectures  以下の3つを評価 • RNN-based • CNN-based • Transformer-based  いずれもEncoderとDecoderの二部構成 7

Slide 8

Slide 8 text

RNN-based NMT  RNNは新しい入力によって状態が変化  各状態は前の状態にのみ直接接続  トークン間の距離がnならネットワーク上の 経路長もnになる  EncoderとDecoderはAttentionで接続 8

Slide 9

Slide 9 text

CNN-based NMT  CNNは畳み込み層で局所的な相互関係を捕捉  paddingを入力に加えて出力と同じ長さにする  トークン間の距離がnならネットワーク上の 経路長は最大でn/(k-1)になる (k: kernel size)  トークンの位置を推測することができないので Positional Embeddingsを導入 9

Slide 10

Slide 10 text

Transformer-based NMT  Self-Attentionを用いている → 直接他のトークンへ接続される  複数のAttention headsを持つ  任意のトークン間のネットワーク上の経路長は1  CNNと同様にPositional Embeddingsを導入 10

Slide 11

Slide 11 text

Contrastive Evaluation  特定の翻訳エラーに対するモデルの感度をテスト  原言語fから目的言語eの生成確率P(e|f)を計算  参照訳とエラーを含む訳で確率を計算して比較 11

Slide 12

Slide 12 text

Subject-Verb Agreement  主語と動詞の一致を判断できるかを以って 長距離の関係捕捉の性能を評価する 12

Slide 13

Slide 13 text

Datasets  WMT17 shared task • 5.9 Million sentence pairs in training set • newstest2013 as the validation set • newstest2014 & newstest2017 as the test tests  Lingeval97 • 97,000 English→German Contrastive translation pairs • Using 35,105 instances which include subject-verb 13

Slide 14

Slide 14 text

Results  Transformerが最高性能  RNNよりCNNの方がBLEUは高いが、 長距離の関係捕捉はRNNが高い 14 *RNN-bideep is a difference toolkit implemented in Marian.

Slide 15

Slide 15 text

Results  CNNは距離が長いと 正解率が落ちる  RNNとTransformerは 長距離でも優秀  TransformerがRNNより 特に優秀とは言えない 15

Slide 16

Slide 16 text

RNN vs. Transformer  [Tran et al. 2018]はTransformerはLSTMsよりも Subject-Verb Agreementタスクにおいて悪いこと を示している → 学習データの量を少量に合わせて実験 → パラメータを合わせて実験 16

Slide 17

Slide 17 text

Results  少量のデータでは確かに RNNの方が高性能  Attention headsの数が 精度へ大きく影響 17

Slide 18

Slide 18 text

Word Sense Disambiguation  語義曖昧性を持つ単語を含む入力文を翻訳させ、 正解訳と誤った単語に置換した訳を比較 (例) Schlange(独) の訳としてline(英) が正解なら、 lineをsnakeやserpentに置換 18

Slide 19

Slide 19 text

Datasets  ContraWSD  German→English • 84 different German word senses • 7,200 lexical ambiguities • 3.5 contractive translations on average  German→French  71 difference German word senses  6,700 lexical ambiguities  2.2 contractive translations on average 19

Slide 20

Slide 20 text

Results  Transformerが最も優秀 → 強力な意味素性抽出器として動作  TransRNNはTransformerよりAcc.が低下 → WSDはEncoderだけでなくDecoderでも動作 20 *TransRNN is a hybrid model with a Transformer encoder and an RNN decoder. *uedin-wmt17 is a model that achieved the best result in DE→EN

Slide 21

Slide 21 text

Conclusions  ネットワーク上における経路長が短いCNNと Transformerが長距離の関係のモデリングに おいて優れているということはない  Attention headの数が長距離の関係のモデリング において性能に影響する  TransformerはCNN, RNNと比較して WSDという別のタスクで優れている 21

Slide 22

Slide 22 text

Conclusions  NMTの性能評価は単にBLEUの計算ではない  モデル固有のtrade-offを見つけ、長所と短所を 明確に理解することが重要 22