文献紹介: Why Self-Attention? A Targeted Evaluation of Neural Machine Translation Architectures

Slide 1

Slide 1 text

Why Self-Attention? A Targeted Evaluation of Neural Machine Translation Architectures 文献紹介 2018/12/12 長岡技術科学大学自然言語処理研究室稲岡夢人 1

Slide 2

Slide 2 text

Literature • Why Self-Attention? A Targeted Evaluation of Neural Machine Translation Architectures. • Gongbo Tang, Mathias Müller, Annette Rios, Rico Sennrich. • Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 4263-4272, 2018. 2

Slide 3

Slide 3 text

Abstract  ConvolutionやSelf-AttentionがRNNより優秀 ← 理論のみで原因のテストはされていない  Subject-Verb Agreement (広範囲の関係捕捉) Word Sense Disambiguation (意味素性の抽出) のタスクで性質を確認  広範囲の関係捕捉はRNNが優れており、 WSDはSelf-Attentionが遥かに優れることを確認 3

Slide 4

Slide 4 text

Introduction  再帰型から畳み込みに至るまで様々な構造が NMTで効果を示してきた  BLEUでそれらを比較する研究がある → BLEUで性質を知るのは本質的に難しい  ネットワークの経路長が依存関係の学習能力に影響すると主張する研究がある → 理論的な議論のみで実験によるテストはない 4

Slide 5

Slide 5 text

Hypothesis  RNN以外のモデルによる性能向上は長距離の依存関係の捕捉によるものではない  CNNとTransformerは意味素性の抽出に優れ、それによってBLEUが改善している 5

Slide 6

Slide 6 text

Contributions  CNNやTransformerがRNNよりも長距離の依存関係の捕捉に優れているわけではない  TransformerのAttention headの数が長距離の依存関係を捕捉する能力に影響を与える  TransformerはWSDにおいて優れており、強力な意味素性抽出器である 6

Slide 7

Slide 7 text

NMT Architectures  以下の3つを評価 • RNN-based • CNN-based • Transformer-based  いずれもEncoderとDecoderの二部構成 7

Slide 8

Slide 8 text

RNN-based NMT  RNNは新しい入力によって状態が変化  各状態は前の状態にのみ直接接続  トークン間の距離がnならネットワーク上の経路長もnになる  EncoderとDecoderはAttentionで接続 8

Slide 9

Slide 9 text

CNN-based NMT  CNNは畳み込み層で局所的な相互関係を捕捉  paddingを入力に加えて出力と同じ長さにする  トークン間の距離がnならネットワーク上の経路長は最大でn/(k-1)になる (k: kernel size)  トークンの位置を推測することができないので Positional Embeddingsを導入 9

Slide 10

Slide 10 text

Transformer-based NMT  Self-Attentionを用いている → 直接他のトークンへ接続される  複数のAttention headsを持つ  任意のトークン間のネットワーク上の経路長は1  CNNと同様にPositional Embeddingsを導入 10

Slide 11

Slide 11 text

Contrastive Evaluation  特定の翻訳エラーに対するモデルの感度をテスト  原言語fから目的言語eの生成確率P(e|f)を計算  参照訳とエラーを含む訳で確率を計算して比較 11

Slide 12

Slide 12 text

Subject-Verb Agreement  主語と動詞の一致を判断できるかを以って長距離の関係捕捉の性能を評価する 12

Slide 13

Slide 13 text

Datasets  WMT17 shared task • 5.9 Million sentence pairs in training set • newstest2013 as the validation set • newstest2014 & newstest2017 as the test tests  Lingeval97 • 97,000 English→German Contrastive translation pairs • Using 35,105 instances which include subject-verb 13

Slide 14

Slide 14 text

Results  Transformerが最高性能  RNNよりCNNの方がBLEUは高いが、長距離の関係捕捉はRNNが高い 14 *RNN-bideep is a difference toolkit implemented in Marian.

Slide 15

Slide 15 text

Results  CNNは距離が長いと正解率が落ちる  RNNとTransformerは長距離でも優秀  TransformerがRNNより特に優秀とは言えない 15

Slide 16

Slide 16 text

RNN vs. Transformer  [Tran et al. 2018]はTransformerはLSTMsよりも Subject-Verb Agreementタスクにおいて悪いことを示している → 学習データの量を少量に合わせて実験 → パラメータを合わせて実験 16

Slide 17

Slide 17 text

Results  少量のデータでは確かに RNNの方が高性能  Attention headsの数が精度へ大きく影響 17

Slide 18

Slide 18 text

Word Sense Disambiguation  語義曖昧性を持つ単語を含む入力文を翻訳させ、正解訳と誤った単語に置換した訳を比較 (例) Schlange(独) の訳としてline(英) が正解なら、 lineをsnakeやserpentに置換 18

Slide 19

Slide 19 text

Datasets  ContraWSD  German→English • 84 different German word senses • 7,200 lexical ambiguities • 3.5 contractive translations on average  German→French  71 difference German word senses  6,700 lexical ambiguities  2.2 contractive translations on average 19

Slide 20

Slide 20 text

Results  Transformerが最も優秀 → 強力な意味素性抽出器として動作  TransRNNはTransformerよりAcc.が低下 → WSDはEncoderだけでなくDecoderでも動作 20 *TransRNN is a hybrid model with a Transformer encoder and an RNN decoder. *uedin-wmt17 is a model that achieved the best result in DE→EN

Slide 21

Slide 21 text

Conclusions  ネットワーク上における経路長が短いCNNと Transformerが長距離の関係のモデリングにおいて優れているということはない  Attention headの数が長距離の関係のモデリングにおいて性能に影響する  TransformerはCNN, RNNと比較して WSDという別のタスクで優れている 21

Slide 22

Slide 22 text

Conclusions  NMTの性能評価は単にBLEUの計算ではない  モデル固有のtrade-offを見つけ、長所と短所を明確に理解することが重要 22