文献紹介: Why Self-Attention? A Targeted Evaluation of Neural Machine Translation Architectures

Why Self-Attention? A Targeted Evaluation of Neural Machine Translation Architectures
文献紹介 2018/12/12 長岡技術科学大学自然言語処理研究室稲岡夢人 1

Literature • Why Self-Attention? A Targeted Evaluation of Neural Machine
Translation Architectures. • Gongbo Tang, Mathias Müller, Annette Rios, Rico Sennrich. • Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 4263-4272, 2018. 2

Abstract  ConvolutionやSelf-AttentionがRNNより優秀 ← 理論のみで原因のテストはされていない  Subject-Verb Agreement (広範囲の関係捕捉) Word
Sense Disambiguation (意味素性の抽出) のタスクで性質を確認  広範囲の関係捕捉はRNNが優れており、 WSDはSelf-Attentionが遥かに優れることを確認 3

Introduction  再帰型から畳み込みに至るまで様々な構造が NMTで効果を示してきた  BLEUでそれらを比較する研究がある → BLEUで性質を知るのは本質的に難しい  ネットワークの経路長が依存関係の学習能力に
影響すると主張する研究がある → 理論的な議論のみで実験によるテストはない 4

Hypothesis  RNN以外のモデルによる性能向上は長距離の依存関係の捕捉によるものではない  CNNとTransformerは意味素性の抽出に優れ、それによってBLEUが改善している 5

Contributions  CNNやTransformerがRNNよりも長距離の依存関係の捕捉に優れているわけではない  TransformerのAttention headの数が長距離の依存関係を捕捉する能力に影響を与える  TransformerはWSDにおいて優れており、
強力な意味素性抽出器である 6

NMT Architectures  以下の3つを評価 • RNN-based • CNN-based • Transformer-based
 いずれもEncoderとDecoderの二部構成 7

RNN-based NMT  RNNは新しい入力によって状態が変化  各状態は前の状態にのみ直接接続  トークン間の距離がnならネットワーク上の経路長もnになる 
EncoderとDecoderはAttentionで接続 8

CNN-based NMT  CNNは畳み込み層で局所的な相互関係を捕捉  paddingを入力に加えて出力と同じ長さにする  トークン間の距離がnならネットワーク上の経路長は最大でn/(k-1)になる (k:
kernel size)  トークンの位置を推測することができないので Positional Embeddingsを導入 9

Transformer-based NMT  Self-Attentionを用いている → 直接他のトークンへ接続される  複数のAttention headsを持つ 
任意のトークン間のネットワーク上の経路長は1  CNNと同様にPositional Embeddingsを導入 10

Contrastive Evaluation  特定の翻訳エラーに対するモデルの感度をテスト  原言語fから目的言語eの生成確率P(e|f)を計算  参照訳とエラーを含む訳で確率を計算して比較 11

Subject-Verb Agreement  主語と動詞の一致を判断できるかを以って長距離の関係捕捉の性能を評価する 12

Datasets  WMT17 shared task • 5.9 Million sentence pairs
in training set • newstest2013 as the validation set • newstest2014 & newstest2017 as the test tests  Lingeval97 • 97,000 English→German Contrastive translation pairs • Using 35,105 instances which include subject-verb 13

Results  Transformerが最高性能  RNNよりCNNの方がBLEUは高いが、長距離の関係捕捉はRNNが高い 14 *RNN-bideep is a
difference toolkit implemented in Marian.

Results  CNNは距離が長いと正解率が落ちる  RNNとTransformerは長距離でも優秀  TransformerがRNNより特に優秀とは言えない
15

RNN vs. Transformer  [Tran et al. 2018]はTransformerはLSTMsよりも Subject-Verb Agreementタスクにおいて悪いこと
を示している → 学習データの量を少量に合わせて実験 → パラメータを合わせて実験 16

Results  少量のデータでは確かに RNNの方が高性能  Attention headsの数が精度へ大きく影響 17

Word Sense Disambiguation  語義曖昧性を持つ単語を含む入力文を翻訳させ、正解訳と誤った単語に置換した訳を比較 (例) Schlange(独) の訳としてline(英) が正解なら、
lineをsnakeやserpentに置換 18

Datasets  ContraWSD  German→English • 84 different German word
senses • 7,200 lexical ambiguities • 3.5 contractive translations on average  German→French  71 difference German word senses  6,700 lexical ambiguities  2.2 contractive translations on average 19

Results  Transformerが最も優秀 → 強力な意味素性抽出器として動作  TransRNNはTransformerよりAcc.が低下 → WSDはEncoderだけでなくDecoderでも動作 20
*TransRNN is a hybrid model with a Transformer encoder and an RNN decoder. *uedin-wmt17 is a model that achieved the best result in DE→EN

Conclusions  ネットワーク上における経路長が短いCNNと Transformerが長距離の関係のモデリングにおいて優れているということはない  Attention headの数が長距離の関係のモデリングにおいて性能に影響する 
TransformerはCNN, RNNと比較して WSDという別のタスクで優れている 21

Conclusions  NMTの性能評価は単にBLEUの計算ではない  モデル固有のtrade-offを見つけ、長所と短所を明確に理解することが重要 22

文献紹介: Why Self-Attention? A Targeted Evaluation...

文献紹介: Why Self-Attention? A Targeted Evaluation of Neural Machine Translation Architectures

Yumeto Inaoka

More Decks by Yumeto Inaoka

Other Decks in Research

Featured

Transcript

Why Self-Attention? A Targeted Evaluation of Neural Machine Translation Architectures

Literature • Why Self-Attention? A Targeted Evaluation of Neural Machine

Abstract  ConvolutionやSelf-AttentionがRNNより優秀 ← 理論のみで原因のテストはされていない  Subject-Verb Agreement (広範囲の関係捕捉) Word

Introduction  再帰型から畳み込みに至るまで様々な構造が NMTで効果を示してきた  BLEUでそれらを比較する研究がある → BLEUで性質を知るのは本質的に難しい  ネットワークの経路長が依存関係の学習能力に

Hypothesis  RNN以外のモデルによる性能向上は長距離の依存関係の捕捉によるものではない  CNNとTransformerは意味素性の抽出に優れ、それによってBLEUが改善している 5

Contributions  CNNやTransformerがRNNよりも長距離の依存関係の捕捉に優れているわけではない  TransformerのAttention headの数が長距離の依存関係を捕捉する能力に影響を与える  TransformerはWSDにおいて優れており、

NMT Architectures  以下の3つを評価 • RNN-based • CNN-based • Transformer-based

RNN-based NMT  RNNは新しい入力によって状態が変化  各状態は前の状態にのみ直接接続  トークン間の距離がnならネットワーク上の経路長もnになる 

CNN-based NMT  CNNは畳み込み層で局所的な相互関係を捕捉  paddingを入力に加えて出力と同じ長さにする  トークン間の距離がnならネットワーク上の経路長は最大でn/(k-1)になる (k:

Transformer-based NMT  Self-Attentionを用いている → 直接他のトークンへ接続される  複数のAttention headsを持つ 

Contrastive Evaluation  特定の翻訳エラーに対するモデルの感度をテスト  原言語fから目的言語eの生成確率P(e|f)を計算  参照訳とエラーを含む訳で確率を計算して比較 11

Subject-Verb Agreement  主語と動詞の一致を判断できるかを以って長距離の関係捕捉の性能を評価する 12

Datasets  WMT17 shared task • 5.9 Million sentence pairs

Results  Transformerが最高性能  RNNよりCNNの方がBLEUは高いが、長距離の関係捕捉はRNNが高い 14 *RNN-bideep is a

Results  CNNは距離が長いと正解率が落ちる  RNNとTransformerは長距離でも優秀  TransformerがRNNより特に優秀とは言えない

RNN vs. Transformer  [Tran et al. 2018]はTransformerはLSTMsよりも Subject-Verb Agreementタスクにおいて悪いこと

Results  少量のデータでは確かに RNNの方が高性能  Attention headsの数が精度へ大きく影響 17

Word Sense Disambiguation  語義曖昧性を持つ単語を含む入力文を翻訳させ、正解訳と誤った単語に置換した訳を比較 (例) Schlange(独) の訳としてline(英) が正解なら、

Datasets  ContraWSD  German→English • 84 different German word

Results  Transformerが最も優秀 → 強力な意味素性抽出器として動作  TransRNNはTransformerよりAcc.が低下 → WSDはEncoderだけでなくDecoderでも動作 20

Conclusions  ネットワーク上における経路長が短いCNNと Transformerが長距離の関係のモデリングにおいて優れているということはない  Attention headの数が長距離の関係のモデリングにおいて性能に影響する 

Conclusions  NMTの性能評価は単にBLEUの計算ではない  モデル固有のtrade-offを見つけ、長所と短所を明確に理解することが重要 22