$30 off During Our Annual Pro Sale. View Details »

文献紹介: Why Self-Attention? A Targeted Evaluation of Neural Machine Translation Architectures

Yumeto Inaoka
December 12, 2018

文献紹介: Why Self-Attention? A Targeted Evaluation of Neural Machine Translation Architectures

2018/12/12の文献紹介で発表

Yumeto Inaoka

December 12, 2018
Tweet

More Decks by Yumeto Inaoka

Other Decks in Research

Transcript

  1. Why Self-Attention?
    A Targeted Evaluation of Neural
    Machine Translation Architectures
    文献紹介 2018/12/12
    長岡技術科学大学 自然言語処理研究室
    稲岡 夢人
    1

    View Slide

  2. Literature
    • Why Self-Attention? A Targeted Evaluation of
    Neural Machine Translation Architectures.
    • Gongbo Tang, Mathias Müller,
    Annette Rios, Rico Sennrich.
    • Proceedings of the 2018 Conference on
    Empirical Methods in Natural Language Processing,
    pages 4263-4272, 2018.
    2

    View Slide

  3. Abstract
     ConvolutionやSelf-AttentionがRNNより優秀
    ← 理論のみで原因のテストはされていない
     Subject-Verb Agreement (広範囲の関係捕捉)
    Word Sense Disambiguation (意味素性の抽出)
    のタスクで性質を確認
     広範囲の関係捕捉はRNNが優れており、
    WSDはSelf-Attentionが遥かに優れることを確認
    3

    View Slide

  4. Introduction
     再帰型から畳み込みに至るまで様々な構造が
    NMTで効果を示してきた
     BLEUでそれらを比較する研究がある
    → BLEUで性質を知るのは本質的に難しい
     ネットワークの経路長が依存関係の学習能力に
    影響すると主張する研究がある
    → 理論的な議論のみで実験によるテストはない
    4

    View Slide

  5. Hypothesis
     RNN以外のモデルによる性能向上は
    長距離の依存関係の捕捉によるものではない
     CNNとTransformerは意味素性の抽出に優れ、
    それによってBLEUが改善している
    5

    View Slide

  6. Contributions
     CNNやTransformerがRNNよりも長距離の
    依存関係の捕捉に優れているわけではない
     TransformerのAttention headの数が長距離の
    依存関係を捕捉する能力に影響を与える
     TransformerはWSDにおいて優れており、
    強力な意味素性抽出器である
    6

    View Slide

  7. NMT Architectures
     以下の3つを評価
    • RNN-based
    • CNN-based
    • Transformer-based
     いずれもEncoderとDecoderの二部構成
    7

    View Slide

  8. RNN-based NMT
     RNNは新しい入力によって状態が変化
     各状態は前の状態にのみ直接接続
     トークン間の距離がnならネットワーク上の
    経路長もnになる
     EncoderとDecoderはAttentionで接続
    8

    View Slide

  9. CNN-based NMT
     CNNは畳み込み層で局所的な相互関係を捕捉
     paddingを入力に加えて出力と同じ長さにする
     トークン間の距離がnならネットワーク上の
    経路長は最大でn/(k-1)になる (k: kernel size)
     トークンの位置を推測することができないので
    Positional Embeddingsを導入
    9

    View Slide

  10. Transformer-based NMT
     Self-Attentionを用いている
    → 直接他のトークンへ接続される
     複数のAttention headsを持つ
     任意のトークン間のネットワーク上の経路長は1
     CNNと同様にPositional Embeddingsを導入
    10

    View Slide

  11. Contrastive Evaluation
     特定の翻訳エラーに対するモデルの感度をテスト
     原言語fから目的言語eの生成確率P(e|f)を計算
     参照訳とエラーを含む訳で確率を計算して比較
    11

    View Slide

  12. Subject-Verb Agreement
     主語と動詞の一致を判断できるかを以って
    長距離の関係捕捉の性能を評価する
    12

    View Slide

  13. Datasets
     WMT17 shared task
    • 5.9 Million sentence pairs in training set
    • newstest2013 as the validation set
    • newstest2014 & newstest2017 as the test tests
     Lingeval97
    • 97,000 English→German Contrastive translation pairs
    • Using 35,105 instances which include subject-verb
    13

    View Slide

  14. Results
     Transformerが最高性能
     RNNよりCNNの方がBLEUは高いが、
    長距離の関係捕捉はRNNが高い
    14
    *RNN-bideep is a difference toolkit
    implemented in Marian.

    View Slide

  15. Results
     CNNは距離が長いと
    正解率が落ちる
     RNNとTransformerは
    長距離でも優秀
     TransformerがRNNより
    特に優秀とは言えない
    15

    View Slide

  16. RNN vs. Transformer
     [Tran et al. 2018]はTransformerはLSTMsよりも
    Subject-Verb Agreementタスクにおいて悪いこと
    を示している
    → 学習データの量を少量に合わせて実験
    → パラメータを合わせて実験
    16

    View Slide

  17. Results
     少量のデータでは確かに
    RNNの方が高性能
     Attention headsの数が
    精度へ大きく影響
    17

    View Slide

  18. Word Sense Disambiguation
     語義曖昧性を持つ単語を含む入力文を翻訳させ、
    正解訳と誤った単語に置換した訳を比較
    (例)
    Schlange(独) の訳としてline(英) が正解なら、
    lineをsnakeやserpentに置換
    18

    View Slide

  19. Datasets
     ContraWSD
     German→English
    • 84 different German word senses
    • 7,200 lexical ambiguities
    • 3.5 contractive translations on average
     German→French
     71 difference German word senses
     6,700 lexical ambiguities
     2.2 contractive translations on average 19

    View Slide

  20. Results
     Transformerが最も優秀
    → 強力な意味素性抽出器として動作
     TransRNNはTransformerよりAcc.が低下
    → WSDはEncoderだけでなくDecoderでも動作
    20
    *TransRNN is a hybrid model
    with a Transformer encoder
    and an RNN decoder.
    *uedin-wmt17 is a model that
    achieved the best result in DE→EN

    View Slide

  21. Conclusions
     ネットワーク上における経路長が短いCNNと
    Transformerが長距離の関係のモデリングに
    おいて優れているということはない
     Attention headの数が長距離の関係のモデリング
    において性能に影響する
     TransformerはCNN, RNNと比較して
    WSDという別のタスクで優れている
    21

    View Slide

  22. Conclusions
     NMTの性能評価は単にBLEUの計算ではない
     モデル固有のtrade-offを見つけ、長所と短所を
    明確に理解することが重要
    22

    View Slide