Phrase-level Self-Attention Networks for Universal Sentence Encoding

19861bbc3b8d3ef89df5400d1e2c529a?s=47 katsutan
January 28, 2019

Phrase-level Self-Attention Networks for Universal Sentence Encoding

文献紹介
長岡技術科学大学 勝田 哲弘

http://aclweb.org/anthology/D18-1408

19861bbc3b8d3ef89df5400d1e2c529a?s=128

katsutan

January 28, 2019
Tweet

Transcript

  1. Phrase-level Self-Attention Networks for Universal Sentence Encoding Wei Wu, Houfeng

    Wang, Tianyu Liu, Shuming Ma Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 3729–3738 Brussels, Belgium, 2018. 文献紹介 長岡技術科学大学 勝田 哲弘
  2. Abstract • Phrase-level SelfAttention Networks (PSAN)を提案 • フレーズで自己注意を行うため、メモリ消費が少ない • gated

    memory updating mechanismでツリー構造を組み込 むことで階層的に単語表現を学習できる • 少ないメモリで様々なタスクでSotAを達成
  3. Introduction 文のエンコーダにはRNNやCNNが用いられる • RNN:並列化できず、時間効率が悪い • CNN:パフォーマンスがRNNより悪い RNN/CNNを用いない Phrase-level SelfAttention Networks

    (PSAN)を提案
  4. Proposed Model ツリー構造は、階層レベルTで異なる粒度で分割することができる

  5. Proposed Model phrase represented: word embeddings: 最初にフレーズ内の単語アライメントを計算する

  6. Proposed Model attention mechanismの出力はフレーズ内の各単語間の加重合計 Phrase-level Self-Attentionの最終的な出力は各入力単語ベクトルをattention mechanismの出力と比較することで得られる。

  7. Gated Memory Updatin • 先程の手法(PSA)は1つの分割レベルに対する計算 ◦ ツリー構造は様々な粒度で分割できる ◦ 階層的に学習するためにgated memory

    updating mechanismを提案 各レイヤ間でパラメータを共有
  8. Sentence Summarization 最終的に固定長の文ベクトルに要約する

  9. Experiments word embedding:GloVe (300次元) 階層レベルT:3(固定) 学習データ:SNLIデータセット 文分類、自然言語推論、テキスト類似性を含む様々なNLPタスク でPSANを評価 構文解析:Stanford PCFG

    Parser 3.5.2
  10. Training Setting Natural language inference(NLI)によってエンコーダを学習する 学習データ:Stanford Natural Language Inference (SNLI)

    dataset • 549367/9842/9824 sentence pairs
  11. Evaluation Setting 意味論に基づいて解くことができる広範囲のタスクでモデルを評価

  12. Overall Performance

  13. Overall Performance

  14. Analysis of Sentence Length 長い文に対して一貫してPSANが高い 段階的な学習が文中の長期的な依存関係の 学習に役立つ

  15. Visualization and Case Study

  16. Conclusion • 構文情報を用いた文のエンコーダモデルを提案 ◦ 意味的、構文的に重要な単語間の相互作用に注目 • パラメータ数を減らし、メモリ消費を20%以上削減 • 様々なタスクで有効性が示された