Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated Pooling Mechanisms

19861bbc3b8d3ef89df5400d1e2c529a?s=47 katsutan
April 08, 2019

Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated Pooling Mechanisms

文献紹介

長岡技術科学大学
勝田 哲弘

19861bbc3b8d3ef89df5400d1e2c529a?s=128

katsutan

April 08, 2019
Tweet

More Decks by katsutan

Other Decks in Technology

Transcript

  1. Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated

    Pooling Mechanisms Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Long Papers), pages 440–450 Melbourne, Australia, July 15 - 20, 2018. 文献紹介: 長岡技術科学大学 勝田 哲弘
  2. Abstract • Simple Word-Embedding-based Models (SWEMs)と word-embedding-based RNN/CNN modelsの比較 ◦

    SWEMsが多くの場合で同等、優れた精度を示す • Parameter freeのpoolingを活用するモデル ◦ hierarchical pooling ◦ parameter数が少なく済む 2
  3. Introduction • Word embeddingは各単語を固定長のベクトルとして表現し、可変長テキ ストのモデル化によく利用されている ◦ 加算などの簡易的なものからRNN、CNNなど • RNN、CNNはパラメータが多く、計算コストが高い •

    SWEMは語順情報が明示的でない、計算コストは低い • 計算コストと表現力はトレードオフ 3
  4. Introduction • 単語分散表現で実行される単純なpooling処理が自然言語処理にいつ、 なぜ有効なのかを調査する • 3つの異なるタスク(17のデータセット)で評価 4

  5. Simple Word-Embedding Model (SWEM) パラメータを持たないモデル • Average-Pooling(一番単純なモデル) • Max Pooling(CNNでのmax-over-time

    pooling に近い) • Hierarchical Pooling ◦ ウィンドウ幅nでavg-poolingを行い、その上にmax-pooling 5
  6. Parameters & Computation Comparison 6

  7. Experiments • タスク: ◦ 文書分類(トピック分類、感情分類、オントロジー分類 ) ◦ テキストマッチング ◦ 文分類

    ◦ 17データセット • モデル ◦ GloVe ◦ MLP ◦ Adam 7
  8. Document Categorization 8

  9. Interpreting model predictions 殆どの値が0付近に集中する タスクがテキスト中のあるキーワードに依 存していることを示唆 各次元ごとに選択された単語は関連性や 共通のトピックに対応する 9

  10. Interpreting model predictions 10

  11. Importance of word-order information 11

  12. Text Sequence Matching 12

  13. Short Sentence Processing 13

  14. Extension to other languages • Sogou news corpus(a Chinese dataset

    represented by Pinyin) ◦ SWEM-concat accuracy : 91.3% ◦ SWEM-hier (window size of 5) accuracy : 96.2% ◦ CNN (95.6%) and LSTM (95.2%) • より語順に敏感な中国語においても最高精度に匹敵する 14
  15. Conclusions 17のデータセットでSWEM、CNN、LSTMのモデル間の比較を行った • 単純なプーリングは長い文書の表現に効果的、短い文にはCNN/LSTMが 最適 • 感情分類はトピック分類よりも語順に敏感である、hierarchical poolingは CNN/LSTMと同等の結果が得られる •

    NLI、QAでは単純なpoolingが優れた精度を出す • SWEM Max Poolingでは、分散表現の各次元にトピックと対応付けられる ような意味的パターンが見られた 15