Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介: Generalizing Word Embeddings using Bag of Subwords

Yumeto Inaoka
September 26, 2018

文献紹介: Generalizing Word Embeddings using Bag of Subwords

2018/09/26の文献紹介で発表

Yumeto Inaoka

September 26, 2018
Tweet

More Decks by Yumeto Inaoka

Other Decks in Research

Transcript

  1. Generalizing Word Embeddings using Bag of Subwords 文献紹介 ( 2018

    / 09 / 26 ) 長岡技術科学大学 自然言語処理研究室 稲岡 夢人
  2. Literature Jinman Zhao and Sidharth Mudgal and Yingyu Liang. Proceedings

    of the 2018 Conference on Empirical Methods in Natural Language Processing. https://arxiv.org/abs/1809.04259 2
  3. Word Vectors for OOV words • 単語は語幹, 接辞, 修飾語など形態素に分割できる •

    人間は例えば“preEMNLP”の意味を推察できる ➔ 形態素からベクトルを推測できる可能性を示唆 ➔ OOV wordsでも単語以下の単位で解析すれば 単語ベクトルを推測できる可能性がある 5
  4. BoS vs. fastText • BoSの方が少ないデータ、訓練で実現 • Intel Core i7-6700 (3.4GHz)

    において、 BoSはシングルスレッドのPythonで352秒 fastTextはマルチスレッドのC++で数時間 16
  5. Expt. (syntax, semantics) • POS tags, Morphosyntactic Attributesを予測するタ スクでベクトルを評価 →

    構文的、意味的特徴の補足を確認 • データセットはUniversal Dependencies (UD) • Bi-LSTMで予測 17