Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Better Word Embeddings by Disentangling Contextual n-Gram Information

katsutan
August 30, 2019

Better Word Embeddings by Disentangling Contextual n-Gram Information

文献紹介
https://www.aclweb.org/anthology/N19-1098

長岡技術科学大学
勝田 哲弘

katsutan

August 30, 2019
Tweet

More Decks by katsutan

Other Decks in Technology

Transcript

  1. 文献紹介: Better Word Embeddings by Disentangling Contextual n-Gram Information Proceedings

    of NAACL-HLT 2019, pages 933–939 Minneapolis, Minnesota, June 2 - June 7, 2019. 長岡技術科学大学 勝田 哲弘
  2. Introduction ▪ 単語分散表現 ▪ ラベルのない大量のテキストから単語に関する分布情報を捉える ▪ そのほとんどはHarris (1954), Firth (1957)の分布仮説に基づいています。

    ▪ “a word is characterized by the company it keeps” ▪ 最近、単語の埋め込みの品質の大幅な改善 ▪ 形態学的に豊かな言語の場合、単語コンテキストのペアを文字n-gramで拡張することにより、単語 埋め込みの品質が大幅に向上 (Bojanowski et al., 2017) ▪ Bi-gramやtri-gramなどの高次単語n-gramと文字n-gramを組み合わせた単語共 起を活用する方法は提案されていない 3
  3. Model Description ▪ Adding character n-grams (Bojanowski et al., 2017)

    ▪ 単語ベクトルは、その単語とその文字n-gram埋め込み の平均を足すことで表される ▪ CBOW-char with word n-grams ▪ 特定の単語 のコンテキストベクトルは、現在のコンテキストウィンドウ の範囲内すべてのword-n- gram 、すべてのchar-n-gram、およびすべてのuni-gramの平均によって与えられる 5
  4. Model Description ▪ Sent2Vec for word embeddings (Pagliardini et al.,

    2018) ▪ 文の埋め込み用に実装、CBOWの派生物 ▪ 文全体の単語とn-gramの埋め込みが平均化されて、対応する文の埋め込みが得られる ▪ 提案したCBOW-charモデルとSent2Vecモデルの両方について、学習時に単語n-gramに ドロップアウトを適用 ▪ 両方のモデルで、学習後に高次のn-gram埋め込みを破棄することにより、単語の埋め込み が取得できる 6
  5. Experimental Setup -Training ▪ 学習データ ▪ wikipedia (17億語を含む6,900万文) ▪ Tokenizer

    ▪ Stanford NLP library ▪ 学習方法 ▪ 最適なハイパーパラメーターを選択した後、異なるランダムシードで、メソッドごとに5つのモデルを学習 ▪ 結果は、これらの5つのモデルの平均と標準偏差 7
  6. Experimental Setup -Evaluation Word-similarity tasks ▪ 単語のペアと人手による注釈付きの類似性スコアで構成(以下の5つで評価) ▪ WordSim353 (353

    word-pairs) ▪ WordSim Similarity (203 word-pairs) ▪ WordSim Relatedness (252 word-pairs) ▪ SimLex-999 (999 word-pairs) ▪ MEN (3000 word-pairs) ▪ Rare words dataset (2034 word-pairs) OOVを削除-> (1959 word-pairs) ▪ Mechanical Turk dataset (287 word-pairs) ▪ 2つの単語間のコサイン類似性と類似度スコアをSpearman’s ρ相関スコアを使用して評価 8
  7. Experimental Setup -Evaluation Word-analogy tasks ▪ 単語の類推のタスク: “x is to

    y as x* ? Is to y* ? ” y*を推論する ▪ Google analogy (8869 semantic and 10675 syntactic relations) ▪ MSR (8000 syntactic) OOVを削除-> (6946 syntactic) ▪ 推論は3CosMulを用いて計算 9