Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Better Word Embeddings by Disentangling Contextual n-Gram Information

19861bbc3b8d3ef89df5400d1e2c529a?s=47 katsutan
August 30, 2019

Better Word Embeddings by Disentangling Contextual n-Gram Information

文献紹介
https://www.aclweb.org/anthology/N19-1098

長岡技術科学大学
勝田 哲弘

19861bbc3b8d3ef89df5400d1e2c529a?s=128

katsutan

August 30, 2019
Tweet

More Decks by katsutan

Other Decks in Technology

Transcript

  1. 文献紹介: Better Word Embeddings by Disentangling Contextual n-Gram Information Proceedings

    of NAACL-HLT 2019, pages 933–939 Minneapolis, Minnesota, June 2 - June 7, 2019. 長岡技術科学大学 勝田 哲弘
  2. Abstract ▪ bi-gramやtri-gramと組み合わせて学習すると、 uni-gram単語埋め込みが改善される ▪ 仮説:より高いn-gram埋め込みとともに単語埋め込みを学習すると、uni-gramからコ ンテキスト情報を削除するのに役立ち、結果として単独の単語埋め込みより改善される ▪ さまざまなタスクで他の競合する単語表現モデルを大幅に上回ることで、仮説の妥当性を経 験的に示しています。

    ▪ モデルを公開 2
  3. Introduction ▪ 単語分散表現 ▪ ラベルのない大量のテキストから単語に関する分布情報を捉える ▪ そのほとんどはHarris (1954), Firth (1957)の分布仮説に基づいています。

    ▪ “a word is characterized by the company it keeps” ▪ 最近、単語の埋め込みの品質の大幅な改善 ▪ 形態学的に豊かな言語の場合、単語コンテキストのペアを文字n-gramで拡張することにより、単語 埋め込みの品質が大幅に向上 (Bojanowski et al., 2017) ▪ Bi-gramやtri-gramなどの高次単語n-gramと文字n-gramを組み合わせた単語共 起を活用する方法は提案されていない 3
  4. Introduction ▪ 学習中にuni-gramとともに高次単語n-gramを使用することで、取得した単語埋め込みの 品質を大幅に改善できる ▪ 学習データに含まれるコンテキスト情報をuni-gramから取り除くことで、全体的に優れた分 散単語表現が得られる ▪ 検証のため、2つのモデルを比較 ▪

    Sent2Vec:単語ベクトルの取得に再利用 ▪ ours:文字n-gram情報で強化されたCBOWを単語n-gramで増強 4
  5. Model Description ▪ Adding character n-grams (Bojanowski et al., 2017)

    ▪ 単語ベクトルは、その単語とその文字n-gram埋め込み の平均を足すことで表される ▪ CBOW-char with word n-grams ▪ 特定の単語 のコンテキストベクトルは、現在のコンテキストウィンドウ の範囲内すべてのword-n- gram 、すべてのchar-n-gram、およびすべてのuni-gramの平均によって与えられる 5
  6. Model Description ▪ Sent2Vec for word embeddings (Pagliardini et al.,

    2018) ▪ 文の埋め込み用に実装、CBOWの派生物 ▪ 文全体の単語とn-gramの埋め込みが平均化されて、対応する文の埋め込みが得られる ▪ 提案したCBOW-charモデルとSent2Vecモデルの両方について、学習時に単語n-gramに ドロップアウトを適用 ▪ 両方のモデルで、学習後に高次のn-gram埋め込みを破棄することにより、単語の埋め込み が取得できる 6
  7. Experimental Setup -Training ▪ 学習データ ▪ wikipedia (17億語を含む6,900万文) ▪ Tokenizer

    ▪ Stanford NLP library ▪ 学習方法 ▪ 最適なハイパーパラメーターを選択した後、異なるランダムシードで、メソッドごとに5つのモデルを学習 ▪ 結果は、これらの5つのモデルの平均と標準偏差 7
  8. Experimental Setup -Evaluation Word-similarity tasks ▪ 単語のペアと人手による注釈付きの類似性スコアで構成(以下の5つで評価) ▪ WordSim353 (353

    word-pairs) ▪ WordSim Similarity (203 word-pairs) ▪ WordSim Relatedness (252 word-pairs) ▪ SimLex-999 (999 word-pairs) ▪ MEN (3000 word-pairs) ▪ Rare words dataset (2034 word-pairs) OOVを削除-> (1959 word-pairs) ▪ Mechanical Turk dataset (287 word-pairs) ▪ 2つの単語間のコサイン類似性と類似度スコアをSpearman’s ρ相関スコアを使用して評価 8
  9. Experimental Setup -Evaluation Word-analogy tasks ▪ 単語の類推のタスク: “x is to

    y as x* ? Is to y* ? ” y*を推論する ▪ Google analogy (8869 semantic and 10675 syntactic relations) ▪ MSR (8000 syntactic) OOVを削除-> (6946 syntactic) ▪ 推論は3CosMulを用いて計算 9
  10. Results -Impact of word n-grams n-gram情報を追加することにより、一貫してスコ アが改善している。 char n-gramがない場合、モデルは低頻度の単 語に適合できない可能性があり、単語n-gramは

    より難しくなる Sent2vecはより広いコンテキストを考慮するため 改善が大きい Syntacticは文字n-gramの貢献が大きい 10
  11. Results -Comparison with competing methods n-gram情報を追加することにより、ほとんどのデー タセットで精度を更新 Sent2Vec tri-gramsがword-similarity, semanticのタスクで支配的

    Syntacticは文字n-gramが重要 11
  12. Conclusion and Future Work ▪ 高次の単語n-gramを使用してコンテキスト表現を拡張すると、単語表現の品質がどのように 改善されるかを経験的に示した ▪ Uni-gramと同時に高次のn-gramを学習し、合成する新しいモデルも必要 ▪

    Sent2Vecの成功は文/フレーズ表現を取得するために合成法を行うことの利点を示唆 12