文献紹介: Better Word Embeddings by Disentangling Contextual n-Gram Information Proceedings of NAACL-HLT 2019, pages 933–939 Minneapolis, Minnesota, June 2 - June 7, 2019. 長岡技術科学大学 勝田 哲弘
Introduction ▪ 単語分散表現 ▪ ラベルのない大量のテキストから単語に関する分布情報を捉える ▪ そのほとんどはHarris (1954), Firth (1957)の分布仮説に基づいています。 ▪ “a word is characterized by the company it keeps” ▪ 最近、単語の埋め込みの品質の大幅な改善 ▪ 形態学的に豊かな言語の場合、単語コンテキストのペアを文字n-gramで拡張することにより、単語 埋め込みの品質が大幅に向上 (Bojanowski et al., 2017) ▪ Bi-gramやtri-gramなどの高次単語n-gramと文字n-gramを組み合わせた単語共 起を活用する方法は提案されていない 3
Experimental Setup -Evaluation Word-analogy tasks ▪ 単語の類推のタスク: “x is to y as x* ? Is to y* ? ” y*を推論する ▪ Google analogy (8869 semantic and 10675 syntactic relations) ▪ MSR (8000 syntactic) OOVを削除-> (6946 syntactic) ▪ 推論は3CosMulを用いて計算 9