Better Word Embeddings by Disentangling Contextual n-Gram Information

文献紹介： Better Word Embeddings by Disentangling Contextual n-Gram Information Proceedings
of NAACL-HLT 2019, pages 933–939 Minneapolis, Minnesota, June 2 - June 7, 2019. 長岡技術科学大学勝田哲弘

Abstract ▪ bi-gramやtri-gramと組み合わせて学習すると、 uni-gram単語埋め込みが改善される ▪ 仮説：より高いn-gram埋め込みとともに単語埋め込みを学習すると、uni-gramからコンテキスト情報を削除するのに役立ち、結果として単独の単語埋め込みより改善される ▪ さまざまなタスクで他の競合する単語表現モデルを大幅に上回ることで、仮説の妥当性を経験的に示しています。
▪ モデルを公開 2

Introduction ▪ 単語分散表現 ▪ ラベルのない大量のテキストから単語に関する分布情報を捉える ▪ そのほとんどはHarris (1954), Firth (1957)の分布仮説に基づいています。
▪ “a word is characterized by the company it keeps” ▪ 最近、単語の埋め込みの品質の大幅な改善 ▪ 形態学的に豊かな言語の場合、単語コンテキストのペアを文字n-gramで拡張することにより、単語埋め込みの品質が大幅に向上 (Bojanowski et al., 2017) ▪ Bi-gramやtri-gramなどの高次単語n-gramと文字n-gramを組み合わせた単語共起を活用する方法は提案されていない 3

Introduction ▪ 学習中にuni-gramとともに高次単語n-gramを使用することで、取得した単語埋め込みの品質を大幅に改善できる ▪ 学習データに含まれるコンテキスト情報をuni-gramから取り除くことで、全体的に優れた分散単語表現が得られる ▪ 検証のため、2つのモデルを比較 ▪
Sent2Vec：単語ベクトルの取得に再利用 ▪ ours：文字n-gram情報で強化されたCBOWを単語n-gramで増強 4

Model Description ▪ Adding character n-grams (Bojanowski et al., 2017)
▪ 単語ベクトルは、その単語とその文字n-gram埋め込みの平均を足すことで表される ▪ CBOW-char with word n-grams ▪ 特定の単語のコンテキストベクトルは、現在のコンテキストウィンドウの範囲内すべてのword-n- gram 、すべてのchar-n-gram、およびすべてのuni-gramの平均によって与えられる 5

Model Description ▪ Sent2Vec for word embeddings (Pagliardini et al.,
2018) ▪ 文の埋め込み用に実装、CBOWの派生物 ▪ 文全体の単語とn-gramの埋め込みが平均化されて、対応する文の埋め込みが得られる ▪ 提案したCBOW-charモデルとSent2Vecモデルの両方について、学習時に単語n-gramにドロップアウトを適用 ▪ 両方のモデルで、学習後に高次のn-gram埋め込みを破棄することにより、単語の埋め込みが取得できる 6

Experimental Setup -Training ▪ 学習データ ▪ wikipedia (17億語を含む6,900万文) ▪ Tokenizer
▪ Stanford NLP library ▪ 学習方法 ▪ 最適なハイパーパラメーターを選択した後、異なるランダムシードで、メソッドごとに5つのモデルを学習 ▪ 結果は、これらの5つのモデルの平均と標準偏差 7

Experimental Setup -Evaluation Word-similarity tasks ▪ 単語のペアと人手による注釈付きの類似性スコアで構成(以下の5つで評価) ▪ WordSim353 (353
word-pairs) ▪ WordSim Similarity (203 word-pairs) ▪ WordSim Relatedness (252 word-pairs) ▪ SimLex-999 (999 word-pairs) ▪ MEN (3000 word-pairs) ▪ Rare words dataset (2034 word-pairs) OOVを削除-> (1959 word-pairs) ▪ Mechanical Turk dataset (287 word-pairs) ▪ 2つの単語間のコサイン類似性と類似度スコアをSpearman’s ρ相関スコアを使用して評価 8

Experimental Setup -Evaluation Word-analogy tasks ▪ 単語の類推のタスク: “x is to
y as x* ? Is to y* ? ” y*を推論する ▪ Google analogy (8869 semantic and 10675 syntactic relations) ▪ MSR (8000 syntactic) OOVを削除-> (6946 syntactic) ▪ 推論は3CosMulを用いて計算 9

Results -Impact of word n-grams n-gram情報を追加することにより、一貫してスコアが改善している。 char n-gramがない場合、モデルは低頻度の単語に適合できない可能性があり、単語n-gramは
より難しくなる Sent2vecはより広いコンテキストを考慮するため改善が大きい Syntacticは文字n-gramの貢献が大きい 10

Results -Comparison with competing methods n-gram情報を追加することにより、ほとんどのデータセットで精度を更新 Sent2Vec tri-gramsがword-similarity, semanticのタスクで支配的
Syntacticは文字n-gramが重要 11

Conclusion and Future Work ▪ 高次の単語n-gramを使用してコンテキスト表現を拡張すると、単語表現の品質がどのように改善されるかを経験的に示した ▪ Uni-gramと同時に高次のn-gramを学習し、合成する新しいモデルも必要 ▪
Sent2Vecの成功は文/フレーズ表現を取得するために合成法を行うことの利点を示唆 12

Better Word Embeddings by Disentangling Context...

Better Word Embeddings by Disentangling Contextual n-Gram Information

katsutan

More Decks by katsutan

Other Decks in Technology

Featured

Transcript

文献紹介： Better Word Embeddings by Disentangling Contextual n-Gram Information Proceedings

Introduction ▪ 単語分散表現 ▪ ラベルのない大量のテキストから単語に関する分布情報を捉える ▪ そのほとんどはHarris (1954), Firth (1957)の分布仮説に基づいています。

Model Description ▪ Adding character n-grams (Bojanowski et al., 2017)

Model Description ▪ Sent2Vec for word embeddings (Pagliardini et al.,

Experimental Setup -Training ▪ 学習データ ▪ wikipedia (17億語を含む6,900万文) ▪ Tokenizer

Experimental Setup -Evaluation Word-similarity tasks ▪ 単語のペアと人手による注釈付きの類似性スコアで構成(以下の5つで評価) ▪ WordSim353 (353

Experimental Setup -Evaluation Word-analogy tasks ▪ 単語の類推のタスク: “x is to

Results -Impact of word n-grams n-gram情報を追加することにより、一貫してスコアが改善している。 char n-gramがない場合、モデルは低頻度の単語に適合できない可能性があり、単語n-gramは

Results -Comparison with competing methods n-gram情報を追加することにより、ほとんどのデータセットで精度を更新 Sent2Vec tri-gramsがword-similarity, semanticのタスクで支配的

Conclusion and Future Work ▪ 高次の単語n-gramを使用してコンテキスト表現を拡張すると、単語表現の品質がどのように改善されるかを経験的に示した ▪ Uni-gramと同時に高次のn-gramを学習し、合成する新しいモデルも必要 ▪