Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Improving Word Embeddings Using Kernel PCA

katsutan
September 17, 2019

Improving Word Embeddings Using Kernel PCA

文献紹介
https://www.aclweb.org/anthology/W19-4323

長岡技術科学大学
勝田 哲弘

katsutan

September 17, 2019
Tweet

More Decks by katsutan

Other Decks in Technology

Transcript

  1. ABSTRACT  トレーニング時間を短縮し、パフォーマンスを向上させるために、 morphological information を考慮した埋め込みモデルのための新しいアプローチ  単語類似度行列のカーネル主成分分析(KPCA)で得られる単語のmorphological informationで強化 

    英語とドイツ語の単語の類似性と類推のタスクでモデルを評価  元のスキップグラムモデルとfastTextモデルよりも高い精度を達成  必要なトレーニングデータと時間も大幅に減少 2
  2. INTRODUCTION  Word embeddingでよく用いられる手法  Word2vec-skipgram  fastText  fastTextはサブワードを考慮することで低頻度語をある程度改善できる

     しかし、ニュースなどに出てくる新しい単語などは失敗する場合が多い  語彙が時間の経過で変化するデータセット内でうまく機能するアプローチの 提案 3
  3. KPCA-BASED SKIP-GRAM AND FASTTEXT MODELS  単語類似度行列でKPCAを使用した埋め込み事前学習  語彙内の単語に対して文字列の類似度を計算し類似度行列を生成 

    単語、サブワード埋め込みをKPCAで初期化  意味的に類似した単語は、 roots, affixes, syllablesなどの一般的な形態素 をしばしば共有する  morphologically richな言語で特に役立つ 4
  4. KERNEL PCA ON STRING SIMILARITIES  語彙V内の単語w、文字列の類似度関数S(n-gram similarity)、非線形カーネル関 数K(ガウス)で単語類似度行列を計算 

    Kの列ベクトルkiはwiの| V |次元表現と見なすことができるため、V次元のwiの 単語の特徴空間表現が得られる  PCAによって単語ベクトルを低次元空間に投影  最も高い固有値λ1からλdに対応するd個の固有ベクトルv1からvdを選択 5