Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Improving Word Embeddings Using Kernel PCA

katsutan
September 17, 2019

Improving Word Embeddings Using Kernel PCA

文献紹介
https://www.aclweb.org/anthology/W19-4323

長岡技術科学大学
勝田 哲弘

katsutan

September 17, 2019
Tweet

More Decks by katsutan

Other Decks in Technology

Transcript

  1. IMPROVING WORD EMBEDDINGS USING KERNEL PCA
    文献紹介
    長岡技術科学大学 勝田 哲弘

    View Slide

  2. ABSTRACT
     トレーニング時間を短縮し、パフォーマンスを向上させるために、 morphological information
    を考慮した埋め込みモデルのための新しいアプローチ
     単語類似度行列のカーネル主成分分析(KPCA)で得られる単語のmorphological informationで強化
     英語とドイツ語の単語の類似性と類推のタスクでモデルを評価
     元のスキップグラムモデルとfastTextモデルよりも高い精度を達成
     必要なトレーニングデータと時間も大幅に減少
    2

    View Slide

  3. INTRODUCTION
     Word embeddingでよく用いられる手法
     Word2vec-skipgram
     fastText
     fastTextはサブワードを考慮することで低頻度語をある程度改善できる
     しかし、ニュースなどに出てくる新しい単語などは失敗する場合が多い
     語彙が時間の経過で変化するデータセット内でうまく機能するアプローチの
    提案
    3

    View Slide

  4. KPCA-BASED SKIP-GRAM AND FASTTEXT MODELS
     単語類似度行列でKPCAを使用した埋め込み事前学習
     語彙内の単語に対して文字列の類似度を計算し類似度行列を生成
     単語、サブワード埋め込みをKPCAで初期化
     意味的に類似した単語は、 roots, affixes, syllablesなどの一般的な形態素
    をしばしば共有する
     morphologically richな言語で特に役立つ
    4

    View Slide

  5. KERNEL PCA ON STRING SIMILARITIES
     語彙V内の単語w、文字列の類似度関数S(n-gram similarity)、非線形カーネル関
    数K(ガウス)で単語類似度行列を計算
     Kの列ベクトルkiはwiの| V |次元表現と見なすことができるため、V次元のwiの
    単語の特徴空間表現が得られる
     PCAによって単語ベクトルを低次元空間に投影
     最も高い固有値λ1からλdに対応するd個の固有ベクトルv1からvdを選択
    5

    View Slide

  6. MODELS WITH KPCA EMBEDDING
     語彙Vを制限して、テキストコーパスの最も頻繁な単語のみを含める
     Vに含まれない単語snewは、カーネルベクトルを用いて計算
     Semanticな情報を考慮するためword2vec、fastTextに組み込む
     fastTextではサブワードのベクトル表現も同様に計算して使用
    6

    View Slide

  7. EXPERIMENTAL RESULTS -DATASET
     様々なサイズのデータセットでトレーニングしたモデルのパフォーマンスを評価
     評価
     単語とそれらの関係の間のセマンティックおよび構文の類似性の計算を含む単語類推タスク
     文分類タスクなどの後続の処理で埋め込みがどの程度機能するか
    7

    View Slide

  8. EXPERIMENTAL RESULTS
     大きなデータセットで訓練されると、単純なモデルで単語間の非常に微妙な関係に答えることができる
    8

    View Slide

  9. EXPERIMENTAL RESULTS
     小さなデータセットのみでトレーニングされでも、KPCAで高品質な単語埋め込みを生成可能
    9

    View Slide

  10. EVALUATION OF PERFORMANCE ON
    DOWNSTREAM APPLICATIONS
     埋め込みモデルから取得した埋め込みを使用してCNNを初期化、トレーニング中の埋め込み層を固定
    10

    View Slide

  11. CONCLUSION
     KPCAを用いた単語埋め込みの改善手法を提案
     KPCAの対象となる小さな語彙から計算された文字列類似度行列に基づいた単語の埋め込みを生成
     単語のKPCAベースのベクトル表現をskipgramモデルへの入力として使用して、単語の文脈も考慮し
    た埋め込みを取得
     KPCAを用いることで:
     word similarityやword analogyの改善
     より少ないデータセット、エポック数でも学習が可能
    11

    View Slide