Improving Word Embeddings Using Kernel PCA

IMPROVING WORD EMBEDDINGS USING KERNEL PCA 文献紹介長岡技術科学大学勝田哲弘

ABSTRACT  トレーニング時間を短縮し、パフォーマンスを向上させるために、 morphological information を考慮した埋め込みモデルのための新しいアプローチ  単語類似度行列のカーネル主成分分析（KPCA）で得られる単語のmorphological informationで強化 
英語とドイツ語の単語の類似性と類推のタスクでモデルを評価  元のスキップグラムモデルとfastTextモデルよりも高い精度を達成  必要なトレーニングデータと時間も大幅に減少 2

INTRODUCTION  Word embeddingでよく用いられる手法  Word2vec-skipgram  fastText  fastTextはサブワードを考慮することで低頻度語をある程度改善できる
 しかし、ニュースなどに出てくる新しい単語などは失敗する場合が多い  語彙が時間の経過で変化するデータセット内でうまく機能するアプローチの提案 3

KPCA-BASED SKIP-GRAM AND FASTTEXT MODELS  単語類似度行列でKPCAを使用した埋め込み事前学習  語彙内の単語に対して文字列の類似度を計算し類似度行列を生成 
単語、サブワード埋め込みをKPCAで初期化  意味的に類似した単語は、 roots, affixes, syllablesなどの一般的な形態素をしばしば共有する  morphologically richな言語で特に役立つ 4

KERNEL PCA ON STRING SIMILARITIES  語彙V内の単語w、文字列の類似度関数S(n-gram similarity)、非線形カーネル関数K(ガウス)で単語類似度行列を計算 
Kの列ベクトルkiはwiの| V |次元表現と見なすことができるため、V次元のwiの単語の特徴空間表現が得られる  PCAによって単語ベクトルを低次元空間に投影  最も高い固有値λ1からλdに対応するd個の固有ベクトルv1からvdを選択 5

MODELS WITH KPCA EMBEDDING  語彙Vを制限して、テキストコーパスの最も頻繁な単語のみを含める  Vに含まれない単語snewは、カーネルベクトルを用いて計算  Semanticな情報を考慮するためword2vec、fastTextに組み込む
 fastTextではサブワードのベクトル表現も同様に計算して使用 6

EXPERIMENTAL RESULTS -DATASET  様々なサイズのデータセットでトレーニングしたモデルのパフォーマンスを評価  評価  単語とそれらの関係の間のセマンティックおよび構文の類似性の計算を含む単語類推タスク 
文分類タスクなどの後続の処理で埋め込みがどの程度機能するか 7

EXPERIMENTAL RESULTS  大きなデータセットで訓練されると、単純なモデルで単語間の非常に微妙な関係に答えることができる 8

EXPERIMENTAL RESULTS  小さなデータセットのみでトレーニングされでも、KPCAで高品質な単語埋め込みを生成可能 9

EVALUATION OF PERFORMANCE ON DOWNSTREAM APPLICATIONS  埋め込みモデルから取得した埋め込みを使用してCNNを初期化、トレーニング中の埋め込み層を固定 10

CONCLUSION  KPCAを用いた単語埋め込みの改善手法を提案  KPCAの対象となる小さな語彙から計算された文字列類似度行列に基づいた単語の埋め込みを生成  単語のKPCAベースのベクトル表現をskipgramモデルへの入力として使用して、単語の文脈も考慮した埋め込みを取得  KPCAを用いることで：
 word similarityやword analogyの改善  より少ないデータセット、エポック数でも学習が可能 11

Improving Word Embeddings Using Kernel PCA

Improving Word Embeddings Using Kernel PCA

katsutan

More Decks by katsutan

Other Decks in Technology

Featured

Transcript