Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Improving Word Embeddings Using Kernel PCA
Search
katsutan
September 17, 2019
Technology
0
230
Improving Word Embeddings Using Kernel PCA
文献紹介
https://www.aclweb.org/anthology/W19-4323
長岡技術科学大学
勝田 哲弘
katsutan
September 17, 2019
Tweet
Share
More Decks by katsutan
See All by katsutan
What does BERT learn about the structure of language?
katsutan
0
240
Simple and Effective Paraphrastic Similarity from Parallel Translations
katsutan
0
220
Simple task-specific bilingual word embeddings
katsutan
0
210
Retrofitting Contextualized Word Embeddings with Paraphrases
katsutan
0
270
Character Eyes: Seeing Language through Character-Level Taggers
katsutan
1
220
Better Word Embeddings by Disentangling Contextual n-Gram Information
katsutan
0
320
Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications
katsutan
0
270
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings
katsutan
0
300
DSGAN: Generative Adversarial Training for Distant Supervision Relation Extraction
katsutan
0
280
Other Decks in Technology
See All in Technology
IBM Bobを使って、PostgreSQLのToDoアプリをDb2へ変換してみよう/202603_Dojo_Bob
mayumihirano
1
290
When an innocent-looking ListOffsets Call Took Down Our Kafka Cluster
lycorptech_jp
PRO
0
120
Claude Code Skills 勉強会 (DevelersIO向けに調整済み) / claude code skills for devio
masahirokawahara
0
1.8k
LINE Messengerの次世代ストレージ選定
lycorptech_jp
PRO
19
7.7k
Security Diaries of an Open Source IAM
ahus1
0
210
クラウド時代における一時権限取得
krrrr38
1
180
JAWS FESTA 2025でリリースしたほぼリアルタイム文字起こし/翻訳機能の構成について
naoki8408
1
170
製造業ドメインにおける LLMプロダクト構築: 複雑な文脈へのアプローチ
caddi_eng
1
540
vLLM Community Meetup Tokyo #3 オープニングトーク
jpishikawa
0
240
新職業『オーケストレーター』誕生 — エージェント10体を同時に回すAgentOps
gunta
4
1.7k
Yahoo!ショッピングのレコメンデーション・システムにおけるML実践の一例
lycorptech_jp
PRO
1
170
JAWSDAYS2026_A-6_現場SEが語る 回せるセキュリティ運用~設計で可視化、AIで加速する「楽に回る」運用設計のコツ~
shoki_hata
0
2.9k
Featured
See All Featured
Reality Check: Gamification 10 Years Later
codingconduct
0
2k
KATA
mclloyd
PRO
35
15k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.3k
4 Signs Your Business is Dying
shpigford
187
22k
Organizational Design Perspectives: An Ontology of Organizational Design Elements
kimpetersen
PRO
1
630
Code Reviewing Like a Champion
maltzj
528
40k
Exploring the relationship between traditional SERPs and Gen AI search
raygrieselhuber
PRO
2
3.7k
How to build a perfect <img>
jonoalderson
1
5.2k
Navigating the moral maze — ethical principles for Al-driven product design
skipperchong
2
280
Git: the NoSQL Database
bkeepers
PRO
432
66k
What’s in a name? Adding method to the madness
productmarketing
PRO
24
4k
Fashionably flexible responsive web design (full day workshop)
malarkey
408
66k
Transcript
IMPROVING WORD EMBEDDINGS USING KERNEL PCA 文献紹介 長岡技術科学大学 勝田 哲弘
ABSTRACT トレーニング時間を短縮し、パフォーマンスを向上させるために、 morphological information を考慮した埋め込みモデルのための新しいアプローチ 単語類似度行列のカーネル主成分分析(KPCA)で得られる単語のmorphological informationで強化
英語とドイツ語の単語の類似性と類推のタスクでモデルを評価 元のスキップグラムモデルとfastTextモデルよりも高い精度を達成 必要なトレーニングデータと時間も大幅に減少 2
INTRODUCTION Word embeddingでよく用いられる手法 Word2vec-skipgram fastText fastTextはサブワードを考慮することで低頻度語をある程度改善できる
しかし、ニュースなどに出てくる新しい単語などは失敗する場合が多い 語彙が時間の経過で変化するデータセット内でうまく機能するアプローチの 提案 3
KPCA-BASED SKIP-GRAM AND FASTTEXT MODELS 単語類似度行列でKPCAを使用した埋め込み事前学習 語彙内の単語に対して文字列の類似度を計算し類似度行列を生成
単語、サブワード埋め込みをKPCAで初期化 意味的に類似した単語は、 roots, affixes, syllablesなどの一般的な形態素 をしばしば共有する morphologically richな言語で特に役立つ 4
KERNEL PCA ON STRING SIMILARITIES 語彙V内の単語w、文字列の類似度関数S(n-gram similarity)、非線形カーネル関 数K(ガウス)で単語類似度行列を計算
Kの列ベクトルkiはwiの| V |次元表現と見なすことができるため、V次元のwiの 単語の特徴空間表現が得られる PCAによって単語ベクトルを低次元空間に投影 最も高い固有値λ1からλdに対応するd個の固有ベクトルv1からvdを選択 5
MODELS WITH KPCA EMBEDDING 語彙Vを制限して、テキストコーパスの最も頻繁な単語のみを含める Vに含まれない単語snewは、カーネルベクトルを用いて計算 Semanticな情報を考慮するためword2vec、fastTextに組み込む
fastTextではサブワードのベクトル表現も同様に計算して使用 6
EXPERIMENTAL RESULTS -DATASET 様々なサイズのデータセットでトレーニングしたモデルのパフォーマンスを評価 評価 単語とそれらの関係の間のセマンティックおよび構文の類似性の計算を含む単語類推タスク
文分類タスクなどの後続の処理で埋め込みがどの程度機能するか 7
EXPERIMENTAL RESULTS 大きなデータセットで訓練されると、単純なモデルで単語間の非常に微妙な関係に答えることができる 8
EXPERIMENTAL RESULTS 小さなデータセットのみでトレーニングされでも、KPCAで高品質な単語埋め込みを生成可能 9
EVALUATION OF PERFORMANCE ON DOWNSTREAM APPLICATIONS 埋め込みモデルから取得した埋め込みを使用してCNNを初期化、トレーニング中の埋め込み層を固定 10
CONCLUSION KPCAを用いた単語埋め込みの改善手法を提案 KPCAの対象となる小さな語彙から計算された文字列類似度行列に基づいた単語の埋め込みを生成 単語のKPCAベースのベクトル表現をskipgramモデルへの入力として使用して、単語の文脈も考慮し た埋め込みを取得 KPCAを用いることで:
word similarityやword analogyの改善 より少ないデータセット、エポック数でも学習が可能 11