Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Improving Word Embeddings Using Kernel PCA
Search
katsutan
September 17, 2019
Technology
0
210
Improving Word Embeddings Using Kernel PCA
文献紹介
https://www.aclweb.org/anthology/W19-4323
長岡技術科学大学
勝田 哲弘
katsutan
September 17, 2019
Tweet
Share
More Decks by katsutan
See All by katsutan
What does BERT learn about the structure of language?
katsutan
0
210
Simple and Effective Paraphrastic Similarity from Parallel Translations
katsutan
0
190
Simple task-specific bilingual word embeddings
katsutan
0
200
Retrofitting Contextualized Word Embeddings with Paraphrases
katsutan
0
240
Character Eyes: Seeing Language through Character-Level Taggers
katsutan
1
190
Better Word Embeddings by Disentangling Contextual n-Gram Information
katsutan
0
300
Rotational Unit of Memory: A Novel Representation Unit for RNNs with Scalable Applications
katsutan
0
250
A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings
katsutan
0
280
DSGAN: Generative Adversarial Training for Distant Supervision Relation Extraction
katsutan
0
250
Other Decks in Technology
See All in Technology
人に寄り添うAIエージェントとアーキテクチャ #BetAIDay
layerx
PRO
9
2.1k
LLMで構造化出力の成功率をグンと上げる方法
keisuketakiguchi
0
590
AWS re:Inforce 2025 re:Cap Update Pickup & AWS Control Tower の運用における考慮ポイント
htan
1
220
大規模イベントに向けた ABEMA アーキテクチャの遍歴 ~ Platform Strategy 詳細解説 ~
nagapad
0
190
2025新卒研修・HTML/CSS #弁護士ドットコム
bengo4com
3
13k
家族の思い出を形にする 〜 1秒動画の生成を支えるインフラアーキテクチャ
ojima_h
1
580
S3 Glacier のデータを Athena からクエリしようとしたらどうなるのか/try-to-query-s3-glacier-from-athena
emiki
0
200
Google Agentspaceを実際に導入した効果と今後の展望
mixi_engineers
PRO
3
350
マルチプロダクト×マルチテナントを支えるモジュラモノリスを中心としたアソビューのアーキテクチャ
disc99
1
360
Amazon Q Developerを活用したアーキテクチャのリファクタリング
k1nakayama
2
200
【Λ(らむだ)】最近のアプデ情報 / RPALT20250729
lambda
0
230
20250807_Kiroと私の反省会
riz3f7
0
190
Featured
See All Featured
ReactJS: Keep Simple. Everything can be a component!
pedronauck
667
120k
Building Applications with DynamoDB
mza
95
6.5k
Why Our Code Smells
bkeepers
PRO
337
57k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
50
5.5k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
35
2.5k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.5k
The Language of Interfaces
destraynor
158
25k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
33
2.4k
YesSQL, Process and Tooling at Scale
rocio
173
14k
The Art of Programming - Codeland 2020
erikaheidi
54
13k
Adopting Sorbet at Scale
ufuk
77
9.5k
How to Ace a Technical Interview
jacobian
278
23k
Transcript
IMPROVING WORD EMBEDDINGS USING KERNEL PCA 文献紹介 長岡技術科学大学 勝田 哲弘
ABSTRACT トレーニング時間を短縮し、パフォーマンスを向上させるために、 morphological information を考慮した埋め込みモデルのための新しいアプローチ 単語類似度行列のカーネル主成分分析(KPCA)で得られる単語のmorphological informationで強化
英語とドイツ語の単語の類似性と類推のタスクでモデルを評価 元のスキップグラムモデルとfastTextモデルよりも高い精度を達成 必要なトレーニングデータと時間も大幅に減少 2
INTRODUCTION Word embeddingでよく用いられる手法 Word2vec-skipgram fastText fastTextはサブワードを考慮することで低頻度語をある程度改善できる
しかし、ニュースなどに出てくる新しい単語などは失敗する場合が多い 語彙が時間の経過で変化するデータセット内でうまく機能するアプローチの 提案 3
KPCA-BASED SKIP-GRAM AND FASTTEXT MODELS 単語類似度行列でKPCAを使用した埋め込み事前学習 語彙内の単語に対して文字列の類似度を計算し類似度行列を生成
単語、サブワード埋め込みをKPCAで初期化 意味的に類似した単語は、 roots, affixes, syllablesなどの一般的な形態素 をしばしば共有する morphologically richな言語で特に役立つ 4
KERNEL PCA ON STRING SIMILARITIES 語彙V内の単語w、文字列の類似度関数S(n-gram similarity)、非線形カーネル関 数K(ガウス)で単語類似度行列を計算
Kの列ベクトルkiはwiの| V |次元表現と見なすことができるため、V次元のwiの 単語の特徴空間表現が得られる PCAによって単語ベクトルを低次元空間に投影 最も高い固有値λ1からλdに対応するd個の固有ベクトルv1からvdを選択 5
MODELS WITH KPCA EMBEDDING 語彙Vを制限して、テキストコーパスの最も頻繁な単語のみを含める Vに含まれない単語snewは、カーネルベクトルを用いて計算 Semanticな情報を考慮するためword2vec、fastTextに組み込む
fastTextではサブワードのベクトル表現も同様に計算して使用 6
EXPERIMENTAL RESULTS -DATASET 様々なサイズのデータセットでトレーニングしたモデルのパフォーマンスを評価 評価 単語とそれらの関係の間のセマンティックおよび構文の類似性の計算を含む単語類推タスク
文分類タスクなどの後続の処理で埋め込みがどの程度機能するか 7
EXPERIMENTAL RESULTS 大きなデータセットで訓練されると、単純なモデルで単語間の非常に微妙な関係に答えることができる 8
EXPERIMENTAL RESULTS 小さなデータセットのみでトレーニングされでも、KPCAで高品質な単語埋め込みを生成可能 9
EVALUATION OF PERFORMANCE ON DOWNSTREAM APPLICATIONS 埋め込みモデルから取得した埋め込みを使用してCNNを初期化、トレーニング中の埋め込み層を固定 10
CONCLUSION KPCAを用いた単語埋め込みの改善手法を提案 KPCAの対象となる小さな語彙から計算された文字列類似度行列に基づいた単語の埋め込みを生成 単語のKPCAベースのベクトル表現をskipgramモデルへの入力として使用して、単語の文脈も考慮し た埋め込みを取得 KPCAを用いることで:
word similarityやword analogyの改善 より少ないデータセット、エポック数でも学習が可能 11