Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Word Embeddings as Metric Recovery in Semantic ...
Search
Sho Yokoi
PRO
September 08, 2016
Research
1
1.6k
Word Embeddings as Metric Recovery in Semantic Spaces
2016-09-11 第8回最先端NLP勉強会
2016-10-12 updated
Sho Yokoi
PRO
September 08, 2016
Tweet
Share
More Decks by Sho Yokoi
See All by Sho Yokoi
Language Models Are Implicitly Continuous
eumesy
PRO
0
350
言語モデルの内部機序:解析と解釈
eumesy
PRO
74
23k
コーパスを丸呑みしたモデルから言語の何がわかるか
eumesy
PRO
12
4.4k
Zipf 白色化:タイプとトークンの区別がもたらす良質な埋め込み空間と損失関数
eumesy
PRO
10
2.2k
Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve
eumesy
PRO
7
1.9k
「確率的なオウム」にできること、またそれがなぜできるのかについて
eumesy
PRO
8
4.3k
A Theory of Emergent In-Context Learning as Implicit Structure Induction
eumesy
PRO
5
1.7k
ChatGPT と自然言語処理 / 言語の意味の計算と最適輸送
eumesy
PRO
25
18k
Revisiting Over-smoothing in BERT from the Perspective of Graph
eumesy
PRO
0
1.5k
Other Decks in Research
See All in Research
競合や要望に流されない─B2B SaaSでミニマム要件を決めるリアルな取り組み / Don't be swayed by competitors or requests - A real effort to determine minimum requirements for B2B SaaS
kaminashi
0
110
能動適応的実験計画
masakat0
2
1.1k
AIスパコン「さくらONE」のLLM学習ベンチマークによる性能評価 / SAKURAONE LLM Training Benchmarking
yuukit
2
890
Combining Deep Learning and Street View Imagery to Map Smallholder Crop Types
satai
3
260
論文読み会 SNLP2025 Learning Dynamics of LLM Finetuning. In: ICLR 2025
s_mizuki_nlp
0
340
【輪講資料】Moshi: a speech-text foundation model for real-time dialogue
hpprc
3
820
Satellites Reveal Mobility: A Commuting Origin-destination Flow Generator for Global Cities
satai
3
180
Stealing LUKS Keys via TPM and UUID Spoofing in 10 Minutes - BSides 2025
anykeyshik
0
170
J-RAGBench: 日本語RAGにおける Generator評価ベンチマークの構築
koki_itai
0
1k
[論文紹介] Intuitive Fine-Tuning
ryou0634
0
150
MetaEarth: A Generative Foundation Model for Global-Scale Remote Sensing Image Generation
satai
4
480
MIRU2025 チュートリアル講演「ロボット基盤モデルの最前線」
haraduka
15
11k
Featured
See All Featured
Bash Introduction
62gerente
615
210k
Keith and Marios Guide to Fast Websites
keithpitt
413
23k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
3.2k
jQuery: Nuts, Bolts and Bling
dougneiner
65
8.2k
Rails Girls Zürich Keynote
gr2m
95
14k
Principles of Awesome APIs and How to Build Them.
keavy
127
17k
Docker and Python
trallard
47
3.7k
Art, The Web, and Tiny UX
lynnandtonic
303
21k
Building an army of robots
kneath
306
46k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
9.8k
A designer walks into a library…
pauljervisheath
210
24k
Transcript
Word Embeddings as Metric Recovery in Semantic Spaces Tatsunori B.
Hashimoto, David Alvarez‒Melis and Tommi S. Jaakkola (TACL 2016) 読む人: 横井 祥 (東北大学 乾・岡崎研究室 M2) 2016‒09‒11 第8回最先端NLP勉強会 2016‒10‒12 updated ACL Anthology 特に注釈がない限り, 図表は原論文からの引用です.
概要 「共起に基づく様々な word embedding 手法は, semantic space (“semantic similarity” を2ノルムとしてよく表せるユ
ークリッド空間) の metric recovery として統一的に理解で きる」…という仮説の検証 「なんだか分からないけどすごく便利な GloVe とか word2vec に, 数理的&統一的解釈を与えてみよう」系の論文 ※ ただし, word vector の数理的性質の理解を目的とするの であれば後続の [Aora+, TACL 2016] 推奨 前半で扱われてる認知言語学系の研究との接続も面白い 「平行四辺形でアナロジー」「(penny, nickel, dime) などの “並ぶ” 概念が直線上に配置される」「近いクラスの単語は近 くに集まる」を検証するためのデータセットを作成
word embedding に数理的&統一的解 釈を与えてみようシリーズ [Levy and Goldberg, 2014b] “Neural Word
Embedding as Implicit Matrix Factorization”: 「各 embedding 手法は SPPMI (Shifted Positive PMI) word‒context matrix の行列分解として理解できる」 〈vec(w),vec(c)〉≈ max(PMI(w,c) ‒ log k, 0) [Arora+, TACL 2016] “A Latent Variable Model Approach to PMI‒based Word Embeddings”: ランダムウォークする文脈ベクトルから単語ベクトルが 生成されるモデルから, 〈v,w〉≈ PMI(v,w) を導出 低ランク近似によって「意味方向が, ベクトルの差の第1 主成分に表れること」「学習されたベクトルたちが超球 上に集中すること (内積の大きさ ≈ cos の大きさ ∝ 差の 2ノルムの小ささ + k)」も示している
議論の流れ 1. PMIを介して単語ベクトルたちを埋め込んだ空間は, (認知心 理学で研究されてきた) semantic space (意味の近さ ≈ ユ
ークリッド距離) と考えるのが自然そう 2. semantic space 上の座標の学習は, “単語間の距離に従うラ ンダムウォークのサンプルパスが文になる” と考えたときに, 元の多様体を低次元ユークリッド空間へ埋め込む多様体学習 として理解できる (=イイ感じの bi‒gram 言語モデルを仮定 すると PMI と metric space 上の距離はだいたい同一視で きる) → よりダイレクトに metric recovery する学習法を開 発した 3. Embedding の良さを検証する新しいタスクも作って実験・検 証
1. PMIの大きさ ↔ 意味の近さ ↔ semantic space での距離の小ささ PMI を用いて
“意味の近さ” が距離の近さとなるようなユークリッ ド空間 (semantic space) に単語を埋め込むのは (= 単語の共起 頻度 ↔ 単語ベクトルのユークリッド距離 という考え方は) 自然と いう話
1‒1. 意味の近さ ↔ semantic space での距離の 小ささ 人間の考える意味の近さを表現する空間として semantic space
(意味の近さ ≈ ユークリッド距離) は良さそう [Rumelhart and Abrahamson, 1973] [Sternberg and Gardner, 1983]
1‒2. 意味の近さ ↔ PMIの大きさ 人間の考える意味の近さとPMIには強い正の相関がある [Church and Hanks, 1990]
1‒3. PMIの大きさ ↔ semantic space での距離 の小ささ
「semantic space の研究で検討されてきた, (単語の意味の 近さという観点での) Nearest Neighbor の統計量 (C, Rf)
の望ましい値 [Tversky and Hutchinson, 1986] 」と「昨今単語ベクトルの学習で用いられている コーパスの (PMIが閾値よりも大きくなる単語ペアを NN と考えた場合 の) これらの統計量の推定値 」は整合的 =我々が学習対象に用いているコーパスのPMI (分布仮説に基 づく類似度?) は semantic space と整合的 cf. free association dataset [Nelson et al., 2004]
2. semantic space の metric recovery を, Markov 言語モデルから 生成されるコーパスからの多様体学習と
して定式化
2‒1. 多様体学習 非線形な次元削減手法としての “多様体学習” データ点同士のローカルな近さは分かっている空間 (“多様 体”) について 測地線距離をできるだけ保存して次元削減する (低次元空間の
座標を学習する)
fig: url
ここでの “多様体学習” の気持ち ローカルに近い単語 (“Nearest Neighbor”) を繋いだグラフ を辿った “パス長” が,
単語間の “距離”としてだいたい保存さ れるような低次元ユークリッド空間上の座標を学習する cf. 「画像の類似度に関してもローカルな類似度しか有意味で ないので多様体学習が必要」
2‒2. Random walk model PMIとユークリッド距離が対応するにはコーパスはいかなる性 質を持っていれば良いだろうか? semantic space の距離を用いた 2‒gram
言語モデルを考 える h: 2ノルム → 共起 のイイ感じの関数 (sub‒Gaussian)
先の言語モデルから作られるコーパスで共起頻度を見ると semantic space 上の距離を復元できる! 気持ち:先の言語モデルに従うコーパスが十分な語彙数およ びトークン数を持っていれば, (negative log) 共起頻度 (から
語毎に定まるバイアスを引いたもの) はだいたい semantic space 上のユークリッド距離 注:言語モデルは bi‒gram だが, ここでの共起は十分広い窓 幅を取る 注:この性質は h が未知のままで従う GloVe [Pennington et al., 2014] も word2vec [Mikolov et al., 2013a] もこの観点で理解できる (=最適化が Lemma 1 の左辺と右辺を近づけていることと等価)
モチベーション
提案手法 (Lemma 1 の左辺と右辺を直接近づける)
3. 検証 3‒1. “metric recovery in semantic space” 問題 結果
3‒2. サンプルパスからの “多様体学習” MNISTの256次元のデータ(* 4000)を2次元に圧縮 データ毎に20の近傍データを隣接させたグラフ上をランダム ウォークして作った “文” の集合からデータのベクトル (2次
元) を学習
ほか, 面白かった話, 所感など semantic space は上位語下位語の関係を上手に埋め込めない らしい 「数学で殴るぞ」感 「GloVe や
word2vec は 結局 bi‒gram しか見ていない」と とれる?