Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Word Embeddings as Metric Recovery in Semantic ...
Search
Sho Yokoi
PRO
September 08, 2016
Research
1
1.6k
Word Embeddings as Metric Recovery in Semantic Spaces
2016-09-11 第8回最先端NLP勉強会
2016-10-12 updated
Sho Yokoi
PRO
September 08, 2016
Tweet
Share
More Decks by Sho Yokoi
See All by Sho Yokoi
Language Models Are Implicitly Continuous
eumesy
PRO
0
230
言語モデルの内部機序:解析と解釈
eumesy
PRO
64
19k
コーパスを丸呑みしたモデルから言語の何がわかるか
eumesy
PRO
12
4.1k
Zipf 白色化:タイプとトークンの区別がもたらす良質な埋め込み空間と損失関数
eumesy
PRO
9
2k
Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve
eumesy
PRO
7
1.8k
「確率的なオウム」にできること、またそれがなぜできるのかについて
eumesy
PRO
8
4k
A Theory of Emergent In-Context Learning as Implicit Structure Induction
eumesy
PRO
5
1.7k
ChatGPT と自然言語処理 / 言語の意味の計算と最適輸送
eumesy
PRO
25
18k
Revisiting Over-smoothing in BERT from the Perspective of Graph
eumesy
PRO
0
1.4k
Other Decks in Research
See All in Research
とあるSREの博士「過程」 / A Certain SRE’s Ph.D. Journey
yuukit
10
4.2k
機械学習と数理最適化の融合 (MOAI) による革新
mickey_kubo
1
320
SSII2025 [TS2] リモートセンシング画像処理の最前線
ssii
PRO
7
3.1k
大規模な2値整数計画問題に対する 効率的な重み付き局所探索法
mickey_kubo
1
360
Towards a More Efficient Reasoning LLM: AIMO2 Solution Summary and Introduction to Fast-Math Models
analokmaus
2
800
投資戦略202508
pw
0
560
2025/7/5 応用音響研究会招待講演@北海道大学
takuma_okamoto
1
180
Agentic AIとMCPを利用したサービス作成入門
mickey_kubo
0
540
PhD Defense 2025: Visual Understanding of Human Hands in Interactions
tkhkaeio
1
190
cvpaper.challenge 10年の軌跡 / cvpaper.challenge a decade-long journey
gatheluck
3
310
Hiding What from Whom? A Critical Review of the History of Programming languages for Music
tomoyanonymous
0
160
スキマバイトサービスにおける現場起点でのデザインアプローチ
yoshioshingyouji
0
220
Featured
See All Featured
What’s in a name? Adding method to the madness
productmarketing
PRO
23
3.7k
Bash Introduction
62gerente
615
210k
How STYLIGHT went responsive
nonsquared
100
5.8k
Java REST API Framework Comparison - PWX 2021
mraible
33
8.8k
Statistics for Hackers
jakevdp
799
220k
Intergalactic Javascript Robots from Outer Space
tanoku
272
27k
The Straight Up "How To Draw Better" Workshop
denniskardys
236
140k
Site-Speed That Sticks
csswizardry
10
820
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
16k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
Optimizing for Happiness
mojombo
379
70k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
53
2.9k
Transcript
Word Embeddings as Metric Recovery in Semantic Spaces Tatsunori B.
Hashimoto, David Alvarez‒Melis and Tommi S. Jaakkola (TACL 2016) 読む人: 横井 祥 (東北大学 乾・岡崎研究室 M2) 2016‒09‒11 第8回最先端NLP勉強会 2016‒10‒12 updated ACL Anthology 特に注釈がない限り, 図表は原論文からの引用です.
概要 「共起に基づく様々な word embedding 手法は, semantic space (“semantic similarity” を2ノルムとしてよく表せるユ
ークリッド空間) の metric recovery として統一的に理解で きる」…という仮説の検証 「なんだか分からないけどすごく便利な GloVe とか word2vec に, 数理的&統一的解釈を与えてみよう」系の論文 ※ ただし, word vector の数理的性質の理解を目的とするの であれば後続の [Aora+, TACL 2016] 推奨 前半で扱われてる認知言語学系の研究との接続も面白い 「平行四辺形でアナロジー」「(penny, nickel, dime) などの “並ぶ” 概念が直線上に配置される」「近いクラスの単語は近 くに集まる」を検証するためのデータセットを作成
word embedding に数理的&統一的解 釈を与えてみようシリーズ [Levy and Goldberg, 2014b] “Neural Word
Embedding as Implicit Matrix Factorization”: 「各 embedding 手法は SPPMI (Shifted Positive PMI) word‒context matrix の行列分解として理解できる」 〈vec(w),vec(c)〉≈ max(PMI(w,c) ‒ log k, 0) [Arora+, TACL 2016] “A Latent Variable Model Approach to PMI‒based Word Embeddings”: ランダムウォークする文脈ベクトルから単語ベクトルが 生成されるモデルから, 〈v,w〉≈ PMI(v,w) を導出 低ランク近似によって「意味方向が, ベクトルの差の第1 主成分に表れること」「学習されたベクトルたちが超球 上に集中すること (内積の大きさ ≈ cos の大きさ ∝ 差の 2ノルムの小ささ + k)」も示している
議論の流れ 1. PMIを介して単語ベクトルたちを埋め込んだ空間は, (認知心 理学で研究されてきた) semantic space (意味の近さ ≈ ユ
ークリッド距離) と考えるのが自然そう 2. semantic space 上の座標の学習は, “単語間の距離に従うラ ンダムウォークのサンプルパスが文になる” と考えたときに, 元の多様体を低次元ユークリッド空間へ埋め込む多様体学習 として理解できる (=イイ感じの bi‒gram 言語モデルを仮定 すると PMI と metric space 上の距離はだいたい同一視で きる) → よりダイレクトに metric recovery する学習法を開 発した 3. Embedding の良さを検証する新しいタスクも作って実験・検 証
1. PMIの大きさ ↔ 意味の近さ ↔ semantic space での距離の小ささ PMI を用いて
“意味の近さ” が距離の近さとなるようなユークリッ ド空間 (semantic space) に単語を埋め込むのは (= 単語の共起 頻度 ↔ 単語ベクトルのユークリッド距離 という考え方は) 自然と いう話
1‒1. 意味の近さ ↔ semantic space での距離の 小ささ 人間の考える意味の近さを表現する空間として semantic space
(意味の近さ ≈ ユークリッド距離) は良さそう [Rumelhart and Abrahamson, 1973] [Sternberg and Gardner, 1983]
1‒2. 意味の近さ ↔ PMIの大きさ 人間の考える意味の近さとPMIには強い正の相関がある [Church and Hanks, 1990]
1‒3. PMIの大きさ ↔ semantic space での距離 の小ささ
「semantic space の研究で検討されてきた, (単語の意味の 近さという観点での) Nearest Neighbor の統計量 (C, Rf)
の望ましい値 [Tversky and Hutchinson, 1986] 」と「昨今単語ベクトルの学習で用いられている コーパスの (PMIが閾値よりも大きくなる単語ペアを NN と考えた場合 の) これらの統計量の推定値 」は整合的 =我々が学習対象に用いているコーパスのPMI (分布仮説に基 づく類似度?) は semantic space と整合的 cf. free association dataset [Nelson et al., 2004]
2. semantic space の metric recovery を, Markov 言語モデルから 生成されるコーパスからの多様体学習と
して定式化
2‒1. 多様体学習 非線形な次元削減手法としての “多様体学習” データ点同士のローカルな近さは分かっている空間 (“多様 体”) について 測地線距離をできるだけ保存して次元削減する (低次元空間の
座標を学習する)
fig: url
ここでの “多様体学習” の気持ち ローカルに近い単語 (“Nearest Neighbor”) を繋いだグラフ を辿った “パス長” が,
単語間の “距離”としてだいたい保存さ れるような低次元ユークリッド空間上の座標を学習する cf. 「画像の類似度に関してもローカルな類似度しか有意味で ないので多様体学習が必要」
2‒2. Random walk model PMIとユークリッド距離が対応するにはコーパスはいかなる性 質を持っていれば良いだろうか? semantic space の距離を用いた 2‒gram
言語モデルを考 える h: 2ノルム → 共起 のイイ感じの関数 (sub‒Gaussian)
先の言語モデルから作られるコーパスで共起頻度を見ると semantic space 上の距離を復元できる! 気持ち:先の言語モデルに従うコーパスが十分な語彙数およ びトークン数を持っていれば, (negative log) 共起頻度 (から
語毎に定まるバイアスを引いたもの) はだいたい semantic space 上のユークリッド距離 注:言語モデルは bi‒gram だが, ここでの共起は十分広い窓 幅を取る 注:この性質は h が未知のままで従う GloVe [Pennington et al., 2014] も word2vec [Mikolov et al., 2013a] もこの観点で理解できる (=最適化が Lemma 1 の左辺と右辺を近づけていることと等価)
モチベーション
提案手法 (Lemma 1 の左辺と右辺を直接近づける)
3. 検証 3‒1. “metric recovery in semantic space” 問題 結果
3‒2. サンプルパスからの “多様体学習” MNISTの256次元のデータ(* 4000)を2次元に圧縮 データ毎に20の近傍データを隣接させたグラフ上をランダム ウォークして作った “文” の集合からデータのベクトル (2次
元) を学習
ほか, 面白かった話, 所感など semantic space は上位語下位語の関係を上手に埋め込めない らしい 「数学で殴るぞ」感 「GloVe や
word2vec は 結局 bi‒gram しか見ていない」と とれる?