Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Word Embeddings as Metric Recovery in Semantic ...
Search
Sho Yokoi
PRO
September 08, 2016
Research
1.7k
1
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Word Embeddings as Metric Recovery in Semantic Spaces
2016-09-11 第8回最先端NLP勉強会
2016-10-12 updated
Sho Yokoi
PRO
September 08, 2016
More Decks by Sho Yokoi
See All by Sho Yokoi
言語モデルから言語について語る際に押さえておきたいこと
eumesy
PRO
5
2.3k
Language Models Are Implicitly Continuous
eumesy
PRO
0
490
言語モデルの内部機序:解析と解釈
eumesy
PRO
87
30k
コーパスを丸呑みしたモデルから言語の何がわかるか
eumesy
PRO
12
4.9k
Zipf 白色化:タイプとトークンの区別がもたらす良質な埋め込み空間と損失関数
eumesy
PRO
10
2.5k
Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve
eumesy
PRO
7
2k
「確率的なオウム」にできること、またそれがなぜできるのかについて
eumesy
PRO
8
4.6k
A Theory of Emergent In-Context Learning as Implicit Structure Induction
eumesy
PRO
5
1.8k
ChatGPT と自然言語処理 / 言語の意味の計算と最適輸送
eumesy
PRO
24
19k
Other Decks in Research
See All in Research
Model Discovery and Graph Simulation: A Lightweight Gateway to Chaos Engineering
anatolykr
0
190
Unified Audio Source Separation (Defense Slides)
kohei_1979
1
610
機械学習で作った ポケモン対戦bot で 遊ぼう!
fufufukakaka
0
250
ScoreMatchingRiesz for Automatic Debiased Machine Learning and Policy Path Estimation with an Application to Japanese Monetary Policy Evaluation
masakat0
0
290
Anthropic が提案する LLM の内部状態を自然言語で説明可能にした Natural Language Autoencoders / Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations
shunk031
0
120
データセンター事業者を取り巻く近年の状況とその中での研究開発動向、テストベッドへの貢献の可能性
kikuzo
1
170
重要だけど測れていないもの:高齢者ケアの見えない課題
theoriatec2024
0
320
Any-Optical-Model: A Universal Foundation Model for Optical Remote Sensing
satai
3
810
「AIとWhyを深堀る」をAIと深堀る
iflection
0
470
老舗ものづくり企業でリサーチが変革を起こすまで - 三菱重工DXの実践
skydats
0
180
YOLO26_ Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection
satai
3
780
AIを叩き台として、 「検証」から「共創」へと進化するリサーチ
mela_dayo
0
280
Featured
See All Featured
Ten Tips & Tricks for a 🌱 transition
stuffmc
0
130
Imperfection Machines: The Place of Print at Facebook
scottboms
270
14k
Raft: Consensus for Rubyists
vanstee
141
7.5k
Faster Mobile Websites
deanohume
310
31k
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
JAMstack: Web Apps at Ludicrous Speed - All Things Open 2022
reverentgeek
1
460
4 Signs Your Business is Dying
shpigford
187
22k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
231
23k
Navigating the Design Leadership Dip - Product Design Week Design Leaders+ Conference 2024
apolaine
1
340
Test your architecture with Archunit
thirion
1
2.3k
A Tale of Four Properties
chriscoyier
163
24k
Transcript
Word Embeddings as Metric Recovery in Semantic Spaces Tatsunori B.
Hashimoto, David Alvarez‒Melis and Tommi S. Jaakkola (TACL 2016) 読む人: 横井 祥 (東北大学 乾・岡崎研究室 M2) 2016‒09‒11 第8回最先端NLP勉強会 2016‒10‒12 updated ACL Anthology 特に注釈がない限り, 図表は原論文からの引用です.
概要 「共起に基づく様々な word embedding 手法は, semantic space (“semantic similarity” を2ノルムとしてよく表せるユ
ークリッド空間) の metric recovery として統一的に理解で きる」…という仮説の検証 「なんだか分からないけどすごく便利な GloVe とか word2vec に, 数理的&統一的解釈を与えてみよう」系の論文 ※ ただし, word vector の数理的性質の理解を目的とするの であれば後続の [Aora+, TACL 2016] 推奨 前半で扱われてる認知言語学系の研究との接続も面白い 「平行四辺形でアナロジー」「(penny, nickel, dime) などの “並ぶ” 概念が直線上に配置される」「近いクラスの単語は近 くに集まる」を検証するためのデータセットを作成
word embedding に数理的&統一的解 釈を与えてみようシリーズ [Levy and Goldberg, 2014b] “Neural Word
Embedding as Implicit Matrix Factorization”: 「各 embedding 手法は SPPMI (Shifted Positive PMI) word‒context matrix の行列分解として理解できる」 〈vec(w),vec(c)〉≈ max(PMI(w,c) ‒ log k, 0) [Arora+, TACL 2016] “A Latent Variable Model Approach to PMI‒based Word Embeddings”: ランダムウォークする文脈ベクトルから単語ベクトルが 生成されるモデルから, 〈v,w〉≈ PMI(v,w) を導出 低ランク近似によって「意味方向が, ベクトルの差の第1 主成分に表れること」「学習されたベクトルたちが超球 上に集中すること (内積の大きさ ≈ cos の大きさ ∝ 差の 2ノルムの小ささ + k)」も示している
議論の流れ 1. PMIを介して単語ベクトルたちを埋め込んだ空間は, (認知心 理学で研究されてきた) semantic space (意味の近さ ≈ ユ
ークリッド距離) と考えるのが自然そう 2. semantic space 上の座標の学習は, “単語間の距離に従うラ ンダムウォークのサンプルパスが文になる” と考えたときに, 元の多様体を低次元ユークリッド空間へ埋め込む多様体学習 として理解できる (=イイ感じの bi‒gram 言語モデルを仮定 すると PMI と metric space 上の距離はだいたい同一視で きる) → よりダイレクトに metric recovery する学習法を開 発した 3. Embedding の良さを検証する新しいタスクも作って実験・検 証
1. PMIの大きさ ↔ 意味の近さ ↔ semantic space での距離の小ささ PMI を用いて
“意味の近さ” が距離の近さとなるようなユークリッ ド空間 (semantic space) に単語を埋め込むのは (= 単語の共起 頻度 ↔ 単語ベクトルのユークリッド距離 という考え方は) 自然と いう話
1‒1. 意味の近さ ↔ semantic space での距離の 小ささ 人間の考える意味の近さを表現する空間として semantic space
(意味の近さ ≈ ユークリッド距離) は良さそう [Rumelhart and Abrahamson, 1973] [Sternberg and Gardner, 1983]
1‒2. 意味の近さ ↔ PMIの大きさ 人間の考える意味の近さとPMIには強い正の相関がある [Church and Hanks, 1990]
1‒3. PMIの大きさ ↔ semantic space での距離 の小ささ
「semantic space の研究で検討されてきた, (単語の意味の 近さという観点での) Nearest Neighbor の統計量 (C, Rf)
の望ましい値 [Tversky and Hutchinson, 1986] 」と「昨今単語ベクトルの学習で用いられている コーパスの (PMIが閾値よりも大きくなる単語ペアを NN と考えた場合 の) これらの統計量の推定値 」は整合的 =我々が学習対象に用いているコーパスのPMI (分布仮説に基 づく類似度?) は semantic space と整合的 cf. free association dataset [Nelson et al., 2004]
2. semantic space の metric recovery を, Markov 言語モデルから 生成されるコーパスからの多様体学習と
して定式化
2‒1. 多様体学習 非線形な次元削減手法としての “多様体学習” データ点同士のローカルな近さは分かっている空間 (“多様 体”) について 測地線距離をできるだけ保存して次元削減する (低次元空間の
座標を学習する)
fig: url
ここでの “多様体学習” の気持ち ローカルに近い単語 (“Nearest Neighbor”) を繋いだグラフ を辿った “パス長” が,
単語間の “距離”としてだいたい保存さ れるような低次元ユークリッド空間上の座標を学習する cf. 「画像の類似度に関してもローカルな類似度しか有意味で ないので多様体学習が必要」
2‒2. Random walk model PMIとユークリッド距離が対応するにはコーパスはいかなる性 質を持っていれば良いだろうか? semantic space の距離を用いた 2‒gram
言語モデルを考 える h: 2ノルム → 共起 のイイ感じの関数 (sub‒Gaussian)
先の言語モデルから作られるコーパスで共起頻度を見ると semantic space 上の距離を復元できる! 気持ち:先の言語モデルに従うコーパスが十分な語彙数およ びトークン数を持っていれば, (negative log) 共起頻度 (から
語毎に定まるバイアスを引いたもの) はだいたい semantic space 上のユークリッド距離 注:言語モデルは bi‒gram だが, ここでの共起は十分広い窓 幅を取る 注:この性質は h が未知のままで従う GloVe [Pennington et al., 2014] も word2vec [Mikolov et al., 2013a] もこの観点で理解できる (=最適化が Lemma 1 の左辺と右辺を近づけていることと等価)
モチベーション
提案手法 (Lemma 1 の左辺と右辺を直接近づける)
3. 検証 3‒1. “metric recovery in semantic space” 問題 結果
3‒2. サンプルパスからの “多様体学習” MNISTの256次元のデータ(* 4000)を2次元に圧縮 データ毎に20の近傍データを隣接させたグラフ上をランダム ウォークして作った “文” の集合からデータのベクトル (2次
元) を学習
ほか, 面白かった話, 所感など semantic space は上位語下位語の関係を上手に埋め込めない らしい 「数学で殴るぞ」感 「GloVe や
word2vec は 結局 bi‒gram しか見ていない」と とれる?