Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Word Embeddings as Metric Recovery in Semantic ...
Search
Sho Yokoi
PRO
September 08, 2016
Research
1
1.5k
Word Embeddings as Metric Recovery in Semantic Spaces
2016-09-11 第8回最先端NLP勉強会
2016-10-12 updated
Sho Yokoi
PRO
September 08, 2016
Tweet
Share
More Decks by Sho Yokoi
See All by Sho Yokoi
Zipf 白色化:タイプとトークンの区別がもたらす良質な埋め込み空間と損失関数
eumesy
PRO
8
1.3k
Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve
eumesy
PRO
7
1.3k
「確率的なオウム」にできること、またそれがなぜできるのかについて
eumesy
PRO
8
3.3k
A Theory of Emergent In-Context Learning as Implicit Structure Induction
eumesy
PRO
5
1.5k
ChatGPT と自然言語処理 / 言語の意味の計算と最適輸送
eumesy
PRO
25
18k
Revisiting Over-smoothing in BERT from the Perspective of Graph
eumesy
PRO
0
1.2k
構造を持った言語データと最適輸送
eumesy
PRO
5
7.5k
最適輸送と自然言語処理
eumesy
PRO
19
13k
言葉の形を教えてくれる自然言語処理
eumesy
PRO
1
1.7k
Other Decks in Research
See All in Research
ベイズ的方法に基づく統計的因果推論の基礎
holyshun
0
810
Gemini と Looker で営業DX をドライブする / Driving Sales DX with Gemini and Looker
sansan_randd
0
120
Weekly AI Agents News! 12月号 論文のアーカイブ
masatoto
0
190
LLM 시대의 Compliance: Safety & Security
huffon
0
590
Weekly AI Agents News! 1月号 アーカイブ
masatoto
1
160
ダイナミックプライシング とその実例
skmr2348
3
590
移動ビッグデータに基づく地理情報の埋め込みベクトル化
tam1110
0
240
AIトップカンファレンスからみるData-Centric AIの研究動向 / Research Trends in Data-Centric AI: Insights from Top AI Conferences
tsurubee
3
1.5k
メタヒューリスティクスに基づく汎用線形整数計画ソルバーの開発
snowberryfield
3
760
VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding
sansan_randd
1
460
CUNY DHI_Lightning Talks_2024
digitalfellow
0
440
o1 pro mode の調査レポート
smorce
0
110
Featured
See All Featured
Visualization
eitanlees
146
15k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
114
50k
The Cult of Friendly URLs
andyhume
78
6.2k
The Power of CSS Pseudo Elements
geoffreycrofte
75
5.5k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
4
330
Building Adaptive Systems
keathley
40
2.4k
Why Our Code Smells
bkeepers
PRO
336
57k
Agile that works and the tools we love
rasmusluckow
328
21k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
12
960
Bash Introduction
62gerente
611
210k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
45
9.4k
Transcript
Word Embeddings as Metric Recovery in Semantic Spaces Tatsunori B.
Hashimoto, David Alvarez‒Melis and Tommi S. Jaakkola (TACL 2016) 読む人: 横井 祥 (東北大学 乾・岡崎研究室 M2) 2016‒09‒11 第8回最先端NLP勉強会 2016‒10‒12 updated ACL Anthology 特に注釈がない限り, 図表は原論文からの引用です.
概要 「共起に基づく様々な word embedding 手法は, semantic space (“semantic similarity” を2ノルムとしてよく表せるユ
ークリッド空間) の metric recovery として統一的に理解で きる」…という仮説の検証 「なんだか分からないけどすごく便利な GloVe とか word2vec に, 数理的&統一的解釈を与えてみよう」系の論文 ※ ただし, word vector の数理的性質の理解を目的とするの であれば後続の [Aora+, TACL 2016] 推奨 前半で扱われてる認知言語学系の研究との接続も面白い 「平行四辺形でアナロジー」「(penny, nickel, dime) などの “並ぶ” 概念が直線上に配置される」「近いクラスの単語は近 くに集まる」を検証するためのデータセットを作成
word embedding に数理的&統一的解 釈を与えてみようシリーズ [Levy and Goldberg, 2014b] “Neural Word
Embedding as Implicit Matrix Factorization”: 「各 embedding 手法は SPPMI (Shifted Positive PMI) word‒context matrix の行列分解として理解できる」 〈vec(w),vec(c)〉≈ max(PMI(w,c) ‒ log k, 0) [Arora+, TACL 2016] “A Latent Variable Model Approach to PMI‒based Word Embeddings”: ランダムウォークする文脈ベクトルから単語ベクトルが 生成されるモデルから, 〈v,w〉≈ PMI(v,w) を導出 低ランク近似によって「意味方向が, ベクトルの差の第1 主成分に表れること」「学習されたベクトルたちが超球 上に集中すること (内積の大きさ ≈ cos の大きさ ∝ 差の 2ノルムの小ささ + k)」も示している
議論の流れ 1. PMIを介して単語ベクトルたちを埋め込んだ空間は, (認知心 理学で研究されてきた) semantic space (意味の近さ ≈ ユ
ークリッド距離) と考えるのが自然そう 2. semantic space 上の座標の学習は, “単語間の距離に従うラ ンダムウォークのサンプルパスが文になる” と考えたときに, 元の多様体を低次元ユークリッド空間へ埋め込む多様体学習 として理解できる (=イイ感じの bi‒gram 言語モデルを仮定 すると PMI と metric space 上の距離はだいたい同一視で きる) → よりダイレクトに metric recovery する学習法を開 発した 3. Embedding の良さを検証する新しいタスクも作って実験・検 証
1. PMIの大きさ ↔ 意味の近さ ↔ semantic space での距離の小ささ PMI を用いて
“意味の近さ” が距離の近さとなるようなユークリッ ド空間 (semantic space) に単語を埋め込むのは (= 単語の共起 頻度 ↔ 単語ベクトルのユークリッド距離 という考え方は) 自然と いう話
1‒1. 意味の近さ ↔ semantic space での距離の 小ささ 人間の考える意味の近さを表現する空間として semantic space
(意味の近さ ≈ ユークリッド距離) は良さそう [Rumelhart and Abrahamson, 1973] [Sternberg and Gardner, 1983]
1‒2. 意味の近さ ↔ PMIの大きさ 人間の考える意味の近さとPMIには強い正の相関がある [Church and Hanks, 1990]
1‒3. PMIの大きさ ↔ semantic space での距離 の小ささ
「semantic space の研究で検討されてきた, (単語の意味の 近さという観点での) Nearest Neighbor の統計量 (C, Rf)
の望ましい値 [Tversky and Hutchinson, 1986] 」と「昨今単語ベクトルの学習で用いられている コーパスの (PMIが閾値よりも大きくなる単語ペアを NN と考えた場合 の) これらの統計量の推定値 」は整合的 =我々が学習対象に用いているコーパスのPMI (分布仮説に基 づく類似度?) は semantic space と整合的 cf. free association dataset [Nelson et al., 2004]
2. semantic space の metric recovery を, Markov 言語モデルから 生成されるコーパスからの多様体学習と
して定式化
2‒1. 多様体学習 非線形な次元削減手法としての “多様体学習” データ点同士のローカルな近さは分かっている空間 (“多様 体”) について 測地線距離をできるだけ保存して次元削減する (低次元空間の
座標を学習する)
fig: url
ここでの “多様体学習” の気持ち ローカルに近い単語 (“Nearest Neighbor”) を繋いだグラフ を辿った “パス長” が,
単語間の “距離”としてだいたい保存さ れるような低次元ユークリッド空間上の座標を学習する cf. 「画像の類似度に関してもローカルな類似度しか有意味で ないので多様体学習が必要」
2‒2. Random walk model PMIとユークリッド距離が対応するにはコーパスはいかなる性 質を持っていれば良いだろうか? semantic space の距離を用いた 2‒gram
言語モデルを考 える h: 2ノルム → 共起 のイイ感じの関数 (sub‒Gaussian)
先の言語モデルから作られるコーパスで共起頻度を見ると semantic space 上の距離を復元できる! 気持ち:先の言語モデルに従うコーパスが十分な語彙数およ びトークン数を持っていれば, (negative log) 共起頻度 (から
語毎に定まるバイアスを引いたもの) はだいたい semantic space 上のユークリッド距離 注:言語モデルは bi‒gram だが, ここでの共起は十分広い窓 幅を取る 注:この性質は h が未知のままで従う GloVe [Pennington et al., 2014] も word2vec [Mikolov et al., 2013a] もこの観点で理解できる (=最適化が Lemma 1 の左辺と右辺を近づけていることと等価)
モチベーション
提案手法 (Lemma 1 の左辺と右辺を直接近づける)
3. 検証 3‒1. “metric recovery in semantic space” 問題 結果
3‒2. サンプルパスからの “多様体学習” MNISTの256次元のデータ(* 4000)を2次元に圧縮 データ毎に20の近傍データを隣接させたグラフ上をランダム ウォークして作った “文” の集合からデータのベクトル (2次
元) を学習
ほか, 面白かった話, 所感など semantic space は上位語下位語の関係を上手に埋め込めない らしい 「数学で殴るぞ」感 「GloVe や
word2vec は 結局 bi‒gram しか見ていない」と とれる?