Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Word Embeddings as Metric Recovery in Semantic ...
Search
Sho Yokoi
PRO
September 08, 2016
Research
1
1.6k
Word Embeddings as Metric Recovery in Semantic Spaces
2016-09-11 第8回最先端NLP勉強会
2016-10-12 updated
Sho Yokoi
PRO
September 08, 2016
Tweet
Share
More Decks by Sho Yokoi
See All by Sho Yokoi
言語モデルの内部機序:解析と解釈
eumesy
PRO
49
18k
コーパスを丸呑みしたモデルから言語の何がわかるか
eumesy
PRO
12
3.8k
Zipf 白色化:タイプとトークンの区別がもたらす良質な埋め込み空間と損失関数
eumesy
PRO
9
1.8k
Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve
eumesy
PRO
7
1.6k
「確率的なオウム」にできること、またそれがなぜできるのかについて
eumesy
PRO
8
3.8k
A Theory of Emergent In-Context Learning as Implicit Structure Induction
eumesy
PRO
5
1.6k
ChatGPT と自然言語処理 / 言語の意味の計算と最適輸送
eumesy
PRO
25
18k
Revisiting Over-smoothing in BERT from the Perspective of Graph
eumesy
PRO
0
1.4k
構造を持った言語データと最適輸送
eumesy
PRO
5
7.8k
Other Decks in Research
See All in Research
クラウドのテレメトリーシステム研究動向2025年
yuukit
3
960
Generative Models 2025
takahashihiroshi
21
12k
数理最適化と機械学習の融合
mickey_kubo
15
8.8k
プロシェアリング白書2025_PROSHARING_REPORT_2025
circulation
1
860
データサイエンティストの就労意識~2015→2024 一般(個人)会員アンケートより
datascientistsociety
PRO
0
690
「エージェントって何?」から「実際の開発現場で役立つ考え方やベストプラクティス」まで
mickey_kubo
0
120
Streamlit 総合解説 ~ PythonistaのためのWebアプリ開発 ~
mickey_kubo
1
920
生成的推薦の人気バイアスの分析:暗記の観点から / JSAI2025
upura
0
190
電力システム最適化入門
mickey_kubo
1
660
線形判別分析のPU学習による朝日歌壇短歌の分析
masakat0
0
130
データサイエンティストの採用に関するアンケート
datascientistsociety
PRO
0
1k
Adaptive fusion of multi-modal remote sensing data for optimal sub-field crop yield prediction
satai
3
220
Featured
See All Featured
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
53
2.8k
A Tale of Four Properties
chriscoyier
160
23k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
26k
Building a Scalable Design System with Sketch
lauravandoore
462
33k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
34
5.9k
Building Better People: How to give real-time feedback that sticks.
wjessup
367
19k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
16k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
20
1.3k
Raft: Consensus for Rubyists
vanstee
140
7k
Optimising Largest Contentful Paint
csswizardry
37
3.3k
Producing Creativity
orderedlist
PRO
346
40k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
30
2.1k
Transcript
Word Embeddings as Metric Recovery in Semantic Spaces Tatsunori B.
Hashimoto, David Alvarez‒Melis and Tommi S. Jaakkola (TACL 2016) 読む人: 横井 祥 (東北大学 乾・岡崎研究室 M2) 2016‒09‒11 第8回最先端NLP勉強会 2016‒10‒12 updated ACL Anthology 特に注釈がない限り, 図表は原論文からの引用です.
概要 「共起に基づく様々な word embedding 手法は, semantic space (“semantic similarity” を2ノルムとしてよく表せるユ
ークリッド空間) の metric recovery として統一的に理解で きる」…という仮説の検証 「なんだか分からないけどすごく便利な GloVe とか word2vec に, 数理的&統一的解釈を与えてみよう」系の論文 ※ ただし, word vector の数理的性質の理解を目的とするの であれば後続の [Aora+, TACL 2016] 推奨 前半で扱われてる認知言語学系の研究との接続も面白い 「平行四辺形でアナロジー」「(penny, nickel, dime) などの “並ぶ” 概念が直線上に配置される」「近いクラスの単語は近 くに集まる」を検証するためのデータセットを作成
word embedding に数理的&統一的解 釈を与えてみようシリーズ [Levy and Goldberg, 2014b] “Neural Word
Embedding as Implicit Matrix Factorization”: 「各 embedding 手法は SPPMI (Shifted Positive PMI) word‒context matrix の行列分解として理解できる」 〈vec(w),vec(c)〉≈ max(PMI(w,c) ‒ log k, 0) [Arora+, TACL 2016] “A Latent Variable Model Approach to PMI‒based Word Embeddings”: ランダムウォークする文脈ベクトルから単語ベクトルが 生成されるモデルから, 〈v,w〉≈ PMI(v,w) を導出 低ランク近似によって「意味方向が, ベクトルの差の第1 主成分に表れること」「学習されたベクトルたちが超球 上に集中すること (内積の大きさ ≈ cos の大きさ ∝ 差の 2ノルムの小ささ + k)」も示している
議論の流れ 1. PMIを介して単語ベクトルたちを埋め込んだ空間は, (認知心 理学で研究されてきた) semantic space (意味の近さ ≈ ユ
ークリッド距離) と考えるのが自然そう 2. semantic space 上の座標の学習は, “単語間の距離に従うラ ンダムウォークのサンプルパスが文になる” と考えたときに, 元の多様体を低次元ユークリッド空間へ埋め込む多様体学習 として理解できる (=イイ感じの bi‒gram 言語モデルを仮定 すると PMI と metric space 上の距離はだいたい同一視で きる) → よりダイレクトに metric recovery する学習法を開 発した 3. Embedding の良さを検証する新しいタスクも作って実験・検 証
1. PMIの大きさ ↔ 意味の近さ ↔ semantic space での距離の小ささ PMI を用いて
“意味の近さ” が距離の近さとなるようなユークリッ ド空間 (semantic space) に単語を埋め込むのは (= 単語の共起 頻度 ↔ 単語ベクトルのユークリッド距離 という考え方は) 自然と いう話
1‒1. 意味の近さ ↔ semantic space での距離の 小ささ 人間の考える意味の近さを表現する空間として semantic space
(意味の近さ ≈ ユークリッド距離) は良さそう [Rumelhart and Abrahamson, 1973] [Sternberg and Gardner, 1983]
1‒2. 意味の近さ ↔ PMIの大きさ 人間の考える意味の近さとPMIには強い正の相関がある [Church and Hanks, 1990]
1‒3. PMIの大きさ ↔ semantic space での距離 の小ささ
「semantic space の研究で検討されてきた, (単語の意味の 近さという観点での) Nearest Neighbor の統計量 (C, Rf)
の望ましい値 [Tversky and Hutchinson, 1986] 」と「昨今単語ベクトルの学習で用いられている コーパスの (PMIが閾値よりも大きくなる単語ペアを NN と考えた場合 の) これらの統計量の推定値 」は整合的 =我々が学習対象に用いているコーパスのPMI (分布仮説に基 づく類似度?) は semantic space と整合的 cf. free association dataset [Nelson et al., 2004]
2. semantic space の metric recovery を, Markov 言語モデルから 生成されるコーパスからの多様体学習と
して定式化
2‒1. 多様体学習 非線形な次元削減手法としての “多様体学習” データ点同士のローカルな近さは分かっている空間 (“多様 体”) について 測地線距離をできるだけ保存して次元削減する (低次元空間の
座標を学習する)
fig: url
ここでの “多様体学習” の気持ち ローカルに近い単語 (“Nearest Neighbor”) を繋いだグラフ を辿った “パス長” が,
単語間の “距離”としてだいたい保存さ れるような低次元ユークリッド空間上の座標を学習する cf. 「画像の類似度に関してもローカルな類似度しか有意味で ないので多様体学習が必要」
2‒2. Random walk model PMIとユークリッド距離が対応するにはコーパスはいかなる性 質を持っていれば良いだろうか? semantic space の距離を用いた 2‒gram
言語モデルを考 える h: 2ノルム → 共起 のイイ感じの関数 (sub‒Gaussian)
先の言語モデルから作られるコーパスで共起頻度を見ると semantic space 上の距離を復元できる! 気持ち:先の言語モデルに従うコーパスが十分な語彙数およ びトークン数を持っていれば, (negative log) 共起頻度 (から
語毎に定まるバイアスを引いたもの) はだいたい semantic space 上のユークリッド距離 注:言語モデルは bi‒gram だが, ここでの共起は十分広い窓 幅を取る 注:この性質は h が未知のままで従う GloVe [Pennington et al., 2014] も word2vec [Mikolov et al., 2013a] もこの観点で理解できる (=最適化が Lemma 1 の左辺と右辺を近づけていることと等価)
モチベーション
提案手法 (Lemma 1 の左辺と右辺を直接近づける)
3. 検証 3‒1. “metric recovery in semantic space” 問題 結果
3‒2. サンプルパスからの “多様体学習” MNISTの256次元のデータ(* 4000)を2次元に圧縮 データ毎に20の近傍データを隣接させたグラフ上をランダム ウォークして作った “文” の集合からデータのベクトル (2次
元) を学習
ほか, 面白かった話, 所感など semantic space は上位語下位語の関係を上手に埋め込めない らしい 「数学で殴るぞ」感 「GloVe や
word2vec は 結局 bi‒gram しか見ていない」と とれる?