Poincaré Embeddings for Learning Hierarchical Representations

Poincaré Embeddings for Learning Hierarchical Representations Maximilian Nickel and Douwe
Kiela arXiv (to appear in NIPS 2017) 読む人: 横井祥 ( 東北大学乾研究室 D1) 2017‑09‑15 第9 回最先端NLP 勉強会 ※ とくに注釈がない限り図表は原著論文からの引用です ※ 論文番号も原著論文に従います 1

やったこと階層構造を持つデータを双曲空間に埋め込むための学習法を提案 2

Authors Maximilian Nickel RESCAL [ICML'11] Holographic embeddings [AAAI'16] Douwe Kiela
3

まとめ階層構造・べき分布を持つデータはユークリッド空間ではなく双曲空間の方が効率的に埋め込める (Sec. 2) 階層構造・べき分布を持つデー
タを双曲空間 ( ポアンカレ球モデル) に埋め込むための学習法 ( リーマン多様体上でSGD) を提案 (Sec. 3) 実験 (Sec. 4) WordNet hypernymy の埋め込み: 低次元でユークリッド埋め込みに圧勝 Social networks の埋め込み: 低次元だと圧勝 Lexical Entailment: 2 つのデータセットで SotA, 語の意味論的にもイケてるかも? 4

背景階層構造・べき分布を持つデータはユークリッド空間ではなく双曲空間の方が効率的に埋め込める 5

階層構造を連続空間に埋め込みたい離散的対象を対象間の関係を介して連続空間に埋め込む研究が盛ん単語：word2vec (CBOW, SGNS), GloVe, fastText グラフのノード：node2vec, LINE,
DeepWalk 多項関係 (KB 上のNE)：TransE, RESCAL, Universal Schema 埋め込み空間の表現能力は次元数で制限される複雑なパターン ( 構造) を連続空間で十分に捉えるのは難しいこの研究では階層構造を持つデータにスコープを絞ってより良い埋め込みを考えるべき乗則を満たすデータは潜在的に階層構造を仮定できる Zipf 則スケールフリーネットワーク 6

階層構造を連続空間双曲空間に埋め込みたいこの論文でやっていること：階層構造を双曲空間に埋め込むまず双曲空間から 7

双曲空間：曲率が負 ( 一定) の “ 曲がった空間” 球面ユークリッド空間
双曲空間曲率 > 0 0 < 0 1 点を通り直線に平行な直線の数 0 1 ∞ 三角形内角の和 > π π < π https://www.mathi.uni‑heidelberg.de/~alessandrini/ArithHypPlane.html 8

双曲空間は階層構造の埋め込みに適している双曲空間は “ 連続版の木” [16] 木：根からの距離に対して指数的にノード数が増加ポアンカレ円板：原点からの距離に対して円周長が指数的に増加
[16] → 双曲空間は階層構造・べき分布を持つデータの埋め込みに適しているネットワークを双曲空間で解析 [15][3][16][1] ↔ ユークリッド空間に木を埋め込むのは無理がある ( 次元数が必要) … が, AI/ML ではユークリッド空間への埋込みが主 9

双曲空間のモデルとしてポアンカレ球を採用曲がった空間をよく知っているユークリッド空間に移して考えたい回転二葉双曲面モデル (hyperboloid model) ポアンカレ上半平面モデル (Poincaré half‑plane model)
ポアンカレ円板 ( 球) モデル (Poincaré disk (ball) model) ← 採用勾配法 ( リーマン多様体上での最適化) を適用できる https://en.wikipedia.org/wiki/Hyperboloid_model 2 次元の双曲空間を3 次元のユークリッド空間に埋め込んで考える緑：双曲モデル灰色：ポアンカレ円板モデル外側に行くほど“ 密に” 詰まっている 10

ポアンカレ円板 ( 球) モデル d 次元ポアンカレ球： B = {x ∈R
∣ ∥x∥ < 1} ∥⋅∥ はユークリッド距離計量： g = g 原点から離れるほど “ 空間が詰まる” (b)(c) 距離： d(u, v) = arcosh 1 + 2 測地線は境界に直交する円弧 ( 詰まっているところを避けると “ 最短”) (a) d d x ( 1−∥x∥2 2 ) 2 E ( (1−∥u∥ )(1−∥v∥ ) 2 2 ∥u−v∥2 ) 11

問題設定階層構造を持つシンボルたちをポアンカレ球に埋め込む input: symbols S = {x } output: embeddings
Θ = {θ } ⊆B objective: L(Θ) → min L: a problem‑speciﬁc loss function i i=1 n i i=1 n d 12

最適化リーマン多様体 ( ポアンカレ円板) 上で確率的勾配降下法 13

最適化リーマン多様体 ( ポアンカレ円板) 上でSGD θ ←R (θ −
η ∇ L(θ )) L: 損失 ∇ = g ∇ : ポアンカレ円板 ( 双曲空間) で測った勾配 ∇ = ⋅ : ユークリッド空間で測った勾配 1 項目: 既知. ペアデータ (θ, x) に対し, 埋め込み空間での距離 d(θ, x) を用いて損失を定義 2 項目: (4) 式 g = : 計量を補正 ( 曲がっている分を補正) η : 学習率 R : θ がまたポアンカレ球に含まれるようにする. proj(⋅). t+1 θt t t R t R θ −1 E E ∂d(θ,x) ∂L(θ) ∂θ ∂d(θ,x) θ −1 ( 2 1−∥θ∥2 ) 2 t θt t+1 14

良いところスケールする ( 時間・空間計算量が埋め込み次元に線形) 並列化も容易 [26] 最適化の工夫まずすべての埋め込みを原点周辺に置く
“burn‑in” フェーズでは学習率を小さくして偏角のみを調整後から学習率を大きくしてノルムを調整 15

実験 1. WordNet hypernymy 2. Social networks 3. Lexical Entailment
16

Distance ペアデータ D = {(u , v )} ⊆
S × Sに対する損失を, 埋め込み空間でのデータ間の距離を用いて問題毎に定義 Proposed (hyperbolic space) Poincaré distance (symmetric) d(u, v) = arcosh 1 + 2 (1) Baseline (Euclidean space) Euclidean distance (symmetric) d(u, v) = ∥u − v∥ TransE [Bordes+'13] (asymmetric) d(u, v) = ∥u − v + r∥ 教師データが非対称性を持つ必要がある. e.g., i s - a relation. i i ( (1−∥u∥ )(1−∥v∥ ) 2 2 ∥u−v∥2 ) 2 2 17

1. WordNet hypernymy Loss: L(Θ) = − log N(u): u
とペアにならないシンボルの集合 (u を含む) 分母は 10 件乱択 Data: WordNet hypernymy の推移閉包 e.g., (animal, mammal), (mammal, cat), (animal, cat) Task Reconstruction: 正例すべてを埋め込む. 背後の階層構造が埋め込まれるか確認 Link Prediction: 一部の正例を埋め込んで残りの正例を予測 Evaluation Metric Rank: ground‑truth negative の中での正例の Rank ( の平均) MAP ∑ (u,v)∈D e ∑v ∈N(u) ′ −d(u,v ) ′ e−d(u,v) 18

Results 紫背景：ユークリッド空間に200 次元で埋め込むよりも双曲空間に5 次元で埋め込んだ方が高精度太字：absolute best per
task 19

Visualization d = 2 データとして上位下位関係を与えていない 20

2. Network Embeddings Task: link prediction Model: P((u, v) =
1 ∣ Θ) = t, r: hyperparameters, validation set で tuning Data: A s t r o P h , C o n d M a t , G r Q c , H e p P h (social networks, undirected) 正例負例の扱い: 実験1 同様 Loss: cross entropy e + 1 (d(u,v)−r)/t 1 21

Results 低次元 (d = 10) だと圧勝高次元 (d = 100)
だと勝ったり負けたり (d = 200 だと負ける?) 22

3. Lexical Entailment Task: 実験1 の埋め込みが i s - a
の「典型度」を捉えているか確認 Gold HyperLex (arXiv) ( 第2 著者が噛んでいるデータセット) Wbless (ACL anthology) Results: 両データで SotA (competitive かが不明) 23

まとめ階層構造・べき分布を持つデータはユークリッド空間ではなく双曲空間の方が効率的に埋め込める (Sec. 2) 階層構造・べき分布を持つデー
タを双曲空間 ( ポアンカレ球モデル) に埋め込むための学習法 ( リーマン多様体上でSGD) を提案 (Sec. 3) 実験 (Sec. 4) WordNet hypernymy の埋め込み: 低次元でユークリッド埋め込みに圧勝 Social networks の埋め込み: 低次元だと圧勝 Lexical Entailment: 2 つのデータセットで SotA, 語の意味論的にもイケてるかも? 24

Appendix 25

よかった話 ( 私見) NLP が抱える各種 hierarchical data の連続表現への光明所謂単語ベクトルにオントロジーは自然には埋め込まれない
ノルムは頻度を表現これまでの階層構造の埋め込みは上手くいっていない ( 私見) 例えば Gaussian embeddings で分散として埋め込まれているのは「オントロジー」「頻度」「推定の不確かさ」のどれなのか? という議論が無い probability product kernel をロスにするとおそらく頻度が埋め込まれる効率的に学習可リーマン多様体上での機械学習/ 最適化の知見が使える「ユークリッド空間上で行列積 & 平行移動 ( アフィン変換) はすごい」からの脱却の機運 26

気になる話 ( 私見) 単語ベクトルの重要な特徴である加法構成性が ( おそらく) 消えてしまう目的関数が (
擬) 内積 ( 双線形形式) ではなく距離 KB には使えないっぽい? ネットワークが scale‑free 性を持たなそう精度が出るならKB 好きの著者 (Nickel) が論文で触れると思われる生コーパスは使えるのか word2vec, GloVe がこれだけ広く使われている理由のひとつは “ 教師なし” ( 大量の生コーパスを利用できる) べき分布を持つ単語たちを埋め込んだとき背後に隠れる階層構造とは何なのか 27

関連記事異空間への埋め込み！Poincare Embeddings が拓く表現学習の新展開 ‑ ABEJA Tech Blog (2017‑08‑30),
slide Facebook Research just published an awesome paper on learning hierarchical representations (2017‑06‑14) [R] Poincaré Embeddings for Learning Hierarchical Representations : MachineLearning 28

Poincaré Embeddings for Learning Hierarchical R...

Poincaré Embeddings for Learning Hierarchical Representations

Sho Yokoi PRO

More Decks by Sho Yokoi

Other Decks in Research

Featured

Transcript