Slide 1

Slide 1 text

Poincaré Embeddings for Learning Hierarchical Representations Maximilian Nickel and Douwe Kiela arXiv (to appear in NIPS 2017) 読む人: 横井祥 ( 東北大学 乾研究室 D1) 2017‑09‑15 第9 回最先端NLP 勉強会 ※ とくに注釈がない限り図表は原著論文からの引用です ※ 論文番号も原著論文に従います 1

Slide 2

Slide 2 text

やったこと 階層構造を持つデー タを双曲空間に埋め込むための学習法を提案 2

Slide 3

Slide 3 text

Authors Maximilian Nickel RESCAL [ICML'11] Holographic embeddings [AAAI'16] Douwe Kiela 3

Slide 4

Slide 4 text

まとめ 階層構造・ べき分布を持つデー タはユー クリッド空間ではなく双曲 空間の方が効率的に埋め込める (Sec. 2) 階層構造・ べき分布を持つデー タを双曲空間 ( ポアンカレ球モデル) に埋め込むための学習法 ( リー マン多様体上でSGD) を提案 (Sec. 3) 実験 (Sec. 4) WordNet hypernymy の埋め込み: 低次元でユー クリッド埋め 込みに圧勝 Social networks の埋め込み: 低次元だと圧勝 Lexical Entailment: 2 つのデー タセットで SotA, 語の意味論的 にもイケてるかも? 4

Slide 5

Slide 5 text

背景 階層構造・ べき分布を持つデー タは ユー クリッド空間ではなく双曲空間の方が効率的に埋め込める 5

Slide 6

Slide 6 text

階層構造を連続空間に埋め込みたい 離散的対象を対象間の関係を介して連続空間に埋め込む研究が盛ん 単語:word2vec (CBOW, SGNS), GloVe, fastText グラフのノー ド:node2vec, LINE, DeepWalk 多項関係 (KB 上のNE):TransE, RESCAL, Universal Schema 埋め込み空間の表現能力は次元数で制限される 複雑なパター ン ( 構造) を連続空間で十分に捉えるのは難しい この研究では階層構造を持つデー タにスコー プを絞ってより良い埋 め込みを考える べき乗則を満たすデー タは潜在的に階層構造を仮定できる Zipf 則 スケー ルフリー ネットワー ク 6

Slide 7

Slide 7 text

階層構造を連続空間双曲空間に埋め込みたい この論文でやっていること: 階層構造を双曲空間に埋め込む まず双曲空間から 7

Slide 8

Slide 8 text

双曲空間: 曲率が負 ( 一定) の “ 曲がった空間” 球面 ユー クリッド空間 双曲空間 曲率 > 0 0 < 0 1 点を通り直線に平行な直線の数 0 1 ∞ 三角形内角の和 > π π < π https://www.mathi.uni‑heidelberg.de/~alessandrini/ArithHypPlane.html 8

Slide 9

Slide 9 text

双曲空間は階層構造の埋め込みに適している 双曲空間は “ 連続版の木” [16] 木: 根からの距離に対して指数的にノー ド数が増加 ポアンカレ円板: 原点からの距離に対して円周長が指数的に増加 [16] → 双曲空間は階層構造・ べき分布を持つデー タの埋め込みに適している ネットワー クを双曲空間で解析 [15][3][16][1] ↔ ユー クリッド空間に木を埋め込むのは無理がある ( 次元数が必要) … が, AI/ML ではユー クリッド空間への埋込みが主 9

Slide 10

Slide 10 text

双曲空間のモデルとしてポアンカレ球を採用 曲がった空間をよく知っているユー クリッド空間に移して考えたい 回転二葉双曲面モデル (hyperboloid model) ポアンカレ上半平面モデル (Poincaré half‑plane model) ポアンカレ円板 ( 球) モデル (Poincaré disk (ball) model) ← 採用 勾配法 ( リー マン多様体上での最適化) を適用できる https://en.wikipedia.org/wiki/Hyperboloid_model 2 次元の双曲空間を3 次元のユー ク リッド空間に埋め込んで考える 緑: 双曲モデル 灰色: ポアンカレ円板モデル 外側に行くほど“ 密に” 詰まってい る 10

Slide 11

Slide 11 text

ポアンカレ円板 ( 球) モデル d 次元ポアンカレ球: B = {x ∈R ∣ ∥x∥ < 1} ∥⋅∥ はユー クリッド距離 計量: g = g 原点から離れるほど “ 空間が詰まる” (b)(c) 距離: d(u, v) = arcosh 1 + 2 測地線は境界に直交する円弧 ( 詰まっているところを避けると “ 最短”) (a) d d x ( 1−∥x∥2 2 ) 2 E ( (1−∥u∥ )(1−∥v∥ ) 2 2 ∥u−v∥2 ) 11

Slide 12

Slide 12 text

問題設定 階層構造を持つシンボルたちをポアンカレ球に埋め込む input: symbols S = {x } output: embeddings Θ = {θ } ⊆B objective: L(Θ) → min L: a problem‑specific loss function i i=1 n i i=1 n d 12

Slide 13

Slide 13 text

最適化 リー マン多様体 ( ポアンカレ円板) 上で確率的勾配降下法 13

Slide 14

Slide 14 text

最適化 リー マン多様体 ( ポアンカレ円板) 上でSGD θ ←R (θ − η ∇ L(θ )) L: 損失 ∇ = g ∇ : ポアンカレ円板 ( 双曲空間) で測った勾配 ∇ = ⋅ : ユー クリッド空間で測った勾配 1 項目: 既知. ペアデー タ (θ, x) に対し, 埋め込み空間での 距離 d(θ, x) を用いて損失を定義 2 項目: (4) 式 g = : 計量を補正 ( 曲がっている分を補正) η : 学習率 R : θ がまたポアンカレ球に含まれるようにする. proj(⋅). t+1 θt t t R t R θ −1 E E ∂d(θ,x) ∂L(θ) ∂θ ∂d(θ,x) θ −1 ( 2 1−∥θ∥2 ) 2 t θt t+1 14

Slide 15

Slide 15 text

良いところ スケー ルする ( 時間・ 空間計算量が埋め込み次元に線形) 並列化も容易 [26] 最適化の工夫 まずすべての埋め込みを原点周辺に置く “burn‑in” フェー ズでは学習率を小さくして偏角のみを調整 後から学習率を大きくしてノルムを調整 15

Slide 16

Slide 16 text

実験 1. WordNet hypernymy 2. Social networks 3. Lexical Entailment 16

Slide 17

Slide 17 text

Distance ペアデー タ D = {(u , v )} ⊆ S × Sに対する損失を, 埋め込み空間 でのデー タ間の距離を用いて問題毎に定義 Proposed (hyperbolic space) Poincaré distance (symmetric) d(u, v) = arcosh 1 + 2 (1) Baseline (Euclidean space) Euclidean distance (symmetric) d(u, v) = ∥u − v∥ TransE [Bordes+'13] (asymmetric) d(u, v) = ∥u − v + r∥ 教師デー タが非対称性を持つ必要がある. e.g., i s - a relation. i i ( (1−∥u∥ )(1−∥v∥ ) 2 2 ∥u−v∥2 ) 2 2 17

Slide 18

Slide 18 text

1. WordNet hypernymy Loss: L(Θ) = − log N(u): u とペアにならないシンボルの集合 (u を含む) 分母は 10 件乱択 Data: WordNet hypernymy の推移閉包 e.g., (animal, mammal), (mammal, cat), (animal, cat) Task Reconstruction: 正例すべてを埋め込む. 背後の階層構造が埋 め込まれるか確認 Link Prediction: 一部の正例を埋め込んで残りの正例を予測 Evaluation Metric Rank: ground‑truth negative の中での正例の Rank ( の平均) MAP ∑ (u,v)∈D e ∑v ∈N(u) ′ −d(u,v ) ′ e−d(u,v) 18

Slide 19

Slide 19 text

Results 紫背景: ユー クリッド空間に200 次元で埋め込むよりも双曲空 間に5 次元で埋め込んだ方が高精度 太字:absolute best per task 19

Slide 20

Slide 20 text

Visualization d = 2 デー タとして上位下位関係を与えていない 20

Slide 21

Slide 21 text

2. Network Embeddings Task: link prediction Model: P((u, v) = 1 ∣ Θ) = t, r: hyperparameters, validation set で tuning Data: A s t r o P h , C o n d M a t , G r Q c , H e p P h (social networks, undirected) 正例負例の扱い: 実験1 同様 Loss: cross entropy e + 1 (d(u,v)−r)/t 1 21

Slide 22

Slide 22 text

Results 低次元 (d = 10) だと圧勝 高次元 (d = 100) だと勝ったり負けたり (d = 200 だと負ける?) 22

Slide 23

Slide 23 text

3. Lexical Entailment Task: 実験1 の埋め込みが i s - a の「 典型度」 を捉えているか確認 Gold HyperLex (arXiv) ( 第2 著者が噛んでいるデー タセット) Wbless (ACL anthology) Results: 両デー タで SotA (competitive かが不明) 23

Slide 24

Slide 24 text

まとめ 階層構造・ べき分布を持つデー タはユー クリッド空間ではなく双曲 空間の方が効率的に埋め込める (Sec. 2) 階層構造・ べき分布を持つデー タを双曲空間 ( ポアンカレ球モデル) に埋め込むための学習法 ( リー マン多様体上でSGD) を提案 (Sec. 3) 実験 (Sec. 4) WordNet hypernymy の埋め込み: 低次元でユー クリッド埋め 込みに圧勝 Social networks の埋め込み: 低次元だと圧勝 Lexical Entailment: 2 つのデー タセットで SotA, 語の意味論的 にもイケてるかも? 24

Slide 25

Slide 25 text

Appendix 25

Slide 26

Slide 26 text

よかった話 ( 私見) NLP が抱える各種 hierarchical data の連続表現への光明 所謂単語ベクトルにオントロジー は自然には埋め込まれない ノルムは頻度を表現 これまでの階層構造の埋め込みは上手くいっていない ( 私見) 例えば Gaussian embeddings で分散として埋め込まれて いるのは「 オントロジー」「 頻度」「 推定の不確かさ」 の どれなのか? という議論が無い probability product kernel をロスにするとおそらく頻度 が埋め込まれる 効率的に学習可 リー マン多様体上での機械学習/ 最適化の知見が使える 「 ユー クリッド空間上で行列積 & 平行移動 ( アフィン変換) はすご い」 からの脱却の機運 26

Slide 27

Slide 27 text

気になる話 ( 私見) 単語ベクトルの重要な特徴である加法構成性が ( おそらく) 消えてし まう 目的関数が ( 擬) 内積 ( 双線形形式) ではなく距離 KB には使えないっぽい? ネットワー クが scale‑free 性を持たなそう 精度が出るならKB 好きの著者 (Nickel) が論文で触れると思わ れる 生コー パスは使えるのか word2vec, GloVe がこれだけ広く使われている理由のひとつ は “ 教師なし” ( 大量の生コー パスを利用できる) べき分布を持つ単語たちを埋め込んだとき背後に隠れる階層構 造とは何なのか 27

Slide 28

Slide 28 text

関連記事 異空間への埋め込み!Poincare Embeddings が拓く表現学習の新展 開 ‑ ABEJA Tech Blog (2017‑08‑30), slide Facebook Research just published an awesome paper on learning hierarchical representations (2017‑06‑14) [R] Poincaré Embeddings for Learning Hierarchical Representations : MachineLearning 28