Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Poincaré Embeddings for Learning Hierarchical Representations

Sho Yokoi
PRO
September 12, 2017

Poincaré Embeddings for Learning Hierarchical Representations

2017-09-15 第9回最先端NLP勉強会

Sho Yokoi
PRO

September 12, 2017
Tweet

More Decks by Sho Yokoi

Other Decks in Research

Transcript

  1. Poincaré Embeddings for Learning Hierarchical Representations Maximilian Nickel and Douwe

    Kiela arXiv (to appear in NIPS 2017) 読む人: 横井祥 ( 東北大学 乾研究室 D1) 2017‑09‑15 第9 回最先端NLP 勉強会 ※ とくに注釈がない限り図表は原著論文からの引用です ※ 論文番号も原著論文に従います 1
  2. やったこと 階層構造を持つデー タを双曲空間に埋め込むための学習法を提案 2

  3. Authors Maximilian Nickel RESCAL [ICML'11] Holographic embeddings [AAAI'16] Douwe Kiela

    3
  4. まとめ 階層構造・ べき分布を持つデー タはユー クリッド空間ではなく双曲 空間の方が効率的に埋め込める (Sec. 2) 階層構造・ べき分布を持つデー

    タを双曲空間 ( ポアンカレ球モデル) に埋め込むための学習法 ( リー マン多様体上でSGD) を提案 (Sec. 3) 実験 (Sec. 4) WordNet hypernymy の埋め込み: 低次元でユー クリッド埋め 込みに圧勝 Social networks の埋め込み: 低次元だと圧勝 Lexical Entailment: 2 つのデー タセットで SotA, 語の意味論的 にもイケてるかも? 4
  5. 背景 階層構造・ べき分布を持つデー タは ユー クリッド空間ではなく双曲空間の方が効率的に埋め込める 5

  6. 階層構造を連続空間に埋め込みたい 離散的対象を対象間の関係を介して連続空間に埋め込む研究が盛ん 単語:word2vec (CBOW, SGNS), GloVe, fastText グラフのノー ド:node2vec, LINE,

    DeepWalk 多項関係 (KB 上のNE):TransE, RESCAL, Universal Schema 埋め込み空間の表現能力は次元数で制限される 複雑なパター ン ( 構造) を連続空間で十分に捉えるのは難しい この研究では階層構造を持つデー タにスコー プを絞ってより良い埋 め込みを考える べき乗則を満たすデー タは潜在的に階層構造を仮定できる Zipf 則 スケー ルフリー ネットワー ク 6
  7. 階層構造を連続空間双曲空間に埋め込みたい この論文でやっていること: 階層構造を双曲空間に埋め込む まず双曲空間から 7

  8. 双曲空間: 曲率が負 ( 一定) の “ 曲がった空間” 球面 ユー クリッド空間

    双曲空間 曲率 > 0 0 < 0 1 点を通り直線に平行な直線の数 0 1 ∞ 三角形内角の和 > π π < π https://www.mathi.uni‑heidelberg.de/~alessandrini/ArithHypPlane.html 8
  9. 双曲空間は階層構造の埋め込みに適している 双曲空間は “ 連続版の木” [16] 木: 根からの距離に対して指数的にノー ド数が増加 ポアンカレ円板: 原点からの距離に対して円周長が指数的に増加

    [16] → 双曲空間は階層構造・ べき分布を持つデー タの埋め込みに適している ネットワー クを双曲空間で解析 [15][3][16][1] ↔ ユー クリッド空間に木を埋め込むのは無理がある ( 次元数が必要) … が, AI/ML ではユー クリッド空間への埋込みが主 9
  10. 双曲空間のモデルとしてポアンカレ球を採用 曲がった空間をよく知っているユー クリッド空間に移して考えたい 回転二葉双曲面モデル (hyperboloid model) ポアンカレ上半平面モデル (Poincaré half‑plane model)

    ポアンカレ円板 ( 球) モデル (Poincaré disk (ball) model) ← 採用 勾配法 ( リー マン多様体上での最適化) を適用できる https://en.wikipedia.org/wiki/Hyperboloid_model 2 次元の双曲空間を3 次元のユー ク リッド空間に埋め込んで考える 緑: 双曲モデル 灰色: ポアンカレ円板モデル 外側に行くほど“ 密に” 詰まってい る 10
  11. ポアンカレ円板 ( 球) モデル d 次元ポアンカレ球: B = {x ∈R

    ∣ ∥x∥ < 1} ∥⋅∥ はユー クリッド距離 計量: g = g 原点から離れるほど “ 空間が詰まる” (b)(c) 距離: d(u, v) = arcosh 1 + 2 測地線は境界に直交する円弧 ( 詰まっているところを避けると “ 最短”) (a) d d x ( 1−∥x∥2 2 ) 2 E ( (1−∥u∥ )(1−∥v∥ ) 2 2 ∥u−v∥2 ) 11
  12. 問題設定 階層構造を持つシンボルたちをポアンカレ球に埋め込む input: symbols S = {x } output: embeddings

    Θ = {θ } ⊆B objective: L(Θ) → min L: a problem‑specific loss function i i=1 n i i=1 n d 12
  13. 最適化 リー マン多様体 ( ポアンカレ円板) 上で確率的勾配降下法 13

  14. 最適化 リー マン多様体 ( ポアンカレ円板) 上でSGD θ ←R (θ −

    η ∇ L(θ )) L: 損失 ∇ = g ∇ : ポアンカレ円板 ( 双曲空間) で測った勾配 ∇ = ⋅ : ユー クリッド空間で測った勾配 1 項目: 既知. ペアデー タ (θ, x) に対し, 埋め込み空間での 距離 d(θ, x) を用いて損失を定義 2 項目: (4) 式 g = : 計量を補正 ( 曲がっている分を補正) η : 学習率 R : θ がまたポアンカレ球に含まれるようにする. proj(⋅). t+1 θt t t R t R θ −1 E E ∂d(θ,x) ∂L(θ) ∂θ ∂d(θ,x) θ −1 ( 2 1−∥θ∥2 ) 2 t θt t+1 14
  15. 良いところ スケー ルする ( 時間・ 空間計算量が埋め込み次元に線形) 並列化も容易 [26] 最適化の工夫 まずすべての埋め込みを原点周辺に置く

    “burn‑in” フェー ズでは学習率を小さくして偏角のみを調整 後から学習率を大きくしてノルムを調整 15
  16. 実験 1. WordNet hypernymy 2. Social networks 3. Lexical Entailment

    16
  17. Distance ペアデー タ D = {(u , v )} ⊆

    S × Sに対する損失を, 埋め込み空間 でのデー タ間の距離を用いて問題毎に定義 Proposed (hyperbolic space) Poincaré distance (symmetric) d(u, v) = arcosh 1 + 2 (1) Baseline (Euclidean space) Euclidean distance (symmetric) d(u, v) = ∥u − v∥ TransE [Bordes+'13] (asymmetric) d(u, v) = ∥u − v + r∥ 教師デー タが非対称性を持つ必要がある. e.g., i s - a relation. i i ( (1−∥u∥ )(1−∥v∥ ) 2 2 ∥u−v∥2 ) 2 2 17
  18. 1. WordNet hypernymy Loss: L(Θ) = − log N(u): u

    とペアにならないシンボルの集合 (u を含む) 分母は 10 件乱択 Data: WordNet hypernymy の推移閉包 e.g., (animal, mammal), (mammal, cat), (animal, cat) Task Reconstruction: 正例すべてを埋め込む. 背後の階層構造が埋 め込まれるか確認 Link Prediction: 一部の正例を埋め込んで残りの正例を予測 Evaluation Metric Rank: ground‑truth negative の中での正例の Rank ( の平均) MAP ∑ (u,v)∈D e ∑v ∈N(u) ′ −d(u,v ) ′ e−d(u,v) 18
  19. Results 紫背景: ユー クリッド空間に200 次元で埋め込むよりも双曲空 間に5 次元で埋め込んだ方が高精度 太字:absolute best per

    task 19
  20. Visualization d = 2 デー タとして上位下位関係を与えていない 20

  21. 2. Network Embeddings Task: link prediction Model: P((u, v) =

    1 ∣ Θ) = t, r: hyperparameters, validation set で tuning Data: A s t r o P h , C o n d M a t , G r Q c , H e p P h (social networks, undirected) 正例負例の扱い: 実験1 同様 Loss: cross entropy e + 1 (d(u,v)−r)/t 1 21
  22. Results 低次元 (d = 10) だと圧勝 高次元 (d = 100)

    だと勝ったり負けたり (d = 200 だと負ける?) 22
  23. 3. Lexical Entailment Task: 実験1 の埋め込みが i s - a

    の「 典型度」 を捉えているか確認 Gold HyperLex (arXiv) ( 第2 著者が噛んでいるデー タセット) Wbless (ACL anthology) Results: 両デー タで SotA (competitive かが不明) 23
  24. まとめ 階層構造・ べき分布を持つデー タはユー クリッド空間ではなく双曲 空間の方が効率的に埋め込める (Sec. 2) 階層構造・ べき分布を持つデー

    タを双曲空間 ( ポアンカレ球モデル) に埋め込むための学習法 ( リー マン多様体上でSGD) を提案 (Sec. 3) 実験 (Sec. 4) WordNet hypernymy の埋め込み: 低次元でユー クリッド埋め 込みに圧勝 Social networks の埋め込み: 低次元だと圧勝 Lexical Entailment: 2 つのデー タセットで SotA, 語の意味論的 にもイケてるかも? 24
  25. Appendix 25

  26. よかった話 ( 私見) NLP が抱える各種 hierarchical data の連続表現への光明 所謂単語ベクトルにオントロジー は自然には埋め込まれない

    ノルムは頻度を表現 これまでの階層構造の埋め込みは上手くいっていない ( 私見) 例えば Gaussian embeddings で分散として埋め込まれて いるのは「 オントロジー」「 頻度」「 推定の不確かさ」 の どれなのか? という議論が無い probability product kernel をロスにするとおそらく頻度 が埋め込まれる 効率的に学習可 リー マン多様体上での機械学習/ 最適化の知見が使える 「 ユー クリッド空間上で行列積 & 平行移動 ( アフィン変換) はすご い」 からの脱却の機運 26
  27. 気になる話 ( 私見) 単語ベクトルの重要な特徴である加法構成性が ( おそらく) 消えてし まう 目的関数が (

    擬) 内積 ( 双線形形式) ではなく距離 KB には使えないっぽい? ネットワー クが scale‑free 性を持たなそう 精度が出るならKB 好きの著者 (Nickel) が論文で触れると思わ れる 生コー パスは使えるのか word2vec, GloVe がこれだけ広く使われている理由のひとつ は “ 教師なし” ( 大量の生コー パスを利用できる) べき分布を持つ単語たちを埋め込んだとき背後に隠れる階層構 造とは何なのか 27
  28. 関連記事 異空間への埋め込み!Poincare Embeddings が拓く表現学習の新展 開 ‑ ABEJA Tech Blog (2017‑08‑30),

    slide Facebook Research just published an awesome paper on learning hierarchical representations (2017‑06‑14) [R] Poincaré Embeddings for Learning Hierarchical Representations : MachineLearning 28