Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Poincaré Embeddings for Learning Hierarchical Representations

Sho Yokoi
September 12, 2017

Poincaré Embeddings for Learning Hierarchical Representations

Sho Yokoi

September 12, 2017
Tweet

More Decks by Sho Yokoi

Other Decks in Research

Transcript

  1. Poincaré Embeddings for Learning
    Hierarchical Representations
    Maximilian Nickel and Douwe Kiela
    arXiv (to appear in NIPS 2017)
    読む人:
    横井祥 (
    東北大学 乾研究室 D1)
    2017‑09‑15
    第9
    回最先端NLP
    勉強会

    とくに注釈がない限り図表は原著論文からの引用です

    論文番号も原著論文に従います
    1

    View full-size slide

  2. やったこと
    階層構造を持つデー
    タを双曲空間に埋め込むための学習法を提案
    2

    View full-size slide

  3. Authors
    Maximilian Nickel
    RESCAL [ICML'11]
    Holographic embeddings [AAAI'16]
    Douwe Kiela
    3

    View full-size slide

  4. まとめ
    階層構造・
    べき分布を持つデー
    タはユー
    クリッド空間ではなく双曲
    空間の方が効率的に埋め込める (Sec. 2)
    階層構造・
    べき分布を持つデー
    タを双曲空間 (
    ポアンカレ球モデル)
    に埋め込むための学習法 (
    リー
    マン多様体上でSGD)
    を提案 (Sec. 3)
    実験 (Sec. 4)
    WordNet hypernymy
    の埋め込み:
    低次元でユー
    クリッド埋め
    込みに圧勝
    Social networks
    の埋め込み:
    低次元だと圧勝
    Lexical Entailment: 2
    つのデー
    タセットで SotA,
    語の意味論的
    にもイケてるかも?
    4

    View full-size slide

  5. 背景
    階層構造・
    べき分布を持つデー
    タは
    ユー
    クリッド空間ではなく双曲空間の方が効率的に埋め込める
    5

    View full-size slide

  6. 階層構造を連続空間に埋め込みたい
    離散的対象を対象間の関係を介して連続空間に埋め込む研究が盛ん
    単語:word2vec (CBOW, SGNS), GloVe, fastText
    グラフのノー
    ド:node2vec, LINE, DeepWalk
    多項関係 (KB
    上のNE):TransE, RESCAL, Universal Schema
    埋め込み空間の表現能力は次元数で制限される
    複雑なパター
    ン (
    構造)
    を連続空間で十分に捉えるのは難しい
    この研究では階層構造を持つデー
    タにスコー
    プを絞ってより良い埋
    め込みを考える
    べき乗則を満たすデー
    タは潜在的に階層構造を仮定できる
    Zipf

    スケー
    ルフリー
    ネットワー

    6

    View full-size slide

  7. 階層構造を連続空間双曲空間に埋め込みたい
    この論文でやっていること:
    階層構造を双曲空間に埋め込む
    まず双曲空間から
    7

    View full-size slide

  8. 双曲空間:
    曲率が負 (
    一定)
    の “
    曲がった空間”
    球面 ユー
    クリッド空間 双曲空間
    曲率 > 0 0 < 0
    1
    点を通り直線に平行な直線の数 0 1 ∞
    三角形内角の和 > π π < π
    https://www.mathi.uni‑heidelberg.de/~alessandrini/ArithHypPlane.html
    8

    View full-size slide

  9. 双曲空間は階層構造の埋め込みに適している
    双曲空間は “
    連続版の木” [16]
    木:
    根からの距離に対して指数的にノー
    ド数が増加
    ポアンカレ円板:
    原点からの距離に対して円周長が指数的に増加
    [16]

    双曲空間は階層構造・
    べき分布を持つデー
    タの埋め込みに適している
    ネットワー
    クを双曲空間で解析 [15][3][16][1]

    ユー
    クリッド空間に木を埋め込むのは無理がある (
    次元数が必要)

    が, AI/ML
    ではユー
    クリッド空間への埋込みが主 9

    View full-size slide

  10. 双曲空間のモデルとしてポアンカレ球を採用
    曲がった空間をよく知っているユー
    クリッド空間に移して考えたい
    回転二葉双曲面モデル (hyperboloid model)
    ポアンカレ上半平面モデル (Poincaré half‑plane model)
    ポアンカレ円板 (
    球)
    モデル (Poincaré disk (ball) model) ←
    採用
    勾配法 (
    リー
    マン多様体上での最適化)
    を適用できる
    https://en.wikipedia.org/wiki/Hyperboloid_model
    2
    次元の双曲空間を3
    次元のユー

    リッド空間に埋め込んで考える
    緑:
    双曲モデル
    灰色:
    ポアンカレ円板モデル
    外側に行くほど“
    密に”
    詰まってい

    10

    View full-size slide

  11. ポアンカレ円板 (
    球)
    モデル
    d 次元ポアンカレ球: B = {x ∈R ∣ ∥x∥ < 1}
    ∥⋅∥ はユー
    クリッド距離
    計量: g = g
    原点から離れるほど “
    空間が詰まる” (b)(c)
    距離: d(u, v) = arcosh 1 + 2
    測地線は境界に直交する円弧 (
    詰まっているところを避けると

    最短”) (a)
    d d
    x
    (
    1−∥x∥2
    2 )
    2
    E
    (
    (1−∥u∥ )(1−∥v∥ )
    2 2
    ∥u−v∥2
    )
    11

    View full-size slide

  12. 問題設定
    階層構造を持つシンボルたちをポアンカレ球に埋め込む
    input: symbols S = {x }
    output: embeddings Θ = {θ } ⊆B
    objective: L(Θ) → min
    L: a problem‑specific loss function
    i i=1
    n
    i i=1
    n d
    12

    View full-size slide

  13. 最適化
    リー
    マン多様体 (
    ポアンカレ円板)
    上で確率的勾配降下法
    13

    View full-size slide

  14. 最適化
    リー
    マン多様体 (
    ポアンカレ円板)
    上でSGD
    θ ←R (θ − η ∇ L(θ ))
    L:
    損失
    ∇ = g ∇ :
    ポアンカレ円板 (
    双曲空間)
    で測った勾配
    ∇ = ⋅ :
    ユー
    クリッド空間で測った勾配
    1
    項目:
    既知.
    ペアデー
    タ (θ, x) に対し,
    埋め込み空間での
    距離 d(θ, x) を用いて損失を定義
    2
    項目: (4)

    g = :
    計量を補正 (
    曲がっている分を補正)
    η :
    学習率
    R : θ がまたポアンカレ球に含まれるようにする. proj(⋅).
    t+1 θt
    t t R t
    R θ
    −1
    E
    E ∂d(θ,x)
    ∂L(θ)
    ∂θ
    ∂d(θ,x)
    θ
    −1 (
    2
    1−∥θ∥2
    )
    2
    t
    θt
    t+1 14

    View full-size slide

  15. 良いところ
    スケー
    ルする (
    時間・
    空間計算量が埋め込み次元に線形)
    並列化も容易 [26]
    最適化の工夫
    まずすべての埋め込みを原点周辺に置く
    “burn‑in”
    フェー
    ズでは学習率を小さくして偏角のみを調整
    後から学習率を大きくしてノルムを調整
    15

    View full-size slide

  16. 実験
    1. WordNet hypernymy
    2. Social networks
    3. Lexical Entailment
    16

    View full-size slide

  17. Distance
    ペアデー
    タ D = {(u , v )} ⊆ S × Sに対する損失を,
    埋め込み空間
    でのデー
    タ間の距離を用いて問題毎に定義
    Proposed (hyperbolic space)
    Poincaré distance (symmetric)
    d(u, v) = arcosh 1 + 2 (1)
    Baseline (Euclidean space)
    Euclidean distance (symmetric)
    d(u, v) = ∥u − v∥
    TransE [Bordes+'13] (asymmetric)
    d(u, v) = ∥u − v + r∥
    教師デー
    タが非対称性を持つ必要がある. e.g., i
    s
    -
    a relation.
    i i
    (
    (1−∥u∥ )(1−∥v∥ )
    2 2
    ∥u−v∥2
    )
    2
    2
    17

    View full-size slide

  18. 1. WordNet hypernymy
    Loss: L(Θ) = − log
    N(u): u とペアにならないシンボルの集合 (u を含む)
    分母は 10 件乱択
    Data: WordNet hypernymy
    の推移閉包
    e.g., (animal, mammal), (mammal, cat), (animal, cat)
    Task
    Reconstruction:
    正例すべてを埋め込む.
    背後の階層構造が埋
    め込まれるか確認
    Link Prediction:
    一部の正例を埋め込んで残りの正例を予測
    Evaluation Metric
    Rank: ground‑truth negative
    の中での正例の Rank (
    の平均)
    MAP

    (u,v)∈D e
    ∑v ∈N(u)

    −d(u,v )

    e−d(u,v)
    18

    View full-size slide

  19. Results
    紫背景:
    ユー
    クリッド空間に200
    次元で埋め込むよりも双曲空
    間に5
    次元で埋め込んだ方が高精度
    太字:absolute best per task
    19

    View full-size slide

  20. Visualization
    d = 2
    デー
    タとして上位下位関係を与えていない
    20

    View full-size slide

  21. 2. Network Embeddings
    Task: link prediction
    Model:
    P((u, v) = 1 ∣ Θ) =
    t, r: hyperparameters, validation set
    で tuning
    Data: A
    s
    t
    r
    o
    P
    h , C
    o
    n
    d
    M
    a
    t , G
    r
    Q
    c , H
    e
    p
    P
    h (social networks,
    undirected)
    正例負例の扱い:
    実験1
    同様
    Loss: cross entropy
    e + 1
    (d(u,v)−r)/t
    1
    21

    View full-size slide

  22. Results
    低次元 (d = 10)
    だと圧勝
    高次元 (d = 100)
    だと勝ったり負けたり
    (d = 200 だと負ける?)
    22

    View full-size slide

  23. 3. Lexical Entailment
    Task:
    実験1
    の埋め込みが i
    s
    -
    a
    の「
    典型度」
    を捉えているか確認
    Gold
    HyperLex (arXiv)
    (
    第2
    著者が噛んでいるデー
    タセット)
    Wbless (ACL anthology)
    Results:
    両デー
    タで SotA
    (competitive
    かが不明)
    23

    View full-size slide

  24. まとめ
    階層構造・
    べき分布を持つデー
    タはユー
    クリッド空間ではなく双曲
    空間の方が効率的に埋め込める (Sec. 2)
    階層構造・
    べき分布を持つデー
    タを双曲空間 (
    ポアンカレ球モデル)
    に埋め込むための学習法 (
    リー
    マン多様体上でSGD)
    を提案 (Sec. 3)
    実験 (Sec. 4)
    WordNet hypernymy
    の埋め込み:
    低次元でユー
    クリッド埋め
    込みに圧勝
    Social networks
    の埋め込み:
    低次元だと圧勝
    Lexical Entailment: 2
    つのデー
    タセットで SotA,
    語の意味論的
    にもイケてるかも?
    24

    View full-size slide

  25. よかった話 (
    私見)
    NLP
    が抱える各種 hierarchical data
    の連続表現への光明
    所謂単語ベクトルにオントロジー
    は自然には埋め込まれない
    ノルムは頻度を表現
    これまでの階層構造の埋め込みは上手くいっていない (
    私見)
    例えば Gaussian embeddings
    で分散として埋め込まれて
    いるのは「
    オントロジー」「
    頻度」「
    推定の不確かさ」

    どれなのか?
    という議論が無い
    probability product kernel
    をロスにするとおそらく頻度
    が埋め込まれる
    効率的に学習可
    リー
    マン多様体上での機械学習/
    最適化の知見が使える

    ユー
    クリッド空間上で行列積 &
    平行移動 (
    アフィン変換)
    はすご
    い」
    からの脱却の機運
    26

    View full-size slide

  26. 気になる話 (
    私見)
    単語ベクトルの重要な特徴である加法構成性が (
    おそらく)
    消えてし
    まう
    目的関数が (
    擬)
    内積 (
    双線形形式)
    ではなく距離
    KB
    には使えないっぽい?
    ネットワー
    クが scale‑free
    性を持たなそう
    精度が出るならKB
    好きの著者 (Nickel)
    が論文で触れると思わ
    れる
    生コー
    パスは使えるのか
    word2vec, GloVe
    がこれだけ広く使われている理由のひとつ
    は “
    教師なし” (
    大量の生コー
    パスを利用できる)
    べき分布を持つ単語たちを埋め込んだとき背後に隠れる階層構
    造とは何なのか
    27

    View full-size slide

  27. 関連記事
    異空間への埋め込み!Poincare Embeddings
    が拓く表現学習の新展
    開 ‑ ABEJA Tech Blog (2017‑08‑30), slide
    Facebook Research just published an awesome paper on
    learning hierarchical representations (2017‑06‑14)
    [R] Poincaré Embeddings for Learning Hierarchical
    Representations : MachineLearning
    28

    View full-size slide