$30 off During Our Annual Pro Sale. View Details »

WSDM 2018 論文読み会 Hyperbolic Representation Learning for Fast and Efficient Neural Qestion Answering

nishiba
April 14, 2018

WSDM 2018 論文読み会 Hyperbolic Representation Learning for Fast and Efficient Neural Qestion Answering

nishiba

April 14, 2018
Tweet

More Decks by nishiba

Other Decks in Technology

Transcript

  1. Hyperbolic Representation Learning for
    Fast and Efficient Neural Qestion
    Answering
    WSDM 2018
    論文読み会
    2018/04/14
    m_nishiba
    paper: https://arxiv.org/pdf/1707.07847.pdf
    (
    資料内の図表は全て上記の論文より転載)
    1

    View Slide

  2. サマリー
    Question‑Answering
    のランキングや探索をシンプルなネットワー
    クで複雑なものと同等のパフォー
    マンスを出す。
    提案するHyperQA
    は下記のテクニックを使わない。
    feature engineering
    similarity matrix matching
    complicated attention mechanism
    over‑parameterized layes
    HyperQA
    はユー
    クリッド空間ではなく双曲空間を使う。
    2

    View Slide

  3. バックグラウンド
    解くべき問題は”
    質問”
    と”
    解答群”
    が与えられたときに、
    最も良
    い”
    解答”
    を見つけること。
    Q: "Which teams won top three in the World Cup?"
    A1: "Germany is the champion of the World Cup."
    A2: "THe top theree of the European CUp are Spain,
    Netherlands and Germany."
    既存の方法では、
    i.
    質問と解答をRNN
    やCNN
    でembedding
    する
    (Q
    とA
    で違うネットワー
    クを使うことが多い)。
    ii.
    質問と解答のembedding
    から相互作用のある関数でマッチング
    スコアを計算する。
    3

    View Slide

  4. アプロー

    ユー
    クリッド空間ではなく、
    双曲空間
    シンプルなネットワー
    ク。90k
    程度のパラメー
    タ数。
    4

    View Slide

  5. 双曲幾何
    まっすぐな空間ではなく、
    負の曲率を持った曲がった空間
    "
    与えられた直線l と、
    その上にない1点pに対し、pを通りlに平行
    な直線が2
    本以上存在する"
    2
    点間の距離に2
    点の位置が影響する。
    5

    View Slide

  6. モデル
    6

    View Slide

  7. Embedding Layer
    GloVe
    事前学習する。HyperQA
    の学習時にはパラメー
    タを更新しな
    い。
    Projection Layer
    タスク特有の表現を学習するために単層のニュー
    ラルネットを導入
    する。
    x = ReLU(W z + b )
    Q
    とA
    で同じパラメー
    タを使用する
    p p
    7

    View Slide

  8. Learning QA Representations
    y = x
    単純に要素単位の和をとる。LSTM
    やCNN
    を使わない。
    HyperQA
    では、
    単位球に制限にする必要がある。
    y = if ∣∣y∣∣ > 1
    i
    ∑ i
    ∣∣y∣∣
    y
    8

    View Slide

  9. Hyper Representations of QA Pairs
    Hyperbolic
    距離関数を使う。
    d(q, a) = arcosh 1 + 2
    arcosh(z) = ln(z + )
    ∣∣ ⋅ ∣∣はユー
    クリッド距離
    Similarity Scoring Layer
    s(q, a) = w d(q, a) + b
    (
    (1 − ∣∣q∣∣ )(1 − ∣∣a∣∣ )
    2 2
    ∣∣q − a∣∣2
    )
    √z − 1
    2
    f f
    9

    View Slide

  10. Optimization and Learning
    Loss = max(0, s(q, a) + λ − s(q, a ))
    Δ :
    正例、λ:
    マー
    ジン
    負例のサンプリングにはmix sampling
    を使う。
    ランダムサンプリング と 間違いが最大となる例
    勾配
    ∇ = ∇
    (q,a)∈Δq

    (q,a )∉Δ

    q
    ∑ ′
    q
    R 4
    (1 − ∣∣θ ∣∣ )
    t
    2 2
    E
    10

    View Slide

  11. 数値検証
    デー
    タセット、
    比較対象
    11

    View Slide

  12. 評価方法
    Mean Reciprocal Rank (MRR)
    Mean Average Precision (MAP)
    Precision@1 (P@1)
    計算速度
    パラメー
    タの数
    12

    View Slide

  13. 13

    View Slide

  14. 14

    View Slide

  15. 15

    View Slide

  16. 16

    View Slide

  17. 考察
    パフォー
    マンス
    全体的に同等の精度 or
    ベター
    計算速度はかなり改善
    17

    View Slide

  18. Embedding size
    CosineQA: hyperbolic
    距離の代わりにコサイン類似度を使用
    18

    View Slide

  19. QA Embedding
    QA
    を上手く区別できているように見える。
    19

    View Slide

  20. QA Embedding
    実際Question
    のほうがノルムが大きい
    20

    View Slide

  21. Word Embedding
    21

    View Slide

  22. 結論
    少ないパラメー
    タ、
    シンプルな構造でも同等の精度が得られた。
    QA
    のembedding
    だけでなく、Word
    レベルのembedding
    でも構造を
    学習していることがわかった。
    22

    View Slide