WSDM 2018 論文読み会 Hyperbolic Representation Learning for Fast and Efficient Neural Qestion Answering

De48ef31de22781848d8f9988bd20a5e?s=47 nishiba
April 14, 2018

WSDM 2018 論文読み会 Hyperbolic Representation Learning for Fast and Efficient Neural Qestion Answering

De48ef31de22781848d8f9988bd20a5e?s=128

nishiba

April 14, 2018
Tweet

Transcript

  1. Hyperbolic Representation Learning for Fast and Efficient Neural Qestion Answering

    WSDM 2018 論文読み会 2018/04/14 m_nishiba paper: https://arxiv.org/pdf/1707.07847.pdf ( 資料内の図表は全て上記の論文より転載) 1
  2. サマリー Question‑Answering のランキングや探索をシンプルなネットワー クで複雑なものと同等のパフォー マンスを出す。 提案するHyperQA は下記のテクニックを使わない。 feature engineering similarity

    matrix matching complicated attention mechanism over‑parameterized layes HyperQA はユー クリッド空間ではなく双曲空間を使う。 2
  3. バックグラウンド 解くべき問題は” 質問” と” 解答群” が与えられたときに、 最も良 い” 解答” を見つけること。

    Q: "Which teams won top three in the World Cup?" A1: "Germany is the champion of the World Cup." A2: "THe top theree of the European CUp are Spain, Netherlands and Germany." 既存の方法では、 i. 質問と解答をRNN やCNN でembedding する (Q とA で違うネットワー クを使うことが多い)。 ii. 質問と解答のembedding から相互作用のある関数でマッチング スコアを計算する。 3
  4. アプロー チ ユー クリッド空間ではなく、 双曲空間 シンプルなネットワー ク。90k 程度のパラメー タ数。 4

  5. 双曲幾何 まっすぐな空間ではなく、 負の曲率を持った曲がった空間 " 与えられた直線l と、 その上にない1点pに対し、pを通りlに平行 な直線が2 本以上存在する" 2

    点間の距離に2 点の位置が影響する。 5
  6. モデル 6

  7. Embedding Layer GloVe 事前学習する。HyperQA の学習時にはパラメー タを更新しな い。 Projection Layer タスク特有の表現を学習するために単層のニュー

    ラルネットを導入 する。 x = ReLU(W z + b ) Q とA で同じパラメー タを使用する p p 7
  8. Learning QA Representations y = x 単純に要素単位の和をとる。LSTM やCNN を使わない。 HyperQA

    では、 単位球に制限にする必要がある。 y = if ∣∣y∣∣ > 1 i ∑ i ∣∣y∣∣ y 8
  9. Hyper Representations of QA Pairs Hyperbolic 距離関数を使う。 d(q, a) =

    arcosh 1 + 2 arcosh(z) = ln(z + ) ∣∣ ⋅ ∣∣はユー クリッド距離 Similarity Scoring Layer s(q, a) = w d(q, a) + b ( (1 − ∣∣q∣∣ )(1 − ∣∣a∣∣ ) 2 2 ∣∣q − a∣∣2 ) √z − 1 2 f f 9
  10. Optimization and Learning Loss = max(0, s(q, a) + λ

    − s(q, a )) Δ : 正例、λ: マー ジン 負例のサンプリングにはmix sampling を使う。 ランダムサンプリング と 間違いが最大となる例 勾配 ∇ = ∇ (q,a)∈Δq ∑ (q,a )∉Δ ′ q ∑ ′ q R 4 (1 − ∣∣θ ∣∣ ) t 2 2 E 10
  11. 数値検証 デー タセット、 比較対象 11

  12. 評価方法 Mean Reciprocal Rank (MRR) Mean Average Precision (MAP) Precision@1

    (P@1) 計算速度 パラメー タの数 12
  13. 13

  14. 14

  15. 15

  16. 16

  17. 考察 パフォー マンス 全体的に同等の精度 or ベター 計算速度はかなり改善 17

  18. Embedding size CosineQA: hyperbolic 距離の代わりにコサイン類似度を使用 18

  19. QA Embedding QA を上手く区別できているように見える。 19

  20. QA Embedding 実際Question のほうがノルムが大きい 20

  21. Word Embedding 21

  22. 結論 少ないパラメー タ、 シンプルな構造でも同等の精度が得られた。 QA のembedding だけでなく、Word レベルのembedding でも構造を 学習していることがわかった。

    22