Slide 1

Slide 1 text

Hyperbolic Representation Learning for Fast and Efficient Neural Qestion Answering WSDM 2018 論文読み会 2018/04/14 m_nishiba paper: https://arxiv.org/pdf/1707.07847.pdf ( 資料内の図表は全て上記の論文より転載) 1

Slide 2

Slide 2 text

サマリー Question‑Answering のランキングや探索をシンプルなネットワー クで複雑なものと同等のパフォー マンスを出す。 提案するHyperQA は下記のテクニックを使わない。 feature engineering similarity matrix matching complicated attention mechanism over‑parameterized layes HyperQA はユー クリッド空間ではなく双曲空間を使う。 2

Slide 3

Slide 3 text

バックグラウンド 解くべき問題は” 質問” と” 解答群” が与えられたときに、 最も良 い” 解答” を見つけること。 Q: "Which teams won top three in the World Cup?" A1: "Germany is the champion of the World Cup." A2: "THe top theree of the European CUp are Spain, Netherlands and Germany." 既存の方法では、 i. 質問と解答をRNN やCNN でembedding する (Q とA で違うネットワー クを使うことが多い)。 ii. 質問と解答のembedding から相互作用のある関数でマッチング スコアを計算する。 3

Slide 4

Slide 4 text

アプロー チ ユー クリッド空間ではなく、 双曲空間 シンプルなネットワー ク。90k 程度のパラメー タ数。 4

Slide 5

Slide 5 text

双曲幾何 まっすぐな空間ではなく、 負の曲率を持った曲がった空間 " 与えられた直線l と、 その上にない1点pに対し、pを通りlに平行 な直線が2 本以上存在する" 2 点間の距離に2 点の位置が影響する。 5

Slide 6

Slide 6 text

モデル 6

Slide 7

Slide 7 text

Embedding Layer GloVe 事前学習する。HyperQA の学習時にはパラメー タを更新しな い。 Projection Layer タスク特有の表現を学習するために単層のニュー ラルネットを導入 する。 x = ReLU(W z + b ) Q とA で同じパラメー タを使用する p p 7

Slide 8

Slide 8 text

Learning QA Representations y = x 単純に要素単位の和をとる。LSTM やCNN を使わない。 HyperQA では、 単位球に制限にする必要がある。 y = if ∣∣y∣∣ > 1 i ∑ i ∣∣y∣∣ y 8

Slide 9

Slide 9 text

Hyper Representations of QA Pairs Hyperbolic 距離関数を使う。 d(q, a) = arcosh 1 + 2 arcosh(z) = ln(z + ) ∣∣ ⋅ ∣∣はユー クリッド距離 Similarity Scoring Layer s(q, a) = w d(q, a) + b ( (1 − ∣∣q∣∣ )(1 − ∣∣a∣∣ ) 2 2 ∣∣q − a∣∣2 ) √z − 1 2 f f 9

Slide 10

Slide 10 text

Optimization and Learning Loss = max(0, s(q, a) + λ − s(q, a )) Δ : 正例、λ: マー ジン 負例のサンプリングにはmix sampling を使う。 ランダムサンプリング と 間違いが最大となる例 勾配 ∇ = ∇ (q,a)∈Δq ∑ (q,a )∉Δ ′ q ∑ ′ q R 4 (1 − ∣∣θ ∣∣ ) t 2 2 E 10

Slide 11

Slide 11 text

数値検証 デー タセット、 比較対象 11

Slide 12

Slide 12 text

評価方法 Mean Reciprocal Rank (MRR) Mean Average Precision (MAP) Precision@1 (P@1) 計算速度 パラメー タの数 12

Slide 13

Slide 13 text

13

Slide 14

Slide 14 text

14

Slide 15

Slide 15 text

15

Slide 16

Slide 16 text

16

Slide 17

Slide 17 text

考察 パフォー マンス 全体的に同等の精度 or ベター 計算速度はかなり改善 17

Slide 18

Slide 18 text

Embedding size CosineQA: hyperbolic 距離の代わりにコサイン類似度を使用 18

Slide 19

Slide 19 text

QA Embedding QA を上手く区別できているように見える。 19

Slide 20

Slide 20 text

QA Embedding 実際Question のほうがノルムが大きい 20

Slide 21

Slide 21 text

Word Embedding 21

Slide 22

Slide 22 text

結論 少ないパラメー タ、 シンプルな構造でも同等の精度が得られた。 QA のembedding だけでなく、Word レベルのembedding でも構造を 学習していることがわかった。 22