WSDM 2018 論文読み会 Hyperbolic Representation Learning for Fast and Efficient Neural Qestion Answering

Slide 1

Slide 1 text

Hyperbolic Representation Learning for Fast and Efficient Neural Qestion Answering WSDM 2018 論文読み会 2018/04/14 m_nishiba paper: https://arxiv.org/pdf/1707.07847.pdf ( 資料内の図表は全て上記の論文より転載) 1

Slide 2

Slide 2 text

サマリー Question‑Answering のランキングや探索をシンプルなネットワークで複雑なものと同等のパフォーマンスを出す。提案するHyperQA は下記のテクニックを使わない。 feature engineering similarity matrix matching complicated attention mechanism over‑parameterized layes HyperQA はユークリッド空間ではなく双曲空間を使う。 2

Slide 3

Slide 3 text

バックグラウンド解くべき問題は” 質問” と” 解答群” が与えられたときに、最も良い” 解答” を見つけること。 Q: "Which teams won top three in the World Cup?" A1: "Germany is the champion of the World Cup." A2: "THe top theree of the European CUp are Spain, Netherlands and Germany." 既存の方法では、 i. 質問と解答をRNN やCNN でembedding する（Q とA で違うネットワークを使うことが多い）。 ii. 質問と解答のembedding から相互作用のある関数でマッチングスコアを計算する。 3

Slide 4

Slide 4 text

アプローチユークリッド空間ではなく、双曲空間シンプルなネットワーク。90k 程度のパラメータ数。 4

Slide 5

Slide 5 text

双曲幾何まっすぐな空間ではなく、負の曲率を持った曲がった空間 " 与えられた直線l と、その上にない１点pに対し、pを通りlに平行な直線が2 本以上存在する" 2 点間の距離に2 点の位置が影響する。 5

Slide 6

Slide 6 text

モデル 6

Slide 7

Slide 7 text

Embedding Layer GloVe 事前学習する。HyperQA の学習時にはパラメータを更新しない。 Projection Layer タスク特有の表現を学習するために単層のニューラルネットを導入する。 x = ReLU(W z + b ) Q とA で同じパラメータを使用する p p 7

Slide 8

Slide 8 text

Learning QA Representations y = x 単純に要素単位の和をとる。LSTM やCNN を使わない。 HyperQA では、単位球に制限にする必要がある。 y = if ∣∣y∣∣ > 1 i ∑ i ∣∣y∣∣ y 8

Slide 9

Slide 9 text

Hyper Representations of QA Pairs Hyperbolic 距離関数を使う。 d(q, a) = arcosh 1 + 2 arcosh(z) = ln(z + ) ∣∣ ⋅ ∣∣はユークリッド距離 Similarity Scoring Layer s(q, a) = w d(q, a) + b ( (1 − ∣∣q∣∣ )(1 − ∣∣a∣∣ ) 2 2 ∣∣q − a∣∣2 ) √z − 1 2 f f 9

Slide 10

Slide 10 text

Optimization and Learning Loss = max(0, s(q, a) + λ − s(q, a )) Δ : 正例、λ: マージン負例のサンプリングにはmix sampling を使う。ランダムサンプリングと間違いが最大となる例勾配 ∇ = ∇ (q,a)∈Δq ∑ (q,a )∉Δ ′ q ∑ ′ q R 4 (1 − ∣∣θ ∣∣ ) t 2 2 E 10

Slide 11

Slide 11 text

数値検証データセット、比較対象 11

Slide 12

Slide 12 text

評価方法 Mean Reciprocal Rank (MRR) Mean Average Precision (MAP) Precision@1 (P@1) 計算速度パラメータの数 12

Slide 13

Slide 13 text

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

Slide 17

Slide 17 text

考察パフォーマンス全体的に同等の精度 or ベター計算速度はかなり改善 17

Slide 18

Slide 18 text

Embedding size CosineQA: hyperbolic 距離の代わりにコサイン類似度を使用 18

Slide 19

Slide 19 text

QA Embedding QA を上手く区別できているように見える。 19

Slide 20

Slide 20 text

QA Embedding 実際Question のほうがノルムが大きい 20

Slide 21

Slide 21 text

Word Embedding 21

Slide 22

Slide 22 text

結論少ないパラメータ、シンプルな構造でも同等の精度が得られた。 QA のembedding だけでなく、Word レベルのembedding でも構造を学習していることがわかった。 22