Upgrade to Pro — share decks privately, control downloads, hide ads and more …

What the vec

Ab1dcccd9c62e24c8219dcd41eb149d5?s=47 Hiroki_Iida
September 22, 2020

What the vec

Ab1dcccd9c62e24c8219dcd41eb149d5?s=128

Hiroki_Iida

September 22, 2020
Tweet

Transcript

  1. What the Vec? Towards Probabilistically Grounded Embeddings Author: Carl Allen,

    Ivana Balaževi´c, Timothy Hospedales Presenter: Hiroki Iida(D1) Okazaki lab. TokyoTech/ Retrieva. Inc 特に断りのない図表は、論文からの引用です
  2. まとめ 2 The Power of PowerPoint - thepopp.com n PMIベクトルが張る平面の性質を示した

    n PMIベクトルによって、類似度、言い換え、類推の関係を示した n 単語ベクトルがPMIの非線形写像由来であることを示し、線形写像 にした方がPMIベクトルの性質をよく保存できることを提案 l 線形写像になり、PMIベクトルの類似度、言い換え、類推の演算が保存されるため l 線形写像の場合で、単語ベクトルと文脈ベクトルの関係を示した l 線形写像かつ文脈ベクトルを使った方が、関連度、類似度、アナロジーのタスクの精度 が良いことを示した l 単語ベクトルと文脈ベクトルの平均を使うと良いというヒューリスティクスの根拠を示 した n 単語ベクトルでよく使う計量について、考察した
  3. Notation 3 The Power of PowerPoint - thepopp.com 記号 説明

    D 単語対の全出現数(word pair number) n 全単語種類数(all vocabrary number) d 埋め込み次元数(embedding dimension) ! 予測対象単語(target word) " 文脈単語(context word) ℇ 全語彙集合(All vocaburary set) ! 予測単語埋め込みベクトル(target word embedding) " 文脈単語埋め込みベクトル(context word embedding) 全予測単語埋め込み行列(All target word embedding)(#×%) 全文脈単語埋め込み行列(All context word embedding)(#×%) 確率単体(Probability simplex in %)
  4. PMIベクトルが張る平面 4 The Power of PowerPoint - thepopp.com n !

    , " = log # $!,&" # &" # $! = log # " ! #($!) n PMIベクトル: ! = log # $!|&" # $! $!∈ℇ = log # ℇ ! # ℇ = log = ただし、 = ℇ ∈ = ℇ ∈ n このが張る平面と呼び、 とする。 l はすべてのターゲット単語で、 上にあることに注意
  5. PMIベクトルが張る平面の性質 5 The Power of PowerPoint - thepopp.com n やの部分平面は非線形:線形な空間のlogを取っているため

    n は0点を含む:仮想的にnull word∅を取ると、 ∅ = log # ℇ ∅ # ℇ = n はとで直交する n は、全要素が正or負の象限と交差しない。よって、PMIベクトルは 等方的ではない。 n 2点,’の和が上にあるためには、特定の条件を満たす必要がある
  6. まとめ 6 The Power of PowerPoint - thepopp.com n PMIベクトルが張る平面の性質を示した

    n PMIベクトルによって、類似度、言い換え、類推の関係を示した n 単語ベクトルがPMIの非線形写像由来であることを示し、線形写像 にした方がPMIベクトルの性質をよく保存できることを提案 l 線形写像になり、PMIベクトルの類似度、言い換え、類推の演算が保存されるため l 線形写像の場合で、単語ベクトルと文脈ベクトルの関係を示した l 線形写像かつ文脈ベクトルを使った方が、関連度、類似度、アナロジーのタスクの精度 が良いことを示した l 単語ベクトルと文脈ベクトルの平均を使うと良いというヒューリスティクスの根拠を示 した n 単語ベクトルでよく使う計量について、考察した
  7. PMIベクトルによる類似度・言い換え・類推の関係 7 The Power of PowerPoint - thepopp.com n PMIベクトルが他単語とのグローバルな関係保持している

    n 類似度(similarity)=1単語ずつのグローバルな関係が似ている = ℇ ! )と ℇ " )が類似している(これはKL-Divergenceで測れる) n 言い換え(Paraphrase)=1つの単語と複数の単語群のグローバルな関係が 似ている= ℇ ! )と ℇ ) = " | = 1, … , が類似している n 類推(Analogy)=複数の単語群同士のグローバルな関係が似ている
  8. PMIベクトルによる類似度 8 The Power of PowerPoint - thepopp.com n 以下の式より、PMIベクトルの差について、要素ごとに確率で重み

    付けるとKL divergenceになる。 !," = − " = log ℇ ! ℇ " , ! 0!," = G 1∈ℇ ℇ ! log ℇ ! ℇ " = (! |" ) n よって、PMIベクトルの差の要素和をKL divergenceの代替とみなせば、 これが2単語の類似度となる n また、先ほどの性質より、! はと直交しているので、 ! 0!,"は "を! 方向に射影している
  9. PMIベクトルによる言い換え 9 The Power of PowerPoint - thepopp.com n 今、

    = ! , " とする。この時、この単語群が想起する分布(ℇ|! , " )を考え ると、以下の関係がある ! + " = log ℇ ! ℇ + log ℇ " ℇ = log ! ℇ " ℇ ! (" ) = log !, " ℇ (!, ") − log !, " ℇ ! ℇ " ℇ + log !, " ! " = !," − !," − !," = log (ℇ|!, ") (ℇ) − !," − !," ただし、 !," = log $ !, " ℇ $(&!,&") , !," = log $ !, " ℇ $ ! ℇ $ " ℇ , !," = log $ &!,&" $ &! $ &" n よって、PMIベクトルの和がある単語と言い換え可能な単語群を作りうるという こと n よって、2単語! , " が独立(!,"=0)かつコンテキストから条件付き独立(!," = ) ならば、ある単語群と言い換え可能な単語は、 !,"ともっとも類似度が高い単 語となる。また、その時!,"は上にある。逆に、PMIベクトルの和がから離 れる場合は、単語同士に従属性がある場合。また、それが誤差になる。
  10. PMIベクトルによる類推 10 The Power of PowerPoint - thepopp.com n 類推関係は、”2

    is to 2∗as 3 is to 3∗” n PMIベクトルは、言い換え関係の通り、以下の関係が成立しうる 2 + 3∗ ≈ 2∗ + 3 n よって、変形すると類推関係がPMIベクトルで成立すること 3∗ ≈ 2∗ − 2 + 3
  11. まとめ 11 The Power of PowerPoint - thepopp.com n PMIベクトルが張る平面の性質を示した

    n PMIベクトルによって、類似度、言い換え、類推の関係を示した n 単語ベクトルがPMIの非線形写像由来であることを示し、線形写像 にした方がPMIベクトルの性質をよく保存できることを提案 l 線形写像になり、PMIベクトルの類似度、言い換え、類推の演算が保存されるため l 線形写像の場合で、単語ベクトルと文脈ベクトルの関係を示した l 線形写像かつ文脈ベクトルを使った方が、関連度、類似度、アナロジーのタスクの精度 が良いことを示した l 単語ベクトルと文脈ベクトルの平均を使うと良いというヒューリスティクスの根拠を示 した n 単語ベクトルでよく使う計量について、考察した
  12. 単語ベクトルがPMIの非線形変換由来であること 12 The Power of PowerPoint - thepopp.com n Levy

    and Goldberg(2014)によるSkipgram-Negative Samplingのloss = ∑!() * ∑"() * # ! , " log ! +" + , - # ! # " log −! +" ただし、#(⋅)は出現数, (⋅)シグモイド関数 n ! で微分し、Dで割る 1 ∇! = A "() * #(!, ") 1 − ! +" ! +" " (! +") + #(! ) #(") 1 − −! +" −! +" (−" ) (−! +") = A "() * ! , " − ! , " + ! " " = " ! ! , " − = () () ただし、 " ! = ! , " + ! " , ! , " = " ! ! , " , = ! , = !, " −
  13. 単語ベクトルがPMIの非線形変換由来であること 13 The Power of PowerPoint - thepopp.com 1 ∇"

    = () () n これは、非線形関数で写像したと0の誤差() を、 () で 確率重み付けして、の行に射影している。 n なお、Levy and Goldberg(2014)では、最適解で0 = ∈ 5×5 が示されているが、これはWとCのrankがと同等である必要が あり、d<<nなので、その可能性は低いとしている
  14. 線型写像による単語ベクトル 14 The Power of PowerPoint - thepopp.com n 最小2乗を損失として、PMIを分解すれば、単語ベクトルは線形写像

    n 何故ならば、789 = : ; ∑!<: 5 ∑"<: 5 ! 0" − ! , " ; ⇔ ∇ 789 = 0 − 0 = ⇔ = #, ただし、 # = 0 0 ?: n これは、線形写像なので、PMIでの四則演算の結果が単語ベクトル でも保持されるため、意味的に解釈可能になる。
  15. 行列分解による解釈と単語ベクトル・文脈ベクトルの関係 15 The Power of PowerPoint - thepopp.com n =

    と分解できる(は対称行列であるため)。ただし、 , ∈ 5 × 5, = 。 n この時、固有値の絶対値が大きい順にd次元を取って、 ∈ A×5, ∈ A × 5とする。この時、 ≈ 。さらに、 = BB, B = , B = ()とする。 n この時、 = ,% &とおくと、 ≈ B。よって、 = Bとお けば、 ≈ 。 n 以上より、 ≠ but = ± (iは行を表す)。つまり、行で符号だ けが異なる。(つまり、今まで仮定されていた = は間違い) n また、この分解は最小2乗損失を最小にする。
  16. 文脈ベクトルを使った方が精度が良い 16 The Power of PowerPoint - thepopp.com n 内積について、以下の関係成立。よって、内積は2単語のPMIを表し、

    関連度である。また、理論上単語ベクトルとコンテキスト単語ベク トルの内積を使う方が、PMIからの誤差が減る ・! 0" = 0! " = !," − !," ・! 0" = 0! B" = 0! − − B = !," − !," − 2!," なお、 = − 0 = 0、 = 0 ?' ; と置く。 (, はそ れぞれ, で使用しなかった − 次元分)
  17. 関連度、類似度、類推のタスクの精度が良い(実験設定) 17 The Power of PowerPoint - thepopp.com n 単語ベクトル学習コーパス:

    text8 data set(Mahoney 2011) n タスク l relatedness & similarity: WordSim353(Agirre et al 2009, Finkelstein et al 2001)に対して、cos- simでrankingし、spearman順位相関係数で評価 l Analogy: Google’s analogy data set(Mikolov et al 2013)に対して実施。”a is to b as c is to d?”の dを当てるために、2 3 − 4 − 5 + 2 を計算し、その正解率で評価。 n 各種パラメータ l 単語ベクトル次元=500 l epoch≤ 100 l 学習率=0.01(LSQ), 0.007(W2V) n 各種処理 l PMIで値がないものは-1を入れた(Pennington et al 2014と同様)。 l 出現回数5回以下の単語はフィルタした。 l ネガティブサンプリングで(Mikolov et al 2013)と同様のダウンサンプリングした。
  18. 結果 18 The Power of PowerPoint - thepopp.com n 一貫して、LSQの方が良い.

    n ≠ とした方が、一貫して良い(LSQ)
  19. 単語ベクトルと文脈ベクトルの平均を使う 19 The Power of PowerPoint - thepopp.com n 単語ベクトルと文脈ベクトルの平均を

    = F ; とおく。この時、 ! 0" = 0! B′′" = 0! − ?' = !," − !," − !," ただし、′′ = F' ; n よって、単語ベクトルの場合よりも、 !," 分PMIからの誤差が少なく なる。
  20. まとめ 20 The Power of PowerPoint - thepopp.com n PMIベクトルが張る平面の性質を示した

    n PMIベクトルによって、類似度、言い換え、類推の関係を示した n 単語ベクトルがPMIの非線形写像由来であることを示し、線形写像 にした方がPMIベクトルの性質をよく保存できることを提案 l 線形写像になり、PMIベクトルの類似度、言い換え、類推の演算が保存されるため l 線形写像の場合で、単語ベクトルと文脈ベクトルの関係を示した l 線形写像かつ文脈ベクトルを使った方が、関連度、類似度、アナロジーのタスクの精度 が良いことを示した l 単語ベクトルと文脈ベクトルの平均を使うと良いというヒューリスティクスの根拠を示 した n 単語ベクトルでよく使う計量について、考察した
  21. 単語ベクトル演算とPMIベクトルの関係 21 The Power of PowerPoint - thepopp.com n 差の要素和について、以下の関係が成立する。よって、差の要素和

    は2単語の類似度を表し、KL divergenceの近似値である。 ・ ! − " 0 = ! − " # = log # ℇ ! # ℇ " B?% &B なお、 # = 0 0 ?: = 0B B BB B B = B?% &B ・著者は、 B?% &Bによって外れ値をdown weightしていると予想 n ユークリッド距離は、 ! − " ; = log # ℇ ! # ℇ " # となり、明示的 な意味は不明 n Cos類似度も、式からは明示的な意味は不明。内積があるので、関連 度と類似度の混ざったような指標と推測
  22. 感想 22 The Power of PowerPoint - thepopp.com n 面白かった点

    l 差の要素和が、KL divergenceになりうる点 l 類似度、言い換え、類推が全てPM由来である点(=分布仮説はPMIでよく表せる点) l 加法構成性とそのずれについて示されていた点 n 類似度は差の要素和と主張して、何故それで実験していない?
  23. まとめ 23 The Power of PowerPoint - thepopp.com n PMIベクトルが張る平面の性質を示した

    n PMIベクトルによって、類似度、言い換え、類推の関係を示した n 単語ベクトルがPMIの非線形写像由来であることを示し、線形写像 にした方がPMIベクトルの性質をよく保存できることを提案 l 線形写像になり、PMIベクトルの類似度、言い換え、類推の演算が保存されるため l 線形写像の場合で、単語ベクトルと文脈ベクトルの関係を示した l 線形写像かつ文脈ベクトルを使った方が、関連度、類似度、アナロジーのタスクの精度 が良いことを示した l 単語ベクトルと文脈ベクトルの平均を使うと良いというヒューリスティクスの根拠を示 した n 単語ベクトルでよく使う計量について、考察した
  24. 参考文献 24 The Power of PowerPoint - thepopp.com n Eneko

    Agirre, Enrique Alfonseca, Keith Hall, Jana Kravalova, Marius Pa¸sca, and Aitor Soroa. A study on similarity and relatedness using distributional and wordnet-based approaches. In North American Chapter ofthe Association for Computational Linguistics, 2009. n Lev Finkelstein, Evgeniy Gabrilovich, Yossi Matias, Ehud Rivlin, Zach Solan, Gadi Wolfman, and Eytan Ruppin. Placing search in context: The concept revisited. In International Conference on World Wide Web, 2001 n Omer Levy, Yoav Goldberg, and Ido Dagan. Improving distributional similarity with lessons learned from word embeddings. Transactions ofthe Association for Computational Linguistics, 2015. n Matt Mahoney. text8 wikipedia dump. http://mattmahoney.net/dc/textdata.html, 2011. [Online; accessed May 2019]. n Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781, 2013. n Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, and Jeff Dean. Distributed repre- sentations of words and phrases and their compositionality. In Advances in Neural Information Processing Systems, 2013 n Jeffrey Pennington, Richard Socher, and Christopher Manning. Glove: Global vectors for word representation. In Empirical Methods in Natural Language Processing, 2014.
  25. Appendix 25 The Power of PowerPoint - thepopp.com

  26. PMIベクトル平面の性質の証明 26 The Power of PowerPoint - thepopp.com n はとで直交する

    (説明) , = = 1 " = < 0 ≠ − G "<: 5?: " ? ∀, = よって、 =
  27. PMIベクトル平面の性質の証明 27 The Power of PowerPoint - thepopp.com n は、全要素が正or負の象限と交差しない。よって、PMIベクトルは

    等方的ではない。 (説明) (ℇ|! )と(ℇ)を比べると、どちらも要素の和が1なので、ど ちらかの要素が全て片方より大きいor小さいということはない。 よって、全要素が正or負の象限と交差しない。 n 2点,’の和が上にあるためには、特定の条件を満たす必要がある (説明) + B = log ⨀B ⨀ = log ⨀' /, よって、 ⨀' # L = L ′ = 1で あれば、 + B ∈ となる。B = 1より、 − B = 0であれば 良い。よって、 − とBが直交していると良い。
  28. 28 The Power of PowerPoint - thepopp.com