NIPS2013読み会 "Distributed Representations of Words and Phrases and their Compositionality"

Distributed Representations of Words and Phrases and their Compositionality （株）Preferred
Infrastructure 海野　裕也 (@unnonouno) 2014/01/23 NIPS2013読み会@東京大学

⾃自⼰己紹介 l  海野　裕也 (@unnonouno) l  Preferred Infrastructure (PFI) l  Jubautsプロジェクトリーダー
l  http://jubat.us l  専⾨門 l  ⾃自然⾔言語処理理 l  テキストマイニング 2

概要 l  MikolovのICLR2013（word2vec）の続編 l  Berlin – German + France =
Paris!! l  計算をサボって速くしたら、何故か結果も良良くなった話 l  Before: ⽇日単位でかかっていた l  After: 15~30分 3

word2vec [Mikolov+13] l  各単語の「意味」を表現するベクトルを作るはなし l  vec(Berlin) – vec(German) + vec(France)
と⼀一番近い単語を探したら、vec(Paris)だった l  ベクトルの作り⽅方は次のスライドで説明 4 Berlin German France Paris!!

Skip gramモデル[Mikolov+13]の⽬目的関数 l  ⼊入⼒力力コーパス: w 1 , w 2 ,
…, w T 　（w i は単語） 5 これを最⼤大化 vw は単語wを表現するようなベクトル（適当な次元）で、これらを推定したい cは文脈サイズで5くらい

問題点 l  語彙数が多すぎて∑の計算が⼤大変 l  W = 105 ~ 107 l 
いかに効率率率よく計算をサボるかがこの論論⽂文の主題 6 [Mikolov+13]より

Hierarchical Softmax (HS) [Morin+05] l  単語で⽊木を作り、ルートからその単語までの各ノードのベクトルと内積をとり、そのシグモイドの積にする l  計算量量が単語数の対数時間になる 7
りんごみかんカレーラーメン n1 n2 n3 各ノードのベクトルルートからw までの全ノードで積をとる σ(x)=1/(1 + exp(-x))

Noise Contrastive Estimation (NCE) [Gutmann +12] l  本題から外れるので割愛 l  Softmaxによる分布を近似するらしい
8

Negative Sampling (NEG) （提案⼿手法1） l  NCEをもっとサボった上式を使う l  ∑の中の期待値計算は、k個のサンプルを取って近似する l  データが少ない時は5~20個、多ければ2~5個で充分
l  P(w)として、1-gram頻度度の3/4乗に⽐比例例させたときが⼀一番良良かった 9 log P(wo |wI ) =

頻出語のサブサンプリング（提案⼿手法2） l  “a”や”the”などの頻出語をうまくモデル化してもしょうがないので、頻度度をディスカウントする l  tは適当な閾値（10-5くらい）、f(w)は単語頻度度 l  もはやPとは何だったのか・・・ 10

実験結果 l  [Mikolov+13]でやったanalogical reasoning taskで評価 l  vec(Berlin) – vec(Germany) +
vec(France)の近傍探索索で vec(Paris)を⾒見見つける l  NEGがHierarchical SoftmaxやNCEよりも⾼高精度度 l  サブサンプリングも効果的 11 小さい方がいい大きい方がいい

複合語の実験 l  適当なスコア関数（上式）の⾼高いものを複合語として取ってくる（δは適当なディスカウント係数） l  あとは同様に実験 l  単語と複合語のスコアからどうやって⽬目的関数を設計したかはちゃんとかかれてない・・・？ 12

複合語の実験結果 l  サブサンプリングなしだとNEGがいいが、ありだとHS の⽅方がとたんに良良くなる l  データセットとベクトルの次元を増やすとどんどんよくなる l  最終的に72%の精度度まで上がった 13

意味の⾜足し算 l  単純に2つの単語のベクトルを⾜足すと複合的な意味の単語が⾒見見つかる l  2つの単語の両⽅方と頻出しやすい単語を探していることになるからでは（AND検索索っぽく振る舞う） 14

議論論 l  このベクトルは何を⽰示しているのか？ l  Softmaxをとると何がおこるのか？ l  ベクトルのたし引きは何を⽰示しているのか？ l  Distributional Hypothesisの実現？
l  words that occur in the same contexts tend to have similar meanings (wikipedia) 15

参考⽂文献 l  [Mikolov+13] Tomas Mikolov, Kai Chen, Greg Corrado, and
Jeffrey Dean. Efficient estimation of word representations in vector space. ICLR 2013. l  [Morin+05] Frederic Morin and Yoshua Bengio. Hierarchical probabilistic neural network language model. AISTATS 2005. l  [Gutmann+12] Michael U. Gutmann and Aapo Hyvarinen. Noise-Contrastive Estimation of Unnormalized Statistical Models, with Applications to Natural Image Statistics. JMLR 2012. 16

NIPS2013読み会 "Distributed Representations of Wor...

NIPS2013読み会 "Distributed Representations of Words and Phrases and their Compositionality"

Yuya Unno

More Decks by Yuya Unno

Other Decks in Research

Featured

Transcript

Distributed Representations of Words and Phrases and their Compositionality （株）Preferred

⾃自⼰己紹介 l  海野　裕也 (@unnonouno) l  Preferred Infrastructure (PFI) l  Jubautsプロジェクトリーダー

概要 l  MikolovのICLR2013（word2vec）の続編 l  Berlin – German + France =

word2vec [Mikolov+13] l  各単語の「意味」を表現するベクトルを作るはなし l  vec(Berlin) – vec(German) + vec(France)

Skip gramモデル[Mikolov+13]の⽬目的関数 l  ⼊入⼒力力コーパス: w 1 , w 2 ,

問題点 l  語彙数が多すぎて∑の計算が⼤大変 l  W = 105 ~ 107 l

Hierarchical Softmax (HS) [Morin+05] l  単語で⽊木を作り、ルートからその単語までの各ノードのベクトルと内積をとり、そのシグモイドの積にする l  計算量量が単語数の対数時間になる 7

Noise Contrastive Estimation (NCE) [Gutmann +12] l  本題から外れるので割愛 l  Softmaxによる分布を近似するらしい

Negative Sampling (NEG) （提案⼿手法1） l  NCEをもっとサボった上式を使う l  ∑の中の期待値計算は、k個のサンプルを取って近似する l  データが少ない時は5~20個、多ければ2~5個で充分

実験結果 l  [Mikolov+13]でやったanalogical reasoning taskで評価 l  vec(Berlin) – vec(Germany) +

複合語の実験結果 l  サブサンプリングなしだとNEGがいいが、ありだとHS の⽅方がとたんに良良くなる l  データセットとベクトルの次元を増やすとどんどんよくなる l  最終的に72%の精度度まで上がった 13

意味の⾜足し算 l  単純に2つの単語のベクトルを⾜足すと複合的な意味の単語が⾒見見つかる l  2つの単語の両⽅方と頻出しやすい単語を探していることになるからでは（AND検索索っぽく振る舞う） 14

議論論 l  このベクトルは何を⽰示しているのか？ l  Softmaxをとると何がおこるのか？ l  ベクトルのたし引きは何を⽰示しているのか？ l  Distributional Hypothesisの実現？

参考⽂文献 l  [Mikolov+13] Tomas Mikolov, Kai Chen, Greg Corrado, and