Upgrade to Pro — share decks privately, control downloads, hide ads and more …

NIPS2013読み会 "Distributed Representations of Words and Phrases and their Compositionality"

Yuya Unno
January 23, 2014

NIPS2013読み会 "Distributed Representations of Words and Phrases and their Compositionality"

Yuya Unno

January 23, 2014
Tweet

More Decks by Yuya Unno

Other Decks in Research

Transcript

  1. Distributed Representations of Words and Phrases and their Compositionality (株)Preferred

    Infrastructure 海野  裕也 (@unnonouno) 2014/01/23 NIPS2013読み会@東京大学
  2. ⾃自⼰己紹介 l  海野  裕也 (@unnonouno) l  Preferred Infrastructure (PFI) l  Jubautsプロジェクトリーダー

    l  http://jubat.us l  専⾨門 l  ⾃自然⾔言語処理理 l  テキストマイニング 2
  3. 概要 l  MikolovのICLR2013(word2vec)の続編 l  Berlin – German + France =

    Paris!! l  計算をサボって速くしたら、何故か結果も良良くなった話 l  Before: ⽇日単位でかかっていた l  After: 15~30分 3
  4. word2vec [Mikolov+13] l  各単語の「意味」を表現するベクトルを作るはなし l  vec(Berlin) – vec(German) + vec(France)

    と⼀一番近い単 語を探したら、vec(Paris)だった l  ベクトルの作り⽅方は次のスライドで説明 4 Berlin German France Paris!!
  5. Skip gramモデル[Mikolov+13]の⽬目的関数 l  ⼊入⼒力力コーパス: w 1 , w 2 ,

    …, w T   (w i は単語) 5 これを最 ⼤大化 vw は単語wを表現するようなベクトル(適当な次元)で、 これらを推定したい cは文脈サイズで5くらい
  6. 問題点 l  語彙数が多すぎて∑の計算が⼤大変 l  W = 105 ~ 107 l 

    いかに効率率率よく計算をサボるかがこの論論⽂文の主題 6 [Mikolov+13]より
  7. 実験結果 l  [Mikolov+13]でやったanalogical reasoning taskで評価 l  vec(Berlin) – vec(Germany) +

    vec(France)の近傍探索索で vec(Paris)を⾒見見つける l  NEGがHierarchical SoftmaxやNCEよりも⾼高精度度 l  サブサンプリングも効果的 11 小さい方がいい 大きい方がいい
  8. 参考⽂文献 l  [Mikolov+13] Tomas Mikolov, Kai Chen, Greg Corrado, and

    Jeffrey Dean. Efficient estimation of word representations in vector space. ICLR 2013. l  [Morin+05] Frederic Morin and Yoshua Bengio. Hierarchical probabilistic neural network language model. AISTATS 2005. l  [Gutmann+12] Michael U. Gutmann and Aapo Hyvarinen. Noise-Contrastive Estimation of Unnormalized Statistical Models, with Applications to Natural Image Statistics. JMLR 2012. 16