Efficient Estimation of Word
Representations in Vector Space
Tomas Mikolov, Kai Chen, Greg Corrado and
Jeffrey Dean, ICLR 2013
※εϥΠυதͷਤදશͯจ͔ΒҾ༻͞Εͨͷ
খொक
komachi@tmu.ac.jp
Deep Learning ษڧձ@टେֶ౦ژ
2014/12/01
ϑΟʔυϑΥϫʔυNNLM
ʹ͓͚Δύϥϝʔλͱܭࢉྔ
| Bengio et al. (JMLR 2003)
{ ೖྗ: N ݸલʢͨͱ͑N=10ʣ·Ͱͷ୯ޠʢ1-
of-Vදݱ; V=ޠኮʣ
{ ࣹӨ: P; NºD࣍ݩʢ500ʙ2000࣍ݩʣͷڞ༗ࣹ
Өߦྻ
{ ӅΕ: Hʢ500ʙ1000࣍ݩʣ
{ ग़ྗ: V࣍ݩ
| ֤܇࿅ࣄྫ͋ͨΓͷܭࢉྔ
Q = N º D + N º D º H + H º V
→V Λ2Ͱදݱ͢Ε͜ͷ෦ log(V)
→ܭࢉྔͷϘτϧωοΫ N º D º H ͷ෦
6
Slide 7
Slide 7 text
ϑΟʔυϑΥϫʔυNNLM
ͷܭࢉྔݮํ๏
| ֤܇࿅ࣄྫ͋ͨΓͷܭࢉྔ
Q = N º D + N º D º H + H º V
→V Λ2Ͱදݱ͢Ε͜ͷ෦ log(V)
→ܭࢉྔͷϘτϧωοΫ N º D º H ͷ෦
| ߴԽͷख๏
{ softmaxؔΛ֊Խ
{ Ϟσϧͷਖ਼نԽΛ͠ͳ͍
| HuffmanΛߏங͢Δ͜ͱʹΑΓɺԼઢ෦
log(Unigram_perplexity(V))
→100ສޠኮͷ߹ɺ2ഒ
7
Slide 8
Slide 8 text
աڈͷཤྺΛߟྀͰ͖ΔRNNLM
| ճؼχϡʔϥϧωοτϫʔΫʹجͮ͘ݴޠϞσ
ϧʢrecurrent neural net language modelʣ
{ ೖྗ
{ ࣹӨ: ͳ͠
{ ӅΕ: ࣌ؒԆͷ͋ΔଓʹΑΔճؼߦྻΛ
͍࣋ͬͯΔ
→ظهԱɻҎલͷঢ়ଶͰݱࡏͷঢ়ଶΛߋ৽
{ ग़ྗ
| RNNϞσϧͷܭࢉྔ
Q = H º H + H º V
→V2ͰߴԽͰ͖ΔͷͰɺϘτϧωοΫ
H º H 8