Statistical Semantic入門〜分布仮説からword2vecまで〜 @PFIセミナー

Statistical Semantic¨Ŭ ~ǔǮũ!Lword2vecC8~ ĤĸPreferred Infrastructure óµ ǧǺ (@unnonouno) 2014/02/06 PFIZg^k

ǕǿŽ !  óµǧǺ (@unnonouno) !  ƞŬ !  ƓüūŋÌ !  m[eo|Vr]
!  đúÌĔIBMċȀųPFI /

ĻƑ=g}q 0

1 Semantics

¨ŬƓüūŋÌ [Bird+10] 10Ǵ ī=ßƜ=Đǲ 10.1 ƓüūÌĐ 10.2 ŹøŅÌÒ 10.3 ƳƐūŅÌ
10.4 Əūī=ßƜŅ 10.5 ŵõßƜŅ 10.6 C9F 10.7 ņěīǟ 10.8 ǀǃáø 2

ƓüūŋÌƬưǝƼhwoWXTƪÒ [Ƃ +96] 5. ßƜĐǲ 5.1 ßƜĐǲ9> 5.2 ÄǣÞŚ<ċ6%ßƜ°Ș ȗäĐŗ
5.3 ÊŸ¸Į<ċ6%ßƜ°Ș ȗäĐŗ 5.4 0=Ƹ=áø 3

@9%3<ßƜŅ9ü47Gm|>ƅ !  Ü;ßƜŅWikipediaKM !  æǲ !  ¤æßƜŅ !  žĸßƜŅ ! 
ȄŲßƜŅ !  ĒēßƜŅ 4 '=Ʀ=õ>*C.S

À=ÆƩ !  Statistical Semantics<¸Ê,Novk\<5 7ǭ%ę%C9FN !  ȋ5!=őů>ǎ<Statistical Semantics= Ǝ9*7>ūLO7;!G*OC.S ! 
ǎ=ßƜŅ>Ǭȏ*C.S 5

Statistical Semantics9Distributional Semantics =Ū> !  (FS Q!LS!41 !  ľ>§+G=29Ġ47C, ! 
ľ=ŪRē47Nª1LĜ7½) 6

ņǩÈį [Evert10] Ü<NAACL2010=Stefan EvertL=Distributional Semantic Models=joTRņě<*7C, .-

áø???=ƹū>Ŷ8*J .. [Evert10]KM aj]n=H#I& H(+P#?C8N

áø???=ƹū>Ŷ8*J ./ [Evert10]KM aj]2ncatJpigE(&;C8C7knifeECF8

ìĐdog .0 [Evert10]KM

ǔǮũ (Distributional Hypothesis) !  §+īȍ8é,Nƹū>§+ßƜRû59'9 !  À=õ> Ń;!L-'=ǮũR÷Í*7N¸Ê *7NÁÎǎRǦC, .1
The Distributional Hypothesis is that words that occur in the same contexts tend to have similar meanings (Harris, 1954). (ACL wiki )

ŔĀ°ßƜŅ (Statistical Semantics)9> !  ū=ŔĀ°;äŨ!LßƜRěN !  Ȕ:= " %=ŔĀ°;äŨR÷Í,N
.2 Statistical Semantics is the study of "how the statistical patterns of human word usage can be used to ﬁgure out what people mean, at least to a level sufficient for information access”(ACL wiki )

ū=ßƜ9 īȍ=¸Į .3 &H I ) GKBC>ON &H GKBC )
;>ON 0L%ľªì*

':G>:I47ßƜRÒS8N=! [Àč 13] !  ]xwlG\k bG 5#)C !  ƌ9ƃ*!ēL; ²Ż<ǰƾR¡.1L
!  ^RēL;²Ż> ŕ8q_9 .4 Ƹ=`ot9=¸Į"

ĝĽ°<8#0;'9 !  §ŞūĢ©ūƱŞū !  ū9ū=ßƜ=¸ĮRǦNK<;N !  ąŞū !  īȍ<ŉ+7 :=ßƜ8ħQO7N=!"Q!
N !  ƻēū´ū !  ƯƦīȍ!L ƻē=ƹū=ßƜ"ƱƘ8#N !  Ǿū !  ƿ;Nüū®8©ŉ,Nƹū=¸Į"¿L!< .5

;/'=õR,N=! !  ļĳ;ĜƲđúRŀÝ9*;1F üūn i)O?ƷÍ8#N !  PFI=ŦĴ=Ǎ&7N³Rśƽ*7%ON! G*O; !  ćǶ`p=§ŞūƤŮūŞȘȗäĐŗ
!  īĦƱ< &NĜƲni=Öŕ !  ąüūćǶ<ŀÝ;ǾūǛĦ !  '=1=®<ÆǂC*æĨ"úġ)O7N .6

Ǫȉ<>35=ŋÌR !  üūŋÌ°;ŋÌR !  ex: ĪÍRȖ, īſËīſ ǚū etc… ! 
ƹūRīȍ<K47Ôé,N !  ex: īĦ±ķŜ ī±ķŜ ǯƗǸ ƹªòǞªò ĮMî& ÓȌ-Æ°ū¸Į etc… !  ƹūÔéRC%Ôé*ĝ, !  ex: Ǔye ĬŊye NNye etc… !  ǱƛȐÂ ĬŊn NNnGƅ /-

ȈŁßƜĐǲ: Latent Semantic Indexing (LSI), Latent Semantic Analysis (LSA) [Deerwester+90]
!  đúćǶ=`}rmU8¤CO1 !  9 :'=ÈįRǘS8GŶƚ!ãÏ)O7 N%LćǶ9üūŋÌ>ǜ"ƍ !  ƹūR 0=ƹū"é*7NīĦĿ9* 7Ô, !  '=ƹūy\o>#49ȓ;=8ĚĎƭĄ 8#N /.

LSI=ƙĐ // ńƹū":=īĦ<Ŷ ¶7N=!=Ǔ U ∑ V = x x
(SVD) i k: KM>8 ƹūiRkĚĎ8Ôé *7N &

LSI=[j !  ƹū=ßƜ>īȍy\o8ºCN !  ''8>īȍ9>īĦ±ȑÂ='9 !  ÇĈ>Ǔ=ėMª>Ĕŭ=*:'P¬Ɛ !  īȍy\o>ȓ;=8SVDRħ47 G4
9ţĚĎ=y\o8Ôé8#N>- /0

īȍy\o=ėMªO'O !  ƹū-īĦǓ ƹū-ƹūǓ etc. !  ī±ķŜ ǯƗǸbVf ƥƫ=İĳ etc.
!  ĮMî&¸Į ÓȌ-Æ°ū¸Į Šīù=Ɖ ²¸Į etc. /1

żīȍǫǐ=Ū<KNŐȁ /2 E:,E: Vj_iE:`ckE:

Ü<5=ëÉ=ªòä /3 LSI PLSI LDA NMF NNLM %&h\i "$ NN
RNNLM Skip- gram NTF

üūnƢ !  LSIƠ=ĬŊ°üūn90=ëÉƢ !  Ü<īǴ=ovk\9 ovk\!L=ƹū"¤æ)O N'9RnÉ,Novk\n9*7ëÉ Good !  ƟĖÿƩ"ǹ*7
M ÇŴƟĖ*I, !  Ƹ=ĬŊn9ýDQ.I, Bad !  ĀĲ"þ1 /4

0=< ĬŊ°üūn9> !  `ot>NĬŊǔ!Lbx])O7N 9Ǯ¯,N !  ơǒ)O11%)S=m[eoni!L G9=`o t=ǔRƘ¯,N ! 
:=K;ĬŊǔRçĀ,N! :=K<ƀŊ°< ǔRƘ¯,N!"ǵ=¡.:'P /5 ī

ĬŊ°ȈŁßƜĐǲ Probabilistic Latent Semantic Indexing (PLSI) [Hofmann99] !  LSI9Ʊǽ=ßƜĵ&"8#NK;n ! 
ovk\<K47ƿ;Nƹū"I, !  ex: e{l;LµĺbkZı¾ £ Ć;LŔŷÄť;: !  Vd9*7> LSI8ƹūRţĚĎ<Ŏ9* 1=9§ƅ< ƹūGīĦGovk\=ĿCM 9Ġ47ĬŊn<;NK<çĀ /6

PLSI=GŃ*3HS9*1ũ¿ !  ńīĦ<>ovk\=ǔ"ºC47N !  ex: bkZ9óâ=õø"I, D1;Ȋǐè !  ńƹū<©*7 ! 
ovk\ǔ<Ʈ475ovk\RºFN !  0=ovk\!LƹūR@95ºFN !  'ORǑMŢ*7īĦ"¤æ)O19Ġ 0-

Latent Dirichlet Allocation (LDA) [Blei03] !  PLSI=ëÉƢ !  PLSI8>ńīĦ=ovk\ǔ"ǉ¯241" LDA8>'OG¤æ).3H
0.

LDA>:S:SëÉ*7% !  ovk\n9µRǖ# ÙGþ Ý;NLPTaf~=159*7ðLO7 N !  ĶǠ;: üūñâ=ni<GŉÍ)O7 N
!  ûŧĂ¤I ĥ¦)S=ÈįRņǩ*7½) 0/

üūnƢÁ=Řå !  ĬŊn;=8Ƹ=ĬŊ°Á9Ñä"Ř !  ĬŊƄ=ǳ&Ĳ<Ɠ;ßƜĵ&"8#N !  ex: ŔĀ°đúćǶ ŔĀ°×ȆȒǾ etc.
!  ƟĖªÁ"Ĭ¹)O7N !  Řǔ"Ƙ¯)O7N=8O? éÇ=Ɠ ī=ĬŊ"¥%;47N>- !  ăï"ŀ-1.0<;NK<Ïš)O7N1F e `TĬŊ=Ǘ©Ƅ<ßƜ"N 00

ǓĐƢ !  ƹū=īȍǓN>mhRėM ţ\8ĕǽ,N !  Ydq=LSIGSVDR÷Í*7N Good !  ǓĐ=m\rk\"0=CCħN Bad
!  ßƜĵ&R,N="Ű* !  ĬŊn9*7ħ;1F Ƹ=ŉÍ9= Ɖïä"ţ 01

Non-negative Matrix Factorization (NMF) [Lee +99] !  ¼ş=SVD87%Nœ=Įð=ßƜĵ&"Ű* !  ì=Ƅ<;NK;ÞÐ=G98ǓRĐ,N
!  ĊĨ"eue<;M ßƜGØMI,"ą 02 3HS9ŠæÝǋ<Đ)O7N [Lee+99]KM

NMF = PLSI [Dinga+08] !  NMF9PLSI> Ç>§+Æ°¸ð8N'9"¬< !41 !  ĳ<¢¿)O1Á"Ç>§+ßƜRû471'9
"=3<;47Q!N'9>Ƶş<ą 03 FQEF<CN NMF PLSI

Non-negative Tensor Factorization (NTF) [Cruys10] !  Ǔ2935ñ=¸ĮR¨OLO; !  2ĚĎ;S7ü47;83ĚĎ<*7 mh
Đ*K 04

ǓĐƢÁ=Řå !  Ǔm\rk\"0=CCħCQ.N !  ƋǗ¥ƇSVDTaf~"N9 0=CCĐǲ "¥Ƈ<;N 05

rsko\Ƣ !  ƹū=y\oÔéRrsko8Òǃ !  Ùĕ=word2vecŅī8ŏ<õø<Üơ8, Good !  ƱǽÂñ=ßƜ=Ny\oÔé"ÇŴ°<ďLO 1C2K%!47;)0 Bad
!  ĀĲ"ł ÇǇGł0 !  ƾK%Q!L; 06

Neural Network Language Model (NNLM) [Bengio +03] !  N]~üūnR NNÉ
!  ÊêN-1īſ!L Ě =īſRÛ7NĬŊ n=rsk oRŠǖ,N 1-

Recurrent Neural Network Language Model (RNNLM) [Mikolov+10] !  t-1īſǘS29#=Œŝ Ry\oÉ*7
tīſÆR 0=Œŝ!LÛ7N !  NNLM8>ĝNīſ=y\o !LĚRÛ771 !  ĝC8=īȍđú"ǡFĉ CO7NȊǐè !  http://rnnlm.org 1. īſ ƹū «Ǚ =ǤOǏ ǤOǏ Ě=¨» =āǒ `v

RNNLM8Òǃ)O1Ôé"ŔūŠűIßƜŠűR Ģǌ*7N'9"Q!47#1 [Mikolov+13a] !  ŶRĠ41! y\oRŕ*1Mí1M*1 L 1/

RNNLM9Transition-based parser=¸Į !  RNNLM=n>Transition-based parser<ǽ7N K<¡NƁ¡ !  Stack"recurrent;y\o<©ŉ*7NK<¡N !  Ŕū°;ļǢGÔé8#7N=>0=.
!  ż? àƹé=Üū"#19đú"ǡFĉCO7 N=8> 10 >Q'KM

Skip-gramn (word2vec) [Mikolov+13b] !  ƯƦƹūRāǒ,Nn !  ƯƦƹū!Lāǒ,Nn CBOWGĘČ*7N !  Analogical
reasoning=ǊÂ" ǻ°<ò !  ÇǇ"ÕÃ)ON G>IParser":'9!;S 241= 11

Skip-gramn[Mikolov+13b]=Æ°¸ð !  ¨»`ue: w 1 , w 2 , …,
w T w i >ƹū 12 'ORÙ É vw I&wP#@NK9FeU]il*FmD7 =OLP?A8 cI WSYD5<L8

Ă9§+ÇŴ=ĊĨ" !  ƨƓǊÂ"MĻ$8> 13

ÇǇ=m\rk\G:S:SëÉ [Mikolov+13c] !  Îƹū=ăïRØN9'PRC%bzN 14 bdTk Rd[k

word2vec";/ǼƔ°241! !  ƹū=y\oÔé>ÀC8G41 !  ƱǽǄ=ļǢ>Ɲ1*71" ŕ*1Mí1M9 41ǥė>ÀC88#;!41 !  üūnƢ> ċ°<ī±ķŜRnÉ*7N1F
ovk\9#ȎÂ*!ȕLO7; !  ǓĐƢ8 œ=e`T=ßƜĵ&<ƺƖ*7NMF"ƶÍ) O1'9RĠ0 !  ßƜ=Šű>G49ǚǪ8 ¨Ų<ĹŇ)O1üūÈǁ 9ňǅ";9Ôé8#;9Ġ471 15

ßƜ=ƆÂ"y\oŌ®<ǡFĉCON [Kim+13] !  “good”9”best”=ĞS< C)!=”better”"ƕŁ 16

NNƢÁ=''"Ř !  ș=äŨ"Ě9¿L!< !  ßƜ=ĝĽ°;äŨ" Ŷƚ!y\oŌ®<ǡ FĉCO7N !  ŕ*1Mí1Môǈ941M ! 
B9S:"2013<úġ)O7N !  Mikolov>'=2&815ĕŅīR*7N !  1AS Ŷ!"Q!N=>'O!L 2.

ÆRǆF7DN9 !  ŶRīȍ9,N! !  üūnƢī±ķŜ ĝNƹū !  ǓĐƢī±ķŜ !  NNƢĝNƹū
ǯƗǸ !  :łƧ,N! !  üūnƢǤOłð<Ŏ9, !  ǓĐƢţ\<Ŏ9, !  NNƢÆ°¸ð"ÙÙË<;NK<Ïš 2/ Á=Ū>O: ¢Ÿ>ǽ7N

À¬:;47%! !  NNƢÁ=Ũ°<þÝ;³"ØM)ON !  ;/ÀC8C%!;!41=! Ũ°;þÝ ;Ū>Ŷ;=! !  ĳ=ßƜĵ&Iĳ=ÇéªÁ"é,N ! 
ǓĐƢ=ªÁ8ģé8#N9 ǻ°<Òǃ«® RĄL*1M ňƒ<ĀĲ8#NK<;N!G !  ŉÍµ=Ĭ¹ !  C2 ;S!ğƈy !  ÇĈ=Tx^c<ŉÍ)O7% 20

C9F !  Statistical Semantics9>;<! !  ŔĀ°;äŨ Ü<ƹū=éīȍ=äŨ9 0= ū=ßƜ=¸Į<!S,NųƊ ! 
#%&735=ªòä !  ǓĐƢ üūnƢ rskoƢ !  NNƢÁ>ÖĠÅ !  ŕ*1M í1M ôǈ941M !  Ȃź=NNüūn>C2ĭC41?!M2 21

ņěīǟ1ř¨ !  [Bird+10] Steven Bird, Ewan Klein, Edward Loper, ȇÚì,
·Ƿę, öµƣ¿. . YVdu, 2010. !  [Ƃ+96] ƂĞŤĩÌƴ. !$# . ƬưĦō, 1996. !  [Evert10] Stefan Evert. Distributional Semantic Models. NAACL 2010 Tutorial. !  [Àč13] ÀčE5D. & . ȃȅĦǨ, 2013. !  [Deerwester+90] Scott Deerwester, Susan T. Dumais, George W. Furnas, Thomas K. Landauer, Richard Harshman. Indexing by Latent Semantic Analysis. JASIS, 1990. 22

ņěīǟ2üūnƢǓĐƢ !  [Hofmann99] Thomas Hofmann. Probabilistic Latent Semantic Indexing. SIGIR,
1999. !  [Blei+03] David M. Blei, Andrew Y. Ng, Michael I. Jordan. Latent Dirichlet Allocation. JMLR, 2003. !  [Lee+99] Daniel D. Lee, H. Sebastian Seung. Learning the parts of objects by non-negative matrix factorization. Nature, vol 401, 1999. !  [Ding+08] Chris Ding, Tao Li, Wei Peng. On the equivalence between Non-negative Matrix Factorization and Probabilistic Latent Semantic Indexing. Computational Statistics & Data Analysis, 52(8), 2008. !  [Cruys10] Tim Van de Cruys. A Non-negative Tensor Factorization Model for Selectional Preference Induction. Natural Language Engineering, 16(4), 2010. 23

ņěīǟ3NNƢ1 !  [Bengio+03] Yoshua Bengio, Réjean Ducharme, Pascal Vincent, Christian
Jauvin. A Neural Probabilistic Language Model. JMLR, 2003. !  [Mikolov+10] Tomas Mikolov, Martin Karafiat, Lukas Burget, Jan "Honza" Cernocky, Sanjeev Khudanpur. Recurrent neural network based language model. Interspeech, 2010. !  [Mikolov+13a] Tomas Mikolov, Wen-tau Yih, Geoffrey Zweig. Linguistic Regularities in Continuous Space Word Representations. HLT-NAACL, 2013. !  [Mikolov+13b] Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space. CoRR, 2013. 24

ņěīǟ4NNƢ2 !  [Mikolov+13c] Tomas Mikolov, Ilya Sutskever, Kai Chen, Gregory
S. Corrado, Jeffrey Dean. Distributed Representations of Words and Phrases and their Compositionality. NIPS, 2013. !  [Kim+13] Joo-Kyung Kim, Marie-Catherine de Marneffe. Deriving adjectival scales from continuous space word representations. EMNLP , 2013. !  [Mikolov+13d] Tomas Mikolov, Quoc V. Le, Ilya Sutskever. Exploiting Similarities among Languages for Machine Translation. CoRR, 2013. 25

Statistical Semantic入門 〜分布仮説からword2vecまで〜 @PFIセミナー

Statistical Semantic入門 〜分布仮説からword2vecまで〜 @PFIセミナー

More Decks by Yuya Unno

Other Decks in Technology

Featured

Transcript

Statistical Semantic入門〜分布仮説からword2vecまで〜 @PFIセミナー

Statistical Semantic入門〜分布仮説からword2vecまで〜 @PFIセミナー