N-gram統計量からの係り受け情報の復元

N-gram౷ܭྔ͔Βͷ܎Γड͚৘ใͷ෮ݩ ϓϦϑΝʔυΠϯϑϥετϥΫνϟ ւ໺༟໵, Ԭ໺ݪ⼤大ี {unno, hillbig}@prefered.jp

֓ཁ l  NάϥϜͷ౷ܭྔͷΈ͔Β܎Γड͚ߏ଄Λ෮ݩ͢Δ࣮ݧ Λ⾏行行ͬͨ l  ؆୯ͳࢦඪͷΈΛ࢖ͬͯ΋༧૝Ҏ্ʹ͏·͘෮ݩͰ͖ͨ l  ࣮ݧσʔλΛ⾒見見ͳ͕Β໰୊఺ͷ੔ཧΛ⾏行行ͬͨ l  ຊ⽇日͸ಈػ΍ॾ໰୊ʹؔ͢Δٞ࿦Λ⾏行行͍͍ͨ

ಈػɿ⽂文ͷߏ଄ΛݕࡧʹԠ⽤用Ͱ͖ͳ͍͔ l  ୯ޠڥք৘ใ͚ͩͩͱɺम০۟ͷૠ⼊入ʹରॲͰ͖ͳ͍ l  म০෦Λ⾶飛͹ͯ͠ΫΤϦͷग़ݱΛ୳͍ͨ͠ ɾɾɾ⼤大ن໛௒ฒྻ࣮࣌ؒॲཧΛɾɾɾ ΫΤϦɿ⼤大ن໛ฒྻॲཧ ɾɾɾ⼤大ن໛ίʔύεதͷฒྻ۟ॲཧج४ɾɾɾ

܎Γड͚ߏ଄Λ෮ݩͰ͖ͳ͍ͩΖ͏͔ʁ l  ܎Γड͚ղੳͷڭࢣ͋Γɾ൒ڭࢣ͋Γֶश͸੒ޭ͍ͯ͠ Δ l  ⼀一⽅方Ͱڭࢣσʔλͷ࡞੒͸ίετ͕⾼高͍ l  ڭࢣσʔλ͕ͳ͍ͱֶशͰ͖ͳ͍ l  ଟ⾔言ޠɺ෼໺దԠɺ୯ޠ୯Ґɾ⽂文ࣈ୯Ґͷ܎Γड͚
܎Γड͚ߏ଄Λ௿ίετͰ෮ݩͰ͖ͳ͍͔ʁ

ΞΠσΞɿ⼤大൒ͷ܎Γड͚ؔ܎͸ྡ઀͍ͯ͠Δͷͳ Βɺྡ઀ස౓ͷ৘ใ͔Β܎Γؔ܎Λ෮ݩͰ͖Δ͸ͣ l  ྡ઀͍ͯ͠Δ୯ޠ͕܎Γ΍͍͢ l  ൒෼Ҏ্ͷ܎Γड͚͸ྡ઀͢Δ͜ͱ͕஌ΒΕ͍ͯΔ l  ྡ઀ස౓͕܎Γ΍͢͞ͷࢦඪʹͳΓͦ͏ l  म০෦͸লུ͞Ε΍͍͢
l  ྫɿʮฒྻɾ෼ࢄɾॲཧʯ l  म০෦ͷʮ෼ࢄʯ͕লུ͞Εͨɺʮฒྻɾॲཧʯͱ͍͏ දݱ΋ͨ͘͞Μग़ݱ͢Δ l  NάϥϜͷ౷ܭྔͷΈͰ܎Γ΍͢͞ΛදݱͰ͖ΔͷͰ͸ ͳ͍͔ʁ

ࠓճ͸⻑⾧長͍ෳ߹໊ࢺΛର৅ʹͨ͠ l  ෳ߹໊ࢺ͸ݎ͍⽂文ॻʹಛʹଟ͘ɺ⼀一෦Λ୳͍ͨ͠χʔζ ΋͋Δ l  ෳ߹໊ࢺͷ܎Γؔ܎ʹؔ͢Δਖ਼ղσʔλ͕ͳ͍ l  ҩྍ⽤用ޠ l  ⼤大଼⾻骨ܱ෦಺ଆ⾻骨ં
l  ด࠹ੑಈ຺ߗԽ঱ l  ੓࣏⽤用ޠ l  ֤෎ল৘ใԽ౷ׅ੹೚ऀิࠤ׭౳࿈བྷձٞ l  ࠃՈ҆શอো໰୊୲౰⼤大౷ྖิࠤ׭ l  ͦͷଞ l  ه࿥త୹࣌ؒ⼤大⾬雨৘ใ l  ઓུత૑଄ݚڀਪਐࣄۀ

EisnerΞϧΰϦζϜ [Eisner96] l  ܎Γड͚⽊木 T ʹର͢ΔείΞ S(T) ΛɺہॴతͳείΞ ͷ࿨Ͱද͢ l 
S(T) = ∑ (m, h)˥T s(m, h) l  (m, h) ͸ T தͷ͢΂ͯͷम০ɾ⾮非म০ϖΞ l  S(T) Λ࠷⼤大ʹ͢ΔT opt ͸࣌ؒܭࢉྔ O(n3) Ͱٻ·Δ A B C D E A D B D B C D root D E root + + + + =

Google N-gramσʔλ͔Βਪఆͨ͠⾃自⼰己૬ޓ৘ใྔ ʢPMIʣͰείΞؔ਺Λઃܭ͢Δ l  Google⽇日ຊޠNάϥϜσʔλͷස౓Λར⽤用͢Δ l  #(mh) ͸m, hͷόΠάϥϜස౓ l 
#(m) ͸mͷϢχάϥϜස౓ l  EisnerͷࣜͰ⾜足͠߹ΘͤΔs(m, h) ͷݸ਺͸ T ʹΑΒͣ ⼀一ఆͳͷͰɺ্هͷconst ͸ແࢹͯ͠ྑ͍

݁Ռɿ༧૝Ҏ্ʹ͏·͍͕͘͘ɺมͳͱ͜Ζ΋ ઓུ త ૑଄ ݚڀ ਪਐ ࣄۀ ه࿥ త ୹࣌ؒ
⼤大⾬雨 ৘ใ ⼤大଼ ⾻骨 ܱ෦ ಺ଆ ⾻骨ં ࠃՈ ׭ ҆શ อো ໰୊ ୲౰ ิࠤ ⼤大౷ྖ ੒ޭ ࣦഊ

۩ମྫతʹؒҧͬͨྫΛ੔ཧ͢Δ 1.  ෆ⾃自વͳम০෦͕Ͱ͖ͯ͠·͏έʔε l  ໌Β͔ʹ੾Εͳ͍ɺ઀ඌදݱ͔Βम০෦͕࢝·Δ l  dੑɺdݝɺdతɺdܥɺdݕ౼ɺdิঈɾɾɾ 2.  म০෦ʹ܎ͬͯ͠·͏έʔε l 
઀಄දݱͳͲͷ໌Β͔ͳम০෦ʹ܎ͬͯ͠·͏ l  ⼤大dɺ௒dɺ४dɺಛผdɺ؆қdɾɾɾ 3.  ߏ଄తʹෆ⾃自વͳέʔε l  ϖΞͰ͸ଥ౰ͳީิ͕ෳ਺͋Δͱ͖ʹɺෆ⾃自વͳߏ଄ʹͳΔ l  ྫɿʮ௒ɾ⼤大ɾن໛ɾ෼ࢄɾฒྻɾॲཧʯ l  ʮ௒ɾ⼤大ʯʮ௒ɾ෼ࢄʯʮ௒ɾฒྻʯ͸ͲΕ΋⾃自વ

1. ෆ⾃自વͳम০෦͕Ͱ͖ͯ͠·͏έʔε l  ʮੑʯ͕୯ಠͰʮߗԽʯΛम০͍ͯ͠Δ l  ʮด࠹ɾੑʯͱ͍͏ϑϨʔζ͕ݕग़Ͱ͖͍ͯͳ͍ l  ෆ⾃自વʹ࢝·Δम০෦Λ཈੍͢ΔείΞ͕ͳ͍ l  ઀ඌදݱ͸ස౓͕⾼高͍ͨΊɺPMI͕௿͘ͳΓ͕ͪ
l  ด࠹ɿ580K 　ੑɿ117M 　ด࠹ɾੑɿ72K l  ด࠹ɿ580K 　঱ɿ13.4M 　ด࠹ɾ঱ɿ20.5K ด࠹ ੑ ಈ຺ ߗԽ ঱

2. म০෦ʹ܎ͬͯ͠·͏έʔε l  ʮ⼤大ʯΛʮ৘ใʯ͕म০͍ͯ͠Δ l  ʮ৘ใɾߤւʯͱ͍͏දݱ͕ͦ΋ͦ΋ग़ݱ͠ͳ͍ l  ৘ใɿ542M 　⼤大ɿ114M 　৘ใɾ⼤大ɿ68K l  ৘ใɿ542M 　ߤւɿ1.66M 　৘ใɾߤւɿ77
l  ʮ⼤大ʯ͸ීวతʹम০෦ʹͳΓ΍͍͢ɺͱ͍͏৘ใ͕ඞ ཁ ৘ใ ⼤大 ߤւ ϓϩδΣΫτ

3. ߏ଄తʹෆ⾃自વͳέʔε l  ʮ௒ɾ⼤大ʯʮ௒ɾฒྻʯͳͲɺଥ౰ͳީิ͕⽂文தʹෳ਺ ͋Δͱ͍͍ͩͨ͏·͍͔͘ͳ͍ l  ϩʔΧϧͳείΞͷΈʹґଘ͍ͯ͠Δͷ͕໰୊ l  ෳࡶͳߏ଄ʹର͢ΔϖφϧςΟʔ͕ඞཁ ௒
ฒྻ ⼤大 ن໛ ෼ࢄ ॲཧ

վળҊ1ɿ⾼高ස౓ͷ઀ඌࣙͷӨڹΛഉআ͢Δ l  PMIͷ୅ΘΓʹɺ୯ҐόΠάϥϜ⾔言ޠϞσϧͷ࿈઀εί ΞΛ࢖͏ l  ͍͔ͭ͘͸վળ͞Εͨ ด࠹ ੑ ಈ຺ ߗԽ
঱ ด࠹ ੑ ಈ຺ ߗԽ ঱

ٞ࿦1ɿߏ⽂文৘ใ͸୯ޠ࿈઀Ҏ্ͷ৘ใΛ΋ͨΒ͢ ͷ͔ l  ฤूڑ཭ͷΑ͏ͳείΞΛಋ⼊入Ͱ͖Ε͹⼤大෦෼͸͏·͘ ಈ͘Α͏ʹ΋ࢥ͑Δ l  ⽊木ߏ଄͕ܾఆతʹॏཁͳέʔε͸͋Δ͔ʁ 　ݕࡧҎ֎ͷ ΞϓϦέʔγϣϯͰॏཁͳγʔϯ͸͋Δ͔ʁ ɾɾɾ⼤大ن໛௒ฒྻ࣮࣌ؒॲཧΛɾɾɾ ΫΤϦɿ⼤大ن໛ฒྻॲཧ
ฤूڑ཭ɿ2

ٞ࿦2ɿෳ߹ޠʹ͓͚Δద੾ͳ܎Γड͚ߏ଄ͱ͸ʁ l  ܎Γड͚⽊木ͷύεΛरͬͯ΋ҙຯ͕௨Βͳ͍͜ͱ΋͋Δ l  ͦ΋ͦ΋ߏ଄͕ద੾Ͱ͸ͳ͍ʁ 　நग़ͷ࢓⽅方͕ద੾Ͱͳ ͍ʁ l  ߏ⽂文৘ใΛͲͷΑ͏ʹ׆⽤用͢΂͖͔ ه࿥ త
୹࣌ؒ ⼤大⾬雨 ৘ใ త ⼤大⾬雨 ৘ใ ʁ

ؔ࿈ݚڀ ֬཰త୯ޠ෼ׂ[⼯工౻05][Ԭ໺ݪ+06] 　 l  ୯ޠ෼ׂޡΓʹରͯ͠ϩόετʹ͢ΔͨΊʹɺ୯ޠ෼ׂΛ֬཰తʹ ग़⼒力力͢Δ l  ୯ޠڥք͔൱͔ͷ֬཰ͷੵͰ୯ޠͷ༗ແΛείΞԽ͢Δ l  ݕࡧ݁Ռ͕ϩόετʹͳΔ 0.95
0.05 0.95 0.95 0.05 0.95 0.05 0.95 0.05 0.05 0.05 0.95 ֬ ཰ త ୯ ޠ ෼ ׂ ί ʔ ύ ε 0.99 0.01 0.99 0.89 0.18 0.85 0.19 0.95 0.0 0.0 0.0 0.99 1 0 1 1 0 1 0 1 0 0 0 1 (1) ܗଶૉղੳ݁Ռ (3)֬཰త୯ޠ෼ׂ (1) (2) (3) 　(2)ैདྷͷSSC (Ћ=0.95)

ؔ࿈ݚڀ ⼤大ن໛PMI৘ใͷ܎Γड͚ղੳ΁ͷԠ⽤用 [Zhou+11] l  ୯ޠؒͷPMIΛ౷ܭత܎Γड͚ؔ܎ͷಛ௃ྔʹ⼊入ΕΔ l  PMIͷਪఆʹ͸GoogleͰͷώοτΧ΢ϯτΛར⽤用͢Δ l  ͜Ε͚ͩͰɺ+1 ~
2ϙΠϯτͷਫ਼౓޲্

ࢀߟ⽂文ݙ l  [Eisner96] J. M. Eisner. Three New Probabilistic Models
for Dependency Parsing: An Exploration. COLING ‘96. l  [⼯工౻05] ⼯工౻୓. ܗଶૉपล֬཰Λ⽤用͍ͨ෼͔ͪॻ͖ͷ⼀一ൠԽͱͦ ͷԠ⽤用. ⾔言ޠॲཧֶձશࠃ⼤大ձ’05. l  [Ԭ໺ݪ+06] Ԭ໺ݪ⼤大ี, ⼯工౻୓, ৿৴հ. ܗଶૉपล֬཰Λ⽤用͍ͨ ֬཰త୯ޠ෼ׂίʔύεͷߏஙͱͦͷԠ⽤用. NLPए⼿手ͷձγϯϙδ ΢Ϝ ‘06. l  [Zhou+11] G. Zhou, J. Zhao, K. Liu, L. Cai. Exploiting Web- Derived Selectional Preference to Improve Statistical Dependency Parsing. ACL ’11.

N-gram統計量からの係り受け情報の復元

N-gram統計量からの係り受け情報の復元

Yuya Unno

More Decks by Yuya Unno

Other Decks in Technology

Featured

Transcript

N-gram౷ܭྔ͔Βͷ܎Γड͚৘ใͷ෮ݩ ϓϦϑΝʔυΠϯϑϥετϥΫνϟ ւ໺༟໵, Ԭ໺ݪ⼤大ี {unno, hillbig}@prefered.jp

֓ཁ l  NάϥϜͷ౷ܭྔͷΈ͔Β܎Γड͚ߏ଄Λ෮ݩ͢Δ࣮ݧ Λ⾏行行ͬͨ l  ؆୯ͳࢦඪͷΈΛ࢖ͬͯ΋༧૝Ҏ্ʹ͏·͘෮ݩͰ͖ͨ l  ࣮ݧσʔλΛ⾒見見ͳ͕Β໰୊఺ͷ੔ཧΛ⾏行行ͬͨ l  ຊ⽇日͸ಈػ΍ॾ໰୊ʹؔ͢Δٞ࿦Λ⾏行行͍͍ͨ

܎Γड͚ߏ଄Λ෮ݩͰ͖ͳ͍ͩΖ͏͔ʁ l  ܎Γड͚ղੳͷڭࢣ͋Γɾ൒ڭࢣ͋Γֶश͸੒ޭ͍ͯ͠ Δ l  ⼀一⽅方Ͱڭࢣσʔλͷ࡞੒͸ίετ͕⾼高͍ l  ڭࢣσʔλ͕ͳ͍ͱֶशͰ͖ͳ͍ l  ଟ⾔言ޠɺ෼໺దԠɺ୯ޠ୯Ґɾ⽂文ࣈ୯Ґͷ܎Γड͚

ΞΠσΞɿ⼤大൒ͷ܎Γड͚ؔ܎͸ྡ઀͍ͯ͠Δͷͳ Βɺྡ઀ස౓ͷ৘ใ͔Β܎Γؔ܎Λ෮ݩͰ͖Δ͸ͣ l  ྡ઀͍ͯ͠Δ୯ޠ͕܎Γ΍͍͢ l  ൒෼Ҏ্ͷ܎Γड͚͸ྡ઀͢Δ͜ͱ͕஌ΒΕ͍ͯΔ l  ྡ઀ස౓͕܎Γ΍͢͞ͷࢦඪʹͳΓͦ͏ l  म০෦͸লུ͞Ε΍͍͢

ࠓճ͸⻑⾧長͍ෳ߹໊ࢺΛର৅ʹͨ͠ l  ෳ߹໊ࢺ͸ݎ͍⽂文ॻʹಛʹଟ͘ɺ⼀一෦Λ୳͍ͨ͠χʔζ ΋͋Δ l  ෳ߹໊ࢺͷ܎Γؔ܎ʹؔ͢Δਖ਼ղσʔλ͕ͳ͍ l  ҩྍ⽤用ޠ l  ⼤大଼⾻骨ܱ෦಺ଆ⾻骨ં

EisnerΞϧΰϦζϜ [Eisner96] l  ܎Γड͚⽊木 T ʹର͢ΔείΞ S(T) ΛɺہॴతͳείΞ ͷ࿨Ͱද͢ l

Google N-gramσʔλ͔Βਪఆͨ͠⾃自⼰己૬ޓ৘ใྔ ʢPMIʣͰείΞؔ਺Λઃܭ͢Δ l  Google⽇日ຊޠNάϥϜσʔλͷස౓Λར⽤用͢Δ l  #(mh) ͸m, hͷόΠάϥϜස౓ l

݁Ռɿ༧૝Ҏ্ʹ͏·͍͕͘͘ɺมͳͱ͜Ζ΋ ઓུ త ૑଄ ݚڀ ਪਐ ࣄۀ ه࿥ త ୹࣌ؒ

۩ମྫతʹؒҧͬͨྫΛ੔ཧ͢Δ 1.  ෆ⾃自વͳम০෦͕Ͱ͖ͯ͠·͏έʔε l  ໌Β͔ʹ੾Εͳ͍ɺ઀ඌදݱ͔Βम০෦͕࢝·Δ l  dੑɺdݝɺdతɺdܥɺdݕ౼ɺdิঈɾɾɾ 2.  म০෦ʹ܎ͬͯ͠·͏έʔε l

1. ෆ⾃自વͳम০෦͕Ͱ͖ͯ͠·͏έʔε l  ʮੑʯ͕୯ಠͰʮߗԽʯΛम০͍ͯ͠Δ l  ʮด࠹ɾੑʯͱ͍͏ϑϨʔζ͕ݕग़Ͱ͖͍ͯͳ͍ l  ෆ⾃自વʹ࢝·Δम০෦Λ཈੍͢ΔείΞ͕ͳ͍ l  ઀ඌදݱ͸ස౓͕⾼高͍ͨΊɺPMI͕௿͘ͳΓ͕ͪ

2. म০෦ʹ܎ͬͯ͠·͏έʔε l  ʮ⼤大ʯΛʮ৘ใʯ͕म০͍ͯ͠Δ l  ʮ৘ใɾߤւʯͱ͍͏දݱ͕ͦ΋ͦ΋ग़ݱ͠ͳ͍ l  ৘ใɿ542M 　⼤大ɿ114M 　৘ใɾ⼤大ɿ68K l  ৘ใɿ542M 　ߤւɿ1.66M 　৘ใɾߤւɿ77

3. ߏ଄తʹෆ⾃自વͳέʔε l  ʮ௒ɾ⼤大ʯʮ௒ɾฒྻʯͳͲɺଥ౰ͳީิ͕⽂文தʹෳ਺ ͋Δͱ͍͍ͩͨ͏·͍͔͘ͳ͍ l  ϩʔΧϧͳείΞͷΈʹґଘ͍ͯ͠Δͷ͕໰୊ l  ෳࡶͳߏ଄ʹର͢ΔϖφϧςΟʔ͕ඞཁ ௒

վળҊ1ɿ⾼高ස౓ͷ઀ඌࣙͷӨڹΛഉআ͢Δ l  PMIͷ୅ΘΓʹɺ୯ҐόΠάϥϜ⾔言ޠϞσϧͷ࿈઀εί ΞΛ࢖͏ l  ͍͔ͭ͘͸վળ͞Εͨ ด࠹ ੑ ಈ຺ ߗԽ

ٞ࿦2ɿෳ߹ޠʹ͓͚Δద੾ͳ܎Γड͚ߏ଄ͱ͸ʁ l  ܎Γड͚⽊木ͷύεΛरͬͯ΋ҙຯ͕௨Βͳ͍͜ͱ΋͋Δ l  ͦ΋ͦ΋ߏ଄͕ద੾Ͱ͸ͳ͍ʁ 　நग़ͷ࢓⽅方͕ద੾Ͱͳ ͍ʁ l  ߏ⽂文৘ใΛͲͷΑ͏ʹ׆⽤用͢΂͖͔ ه࿥ త

ؔ࿈ݚڀ ֬཰త୯ޠ෼ׂ[⼯工౻05][Ԭ໺ݪ+06] 　 l  ୯ޠ෼ׂޡΓʹରͯ͠ϩόετʹ͢ΔͨΊʹɺ୯ޠ෼ׂΛ֬཰తʹ ग़⼒力力͢Δ l  ୯ޠڥք͔൱͔ͷ֬཰ͷੵͰ୯ޠͷ༗ແΛείΞԽ͢Δ l  ݕࡧ݁Ռ͕ϩόετʹͳΔ 0.95

ؔ࿈ݚڀ ⼤大ن໛PMI৘ใͷ܎Γड͚ղੳ΁ͷԠ⽤用 [Zhou+11] l  ୯ޠؒͷPMIΛ౷ܭత܎Γड͚ؔ܎ͷಛ௃ྔʹ⼊入ΕΔ l  PMIͷਪఆʹ͸GoogleͰͷώοτΧ΢ϯτΛར⽤用͢Δ l  ͜Ε͚ͩͰɺ+1 ~

ࢀߟ⽂文ݙ l  [Eisner96] J. M. Eisner. Three New Probabilistic Models