Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
N-gram統計量からの係り受け情報の復元
Search
Yuya Unno
September 11, 2011
Technology
23
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
N-gram統計量からの係り受け情報の復元
Yuya Unno
September 11, 2011
More Decks by Yuya Unno
See All by Yuya Unno
深層学習で切り拓くパーソナルロボットの未来 @東京大学 先端技術セミナー 工学最前線
unnonouno
0
27
深層学習時代の自然言語処理ビジネス @DLLAB 言語・音声ナイト
unnonouno
0
49
ベンチャー企業で言葉を扱うロボットの研究開発をする @東京大学 電子情報学特論I
unnonouno
0
47
PFNにおけるセミナー活動 @NLP2018 言語処理研究者・技術者の育成と未来への連携WS
unnonouno
0
17
進化するChainer @JSAI2017
unnonouno
0
24
予測型戦略を知るための機械学習チュートリアル @BigData Conference 2017 Spring
unnonouno
0
26
深層学習フレームワーク Chainerとその進化
unnonouno
0
24
深層学習による機械とのコミュニケーション @DeNA TechCon 2017
unnonouno
0
42
最先端NLP勉強会 “Learning Language Games through Interaction” @第8回最先端NLP勉強会
unnonouno
0
17
Other Decks in Technology
See All in Technology
チームで実践する AI-DLC 思考の軌跡を残すチェックポイント設計
belongadmin
0
3.2k
Building applications in the Gemini API family.
line_developers_tw
PRO
0
2.5k
2026TECHFRESH畢業分享會 - 原生還是跨平台? App 開發踩坑實錄
line_developers_tw
PRO
0
150
運用を見据えたAIエージェント設計実践
amacbee
1
3.5k
PHP と TypeScript の型システム比較:AI 時代の「型」は誰のためにあるのか? #frontend_phpcon_do / frontend_phpcon_do_2026
shogogg
1
280
2026TECHFRESH畢業分享會 - Lightning Talk - 打造精準高效的 MCP 設計模式與測試實務
line_developers_tw
PRO
0
140
「エンジニア進化論」2028年の開発完全自動化、エンジニアはどう進化するか
cyberagentdevelopers
PRO
4
2.2k
「嘘をつくテスト」の失敗例から学ぶ 良いテストコード #frontend_phpcon_do
asumikam
0
600
2026TECHFRESH畢業分享會 - Lightning Talk - E起 See See : 電商推薦讀心術? 數據說了算
line_developers_tw
PRO
0
140
Mastering Ruby Box
tagomoris
3
160
データ基盤をDataformで整えた話 〜 開発環境を添えて 〜
takapy
0
130
ChatworkとBPaaS 異なる特性で学んだAI機能開発の ベストプラクティス
kubell_hr
2
3.4k
Featured
See All Featured
Principles of Awesome APIs and How to Build Them.
keavy
128
17k
Building a A Zero-Code AI SEO Workflow
portentint
PRO
0
560
Build The Right Thing And Hit Your Dates
maggiecrowley
39
3.2k
Un-Boring Meetings
codingconduct
0
310
Unlocking the hidden potential of vector embeddings in international SEO
frankvandijk
0
840
Fashionably flexible responsive web design (full day workshop)
malarkey
408
66k
Context Engineering - Making Every Token Count
addyosmani
9
950
Understanding Cognitive Biases in Performance Measurement
bluesmoon
32
2.9k
New Earth Scene 8
popppiees
3
2.3k
HTML-Aware ERB: The Path to Reactive Rendering @ RubyCon 2026, Rimini, Italy
marcoroth
1
170
Max Prin - Stacking Signals: How International SEO Comes Together (And Falls Apart)
techseoconnect
PRO
0
180
How GitHub (no longer) Works
holman
316
150k
Transcript
N-gram౷ܭྔ͔ΒͷΓड͚ใͷ෮ݩ ϓϦϑΝʔυΠϯϑϥετϥΫνϟ ւ༟, Ԭݪ⼤大ี {unno, hillbig}@prefered.jp
֓ཁ l NάϥϜͷ౷ܭྔͷΈ͔ΒΓड͚ߏΛ෮ݩ͢Δ࣮ݧ Λ⾏行行ͬͨ l ؆୯ͳࢦඪͷΈΛͬͯ༧Ҏ্ʹ͏·͘෮ݩͰ͖ͨ l ࣮ݧσʔλΛ⾒見見ͳ͕ΒͷཧΛ⾏行行ͬͨ l ຊ⽇日ಈػॾʹؔ͢ΔٞΛ⾏行行͍͍ͨ
ಈػɿ⽂文ͷߏΛݕࡧʹԠ⽤用Ͱ͖ͳ͍͔ l ୯ޠڥքใ͚ͩͩͱɺम০۟ͷૠ⼊入ʹରॲͰ͖ͳ͍ l म০෦Λ⾶飛ͯ͠ΫΤϦͷग़ݱΛ୳͍ͨ͠ ɾɾɾ⼤大نฒྻ࣮࣌ؒॲཧΛɾɾɾ ΫΤϦɿ⼤大نฒྻॲཧ ɾɾɾ⼤大نίʔύεதͷฒྻ۟ॲཧج४ɾɾɾ
Γड͚ߏΛ෮ݩͰ͖ͳ͍ͩΖ͏͔ʁ l Γड͚ղੳͷڭࢣ͋Γɾڭࢣ͋Γֶशޭ͍ͯ͠ Δ l ⼀一⽅方Ͱڭࢣσʔλͷ࡞ίετ͕⾼高͍ l ڭࢣσʔλ͕ͳ͍ͱֶशͰ͖ͳ͍ l ଟ⾔言ޠɺదԠɺ୯ޠ୯Ґɾ⽂文ࣈ୯ҐͷΓड͚
Γड͚ߏΛίετͰ෮ݩͰ͖ͳ͍͔ʁ
ΞΠσΞɿ⼤大ͷΓड͚ؔྡ͍ͯ͠Δͷͳ Βɺྡසͷใ͔ΒΓؔΛ෮ݩͰ͖Δͣ l ྡ͍ͯ͠Δ୯ޠ͕Γ͍͢ l Ҏ্ͷΓड͚ྡ͢Δ͜ͱ͕ΒΕ͍ͯΔ l ྡස͕Γ͢͞ͷࢦඪʹͳΓͦ͏ l म০෦লུ͞Ε͍͢
l ྫɿʮฒྻɾࢄɾॲཧʯ l म০෦ͷʮࢄʯ͕লུ͞Εͨɺʮฒྻɾॲཧʯͱ͍͏ දݱͨ͘͞Μग़ݱ͢Δ l NάϥϜͷ౷ܭྔͷΈͰΓ͢͞ΛදݱͰ͖ΔͷͰ ͳ͍͔ʁ
ࠓճ⻑⾧長͍ෳ߹໊ࢺΛରʹͨ͠ l ෳ߹໊ࢺݎ͍⽂文ॻʹಛʹଟ͘ɺ⼀一෦Λ୳͍ͨ͠χʔζ ͋Δ l ෳ߹໊ࢺͷΓؔʹؔ͢Δਖ਼ղσʔλ͕ͳ͍ l ҩྍ⽤用ޠ l ⼤大଼⾻骨ܱ෦ଆ⾻骨ં
l ด࠹ੑಈ຺ߗԽ l ࣏⽤用ޠ l ֤লใԽ౷ׅऀิࠤ࿈བྷձٞ l ࠃՈ҆શอো୲⼤大౷ྖิࠤ l ͦͷଞ l هత࣌ؒ⼤大⾬雨ใ l ઓུతݚڀਪਐࣄۀ
EisnerΞϧΰϦζϜ [Eisner96] l Γड͚⽊木 T ʹର͢ΔείΞ S(T) ΛɺہॴతͳείΞ ͷͰද͢ l
S(T) = ∑ (m, h)˥T s(m, h) l (m, h) T தͷͯ͢ͷम০ɾ⾮非म০ϖΞ l S(T) Λ࠷⼤大ʹ͢ΔT opt ࣌ؒܭࢉྔ O(n3) Ͱٻ·Δ A B C D E A D B D B C D root D E root + + + + =
Google N-gramσʔλ͔Βਪఆͨ͠⾃自⼰己૬ޓใྔ ʢPMIʣͰείΞؔΛઃܭ͢Δ l Google⽇日ຊޠNάϥϜσʔλͷසΛར⽤用͢Δ l #(mh) m, hͷόΠάϥϜස l
#(m) mͷϢχάϥϜස l EisnerͷࣜͰ⾜足͠߹ΘͤΔs(m, h) ͷݸ T ʹΑΒͣ ⼀一ఆͳͷͰɺ্هͷconst ແࢹͯ͠ྑ͍
݁Ռɿ༧Ҏ্ʹ͏·͍͕͘͘ɺมͳͱ͜Ζ ઓུ త ݚڀ ਪਐ ࣄۀ ه త ࣌ؒ
⼤大⾬雨 ใ ⼤大଼ ⾻骨 ܱ෦ ଆ ⾻骨ં ࠃՈ ҆શ อো ୲ ิࠤ ⼤大౷ྖ ޭ ࣦഊ
۩ମྫతʹؒҧͬͨྫΛཧ͢Δ 1. ෆ⾃自વͳम০෦͕Ͱ͖ͯ͠·͏έʔε l ໌Β͔ʹΕͳ͍ɺඌදݱ͔Βम০෦͕࢝·Δ l dੑɺdݝɺdతɺdܥɺdݕ౼ɺdิঈɾɾɾ 2. म০෦ʹͬͯ͠·͏έʔε l
಄දݱͳͲͷ໌Β͔ͳम০෦ʹͬͯ͠·͏ l ⼤大dɺdɺ४dɺಛผdɺ؆қdɾɾɾ 3. ߏతʹෆ⾃自વͳέʔε l ϖΞͰଥͳީิ͕ෳ͋Δͱ͖ʹɺෆ⾃自વͳߏʹͳΔ l ྫɿʮɾ⼤大ɾنɾࢄɾฒྻɾॲཧʯ l ʮɾ⼤大ʯʮɾࢄʯʮɾฒྻʯͲΕ⾃自વ
1. ෆ⾃自વͳम০෦͕Ͱ͖ͯ͠·͏έʔε l ʮੑʯ͕୯ಠͰʮߗԽʯΛम০͍ͯ͠Δ l ʮด࠹ɾੑʯͱ͍͏ϑϨʔζ͕ݕग़Ͱ͖͍ͯͳ͍ l ෆ⾃自વʹ࢝·Δम০෦Λ੍͢ΔείΞ͕ͳ͍ l ඌදݱස͕⾼高͍ͨΊɺPMI͕͘ͳΓ͕ͪ
l ด࠹ɿ580K ੑɿ117M ด࠹ɾੑɿ72K l ด࠹ɿ580K ɿ13.4M ด࠹ɾɿ20.5K ด࠹ ੑ ಈ຺ ߗԽ
2. म০෦ʹͬͯ͠·͏έʔε l ʮ⼤大ʯΛʮใʯ͕म০͍ͯ͠Δ l ʮใɾߤւʯͱ͍͏දݱ͕ͦͦग़ݱ͠ͳ͍ l ใɿ542M ⼤大ɿ114M ใɾ⼤大ɿ68K l ใɿ542M ߤւɿ1.66M ใɾߤւɿ77
l ʮ⼤大ʯීวతʹम০෦ʹͳΓ͍͢ɺͱ͍͏ใ͕ඞ ཁ ใ ⼤大 ߤւ ϓϩδΣΫτ
3. ߏతʹෆ⾃自વͳέʔε l ʮɾ⼤大ʯʮɾฒྻʯͳͲɺଥͳީิ͕⽂文தʹෳ ͋Δͱ͍͍ͩͨ͏·͍͔͘ͳ͍ l ϩʔΧϧͳείΞͷΈʹґଘ͍ͯ͠Δͷ͕ l ෳࡶͳߏʹର͢ΔϖφϧςΟʔ͕ඞཁ
ฒྻ ⼤大 ن ࢄ ॲཧ
վળҊ1ɿ⾼高සͷඌࣙͷӨڹΛഉআ͢Δ l PMIͷΘΓʹɺ୯ҐόΠάϥϜ⾔言ޠϞσϧͷ࿈εί ΞΛ͏ l ͍͔ͭ͘վળ͞Εͨ ด࠹ ੑ ಈ຺ ߗԽ
ด࠹ ੑ ಈ຺ ߗԽ
ٞ1ɿߏ⽂文ใ୯ޠ࿈Ҏ্ͷใΛͨΒ͢ ͷ͔ l ฤूڑͷΑ͏ͳείΞΛಋ⼊入Ͱ͖Ε⼤大෦͏·͘ ಈ͘Α͏ʹࢥ͑Δ l ⽊木ߏ͕ܾఆతʹॏཁͳέʔε͋Δ͔ʁ ݕࡧҎ֎ͷ ΞϓϦέʔγϣϯͰॏཁͳγʔϯ͋Δ͔ʁ ɾɾɾ⼤大نฒྻ࣮࣌ؒॲཧΛɾɾɾ ΫΤϦɿ⼤大نฒྻॲཧ
ฤूڑɿ2
ٞ2ɿෳ߹ޠʹ͓͚ΔదͳΓड͚ߏͱʁ l Γड͚⽊木ͷύεΛरͬͯҙຯ͕௨Βͳ͍͜ͱ͋Δ l ͦͦߏ͕దͰͳ͍ʁ நग़ͷ⽅方͕దͰͳ ͍ʁ l ߏ⽂文ใΛͲͷΑ͏ʹ׆⽤用͖͔͢ ه త
࣌ؒ ⼤大⾬雨 ใ త ⼤大⾬雨 ใ ʁ
ؔ࿈ݚڀ ֬త୯ޠׂ[⼯工౻05][Ԭݪ+06] l ୯ޠׂޡΓʹରͯ͠ϩόετʹ͢ΔͨΊʹɺ୯ޠׂΛ֬తʹ ग़⼒力力͢Δ l ୯ޠڥք͔൱͔ͷ֬ͷੵͰ୯ޠͷ༗ແΛείΞԽ͢Δ l ݕࡧ݁Ռ͕ϩόετʹͳΔ 0.95
0.05 0.95 0.95 0.05 0.95 0.05 0.95 0.05 0.05 0.05 0.95 ֬ త ୯ ޠ ׂ ί ʔ ύ ε 0.99 0.01 0.99 0.89 0.18 0.85 0.19 0.95 0.0 0.0 0.0 0.99 1 0 1 1 0 1 0 1 0 0 0 1 (1) ܗଶૉղੳ݁Ռ (3)֬త୯ޠׂ (1) (2) (3) (2)ैདྷͷSSC (Ћ=0.95)
ؔ࿈ݚڀ ⼤大نPMIใͷΓड͚ղੳͷԠ⽤用 [Zhou+11] l ୯ޠؒͷPMIΛ౷ܭతΓड͚ؔͷಛྔʹ⼊入ΕΔ l PMIͷਪఆʹGoogleͰͷώοτΧϯτΛར⽤用͢Δ l ͜Ε͚ͩͰɺ+1 ~
2ϙΠϯτͷਫ਼্
ࢀߟ⽂文ݙ l [Eisner96] J. M. Eisner. Three New Probabilistic Models
for Dependency Parsing: An Exploration. COLING ‘96. l [⼯工౻05] ⼯工౻. ܗଶૉपล֬Λ⽤用͍͔ͨͪॻ͖ͷ⼀一ൠԽͱͦ ͷԠ⽤用. ⾔言ޠॲཧֶձશࠃ⼤大ձ’05. l [Ԭݪ+06] Ԭݪ⼤大ี, ⼯工౻, ৴հ. ܗଶૉपล֬Λ⽤用͍ͨ ֬త୯ޠׂίʔύεͷߏஙͱͦͷԠ⽤用. NLPए⼿手ͷձγϯϙδ Ϝ ‘06. l [Zhou+11] G. Zhou, J. Zhao, K. Liu, L. Cai. Exploiting Web- Derived Selectional Preference to Improve Statistical Dependency Parsing. ACL ’11.