Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
09NLP-muramatsu.pdf
Search
自然言語処理研究室
July 03, 2013
0
42
09NLP-muramatsu.pdf
自然言語処理研究室
July 03, 2013
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
380
データサイエンス13_解析.pdf
jnlp
0
480
データサイエンス12_分類.pdf
jnlp
0
330
データサイエンス11_前処理.pdf
jnlp
0
460
Recurrent neural network based language model
jnlp
0
130
自然言語処理研究室 研究概要(2012年)
jnlp
0
130
自然言語処理研究室 研究概要(2013年)
jnlp
0
93
自然言語処理研究室 研究概要(2014年)
jnlp
0
110
自然言語処理研究室 研究概要(2015年)
jnlp
0
180
Featured
See All Featured
Code Reviewing Like a Champion
maltzj
524
40k
Visualization
eitanlees
146
16k
Optimizing for Happiness
mojombo
379
70k
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
Building Applications with DynamoDB
mza
95
6.5k
Embracing the Ebb and Flow
colly
86
4.8k
Product Roadmaps are Hard
iamctodd
PRO
54
11k
Rails Girls Zürich Keynote
gr2m
95
14k
It's Worth the Effort
3n
185
28k
Producing Creativity
orderedlist
PRO
346
40k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
8
700
GraphQLとの向き合い方2022年版
quramy
49
14k
Transcript
ߏจยΛ༻͍ͨ ߏจยΛ༻͍ͨ ཁจੜ ཁจੜ Ԭٕज़Պֶେֶ Ԭٕज़Պֶେֶ ిؾܥ ిؾܥ ଜদ ଜদ
༞ر ༞ر ࢁຊ ࢁຊ ӳ ᶃ ӳ
త త ɾ৽͍͠ॲཧ୯ҐͰจষΛཁ ɾ৽͍͠ॲཧ୯ҐͰจষΛཁ ˠܗଶૉจઅ୯ҐͰߦΘͳ͍ ˠܗଶૉจઅ୯ҐͰߦΘͳ͍ ˠจੜΛߦ͏ʢจষ͔ΒจΛੜʣ ˠจੜΛߦ͏ʢจষ͔ΒจΛੜʣ ɾ౷ܭϞσϧΛΘͳ͍ ɾ౷ܭϞσϧΛΘͳ͍
ˠ ˠਓ͕ؒݟͯࣗવͳཁจΛੜ ਓ͕ؒݟͯࣗવͳཁจΛੜ ᶄ
طଘݚڀ طଘݚڀ ɾ ɾΒ Β[2008] [2008] - -༻ྫϕʔεͱͨ͠ཁख๏ ༻ྫϕʔεͱͨ͠ཁख๏ -
-ೖྗจͱ༻ྫͷྨࣅΛ༻ ೖྗจͱ༻ྫͷྨࣅΛ༻ ɾ ɾງΒ ງΒ[2002] [2002] - -ʮ ʮTri Tri- -gram gramʯͱʮ ʯͱʮTF TFɾ ɾIDF IDFʯΛݩʹ࠷దԽ ʯΛݩʹ࠷దԽ ᶅ
ྨࣅ༻ྫܕཁ ྨࣅ༻ྫܕཁ ྨࣅ༻ྫจΛબ͢Δ؍શ෦Ͱ ྨࣅ༻ྫจΛબ͢Δ؍શ෦Ͱ3 3ͭ ͭ ɾ ɾʮॿࢺͷҰகʯ ʮॿࢺͷҰகʯˠ ˠػೳޠͷද
ػೳޠͷද ɾʮݻ༗දݱλάͷҰகʯ ɾʮݻ༗දݱλάͷҰகʯ ˠߏจղੳثͷղੳ݁Ռ ˠߏจղੳثͷղੳ݁Ռ ɾʮ୯ޠؒྨࣅʯ ɾʮ୯ޠؒྨࣅʯˠ୯ޠͷ૬ޓใྔ ˠ୯ޠͷ૬ޓใྔ ᶆ
ʮߏจยʯͱʁ ʮߏจยʯͱʁ ຊݚڀ͕ࣨఏҊͨ֓͠೦ ຊݚڀ͕ࣨఏҊͨ֓͠೦ - -ʮ̎จઅͷΓड͚ʯͷରͰ͋Δ ʮ̎จઅͷΓड͚ʯͷରͰ͋Δ ߏจยͷྫ ߏจยͷྫ ྫʮ
ྫʮS Sࣾͷܞଳӷথ͕ΩϨΠʯ ࣾͷܞଳӷথ͕ΩϨΠʯ ʮ ʮS SࣾͷܞଳʯɺʮܞଳΩϨΠʯɺʮӷথ͕ΩϨΠʯ ࣾͷܞଳʯɺʮܞଳΩϨΠʯɺʮӷথ͕ΩϨΠʯ ͱ͍ͬͨ ͱ͍ͬͨ3 3ͭͷߏจยʢ୯ҐϐʔεʣʹͳΔ ͭͷߏจยʢ୯ҐϐʔεʣʹͳΔ ᶇ
ʮߏจยʯͷར ʮߏจยʯͷར ɾ ɾநग़͕༰қͰ͋Δ நग़͕༰қͰ͋Δ - -ʮ̎จઅͷΓड͚ʯΛجʹநग़ ʮ̎จઅͷΓड͚ʯΛجʹநग़ ɾ ɾ෦ʹམͱ͢͜ͱͰ؆ུԽ
෦ʹམͱ͢͜ͱͰ؆ུԽ - -ߏͰѻ͏ϨϕϧΛ؆୯Խ ߏͰѻ͏ϨϕϧΛ؆୯Խ ɾ ɾҙຯతͳܨ͕Γ ҙຯతͳܨ͕Γ - -୯ޠจઅΑΓᐆດੑ͕ແ͘ͳΔ ୯ޠจઅΑΓᐆດੑ͕ແ͘ͳΔ ᶈ
Ξϓϩʔν Ξϓϩʔν ᶗ ᶗ. . ༻ྫจͷબ ༻ྫจͷબ - -ೖྗهࣄͱҙຯతʹ͍ۙ༻ྫจΛબ ೖྗهࣄͱҙຯతʹ͍ۙ༻ྫจΛબ
ᶘ ᶘ. . ߏจยͷରԠ͚ ߏจยͷରԠ͚ - -ೖྗจͱ༻ྫจͷରԠΛಘΔ ೖྗจͱ༻ྫจͷରԠΛಘΔ ᶙ ᶙ. . ཁจͷੜ ཁจͷੜ - -ରԠ͚ΒΕͨߏจยΛ༻͍ͯจੜ ରԠ͚ΒΕͨߏจยΛ༻͍ͯจੜ ᶉ
γεςϜਤ γεςϜਤ ӳจࣈจઅ A/B/C/Dɻ E/F/G/Hɻ I/J/K/Lɻ a/b/c/d/eɻ Pi[AˠD] Pi[B ˠD]
Pi[EˠG] Pi[F ˠG] Pi[J ˠ L ] Pi[Kˠ L ] Pi[I ˠ J] Pi[GˠH] ༻ྫจͷू߹ ೖྗهࣄ ɻ ɻ ɻ ༻ྫจ ᶗ Ps[aˠc] Ps[bˠc] Ps[cˠe] Ps[dˠe] ग़ྗཁจ ᶊ A/G/B/J/Lɻ ᶘ ᶙ
༻ྫจͷબ ༻ྫจͷબ ɾ ɾߏจยͷྨࣅΛ༻͍ͯ༻ྫΛબ ߏจยͷྨࣅΛ༻͍ͯ༻ྫΛબ ᶋ
ʮߏจยʯͷྨࣅ ʮߏจยʯͷྨࣅ ɾ ɾEDR EDRͷγιʔϥεΛ༻͍ͯܭࢉ ͷγιʔϥεΛ༻͍ͯܭࢉ Ps(i)ʹ༻ྫʢೖྗʣͷߏจย Sme(Ime)=༻ྫจ(ೖྗจ)ͷΓݩจઅ ɺ Smc(Imc)=༻ྫจ(ೖྗจ)ͷΓઌจઅ
dk=SmeͱImeͷڞ௨্Ґϊʔυͷਂ͞ɺdi=Imeͷϊʔυͷਂ͞(dsSmeΛࣔ͢) ᶌ
ཁจͷੜ ཁจͷੜ ʻೖྗهࣄʼ ւಓ࿈߹ւ۠ړۀௐҕһձ͕·ͱΊͨീͷळαέͷ ࠷ऴړ֫ঢ়گͰɺړ֫ྔࡾઍඦࣣेສೋઍඦ࢛ेҰඌͰ લಉظൺҰ࢛ɾീˋݮͱͳͬͨ ɻւਫԹͷ্ঢ͕ෆړͷݪҼͱ͞ΕΔɻ ʻ༻ྫจʼ ݄̍̌ͷ֎՟४උߴ̔̐̍̓ԯ̎̌̌̕ສυϧͰલ݄ൺ ̍̓ԯ̓̍̌̌ສυϧݮɻ
ʻग़ྗཁจʼ ෆړͷݪҼͱ͞ΕΔړ֫ྔલಉظൺҰ࢛ɾീˋݮͱͳͬͨɻ ᶍ
ࣗಈධՁ ࣗಈධՁ ɾ ɾਖ਼ղσʔλʹਓखཁจΛ༻ ਖ਼ղσʔλʹਓखཁจΛ༻ ධՁई ैདྷख๏ ຊख๏ BLEUͷฏۉʢ100݅ʣ 0.41
0.08 ROUGE-4ͷฏۉʢ100݅ʣ 0.85 0.64 BLEU20ˋɺROUGE-475ˋͷ ύϑΥʔϚϯε͔͠ग़ͳ͍݁Ռ ᶎ
ߟ ߟ ᶗ ᶗ ᶗ ᶗ. . EDR EDRͷཏੑͷௐࠪ݁Ռ ͷཏੑͷௐࠪ݁Ռ
༻ྫจͷू߹ ධՁ࣮ݧσʔλ ܗଶૉ 1,003,459 16,188 ༰ޠ 677,855 9,998 EDR֓೦ࣙॻͱ ͷ߹க 294,445 4,394 ༰ޠʹର͢ΔEDR֓೦ࣙॻͷཏੑ ༻ྫจɺධՁ࣮ݧσʔλڞʹ44ˋͰ͋ͬͨɻ ˰EDR͚ͩͰγιʔϥεใ͕Γͳ͍ ᶏ
ߟ ߟ ᶘ ᶘ ᶘ ᶘ. .༰ޠɺߏจยͷྨࣅ ༰ޠɺߏจยͷྨࣅ ༰ޠ ߏจย
ධՁऀA 62/100 (62%) 34/100 (34%) ධՁB 38/100 (38%) 22/100 (22%) ධՁC 64/100 (64%) 42/100 (42%) ᶐ ༰ޠͷྨࣅ͕0.9ʢ࠷େ1ʹରͯ͠ʣΛӽ͑ͨ ͷʹରͯ͠9ׂ͕ਓؒͷओ؍ͱҰகͨ͠ɻ ˰ʮߏจยʯͷྨࣅ͕՝ͱͳΔ
݁ ݁ ɾ ɾߏจยΛ༻͍ͯཁจੜΛߦͬͨ -༰ޠͷྨࣅਓؒͷओ؍ʹ͍ۙ -ߏจยͷྨࣅʹؔͯ͠࠶ݕ౼͕ඞཁ ߏจยͷྨࣅʹؔͯ͠࠶ݕ౼͕ඞཁ - -γιʔϥεʹؔͯ͠ผͷϦιʔε͕ඞཁ γιʔϥεʹؔͯ͠ผͷϦιʔε͕ඞཁ
ᶑ
ධՁ࣮ݧ ධՁ࣮ݧ ɾ ɾ༻ྫจͷू߹ ༻ྫจͷू߹ - -27036 27036݅Λ༻ʢܦχϡʔεϝʔϧ ݅Λ༻ʢܦχϡʔεϝʔϧ ʣ
ʣ ɾ ɾධՁ࣮ݧσʔλ ධՁ࣮ݧσʔλ - -ຊܦࡁ৽ฉ ຊܦࡁ৽ฉ 100 100݅Λཁରͱ͢Δ ݅Λཁରͱ͢Δ ᶒ
ਓखධՁ ਓखධՁ ɾ ɾ༰దੑͷൺֱධՁ ༰దੑͷൺֱධՁ ैདྷख๏ ຊख๏ ධՁऀA 82/100 (จ)
18/100 (จ) ධՁऀB 82/100 (จ) 18/100 (จ) ɾ ɾՄಡੑධՁͷൺֱධՁߦͬͨ ՄಡੑධՁͷൺֱධՁߦͬͨ - -͔͠͠ɺैདྷख๏ΑΓԼճΔ ͔͠͠ɺैདྷख๏ΑΓԼճΔ ᶓ
ߟ ߟ ɾ ɾ࣍ͷ̎ʹ͍ͭͯՃௐࠪΛߦͬͨ ࣍ͷ̎ʹ͍ͭͯՃௐࠪΛߦͬͨ ᶗ ᶗ. . EDR EDRͷཏੑ
ͷཏੑ - -༻ྫจͱ ༻ྫจͱධՁ࣮ݧσʔλ ධՁ࣮ݧσʔλʹؔͯ͠ௐࠪ ʹؔͯ͠ௐࠪ ᶘ ᶘ. .༰ޠɺߏจยͷྨࣅ ༰ޠɺߏจยͷྨࣅ - -ਓؒͷओ؍ͱͷҰகੑʹؔͯ͠ௐࠪ ਓؒͷओ؍ͱͷҰகੑʹؔͯ͠ௐࠪ ᶔ