Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
09NLP-muramatsu.pdf
Search
自然言語処理研究室
July 03, 2013
0
30
09NLP-muramatsu.pdf
自然言語処理研究室
July 03, 2013
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
330
データサイエンス13_解析.pdf
jnlp
0
380
データサイエンス12_分類.pdf
jnlp
0
290
データサイエンス11_前処理.pdf
jnlp
0
400
Recurrent neural network based language model
jnlp
0
100
自然言語処理研究室 研究概要(2012年)
jnlp
0
100
自然言語処理研究室 研究概要(2013年)
jnlp
0
69
自然言語処理研究室 研究概要(2014年)
jnlp
0
65
自然言語処理研究室 研究概要(2015年)
jnlp
0
120
Featured
See All Featured
Navigating Team Friction
lara
178
13k
How to name files
jennybc
65
93k
Become a Pro
speakerdeck
PRO
11
4.5k
A Tale of Four Properties
chriscoyier
151
22k
Agile that works and the tools we love
rasmusluckow
325
20k
Keith and Marios Guide to Fast Websites
keithpitt
408
22k
The Cult of Friendly URLs
andyhume
74
5.7k
Stop Working from a Prison Cell
hatefulcrawdad
266
19k
The Brand Is Dead. Long Live the Brand.
mthomps
49
28k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
187
16k
Principles of Awesome APIs and How to Build Them.
keavy
121
16k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
25
2.3k
Transcript
ߏจยΛ༻͍ͨ ߏจยΛ༻͍ͨ ཁจੜ ཁจੜ Ԭٕज़Պֶେֶ Ԭٕज़Պֶେֶ ిؾܥ ిؾܥ ଜদ ଜদ
༞ر ༞ر ࢁຊ ࢁຊ ӳ ᶃ ӳ
త త ɾ৽͍͠ॲཧ୯ҐͰจষΛཁ ɾ৽͍͠ॲཧ୯ҐͰจষΛཁ ˠܗଶૉจઅ୯ҐͰߦΘͳ͍ ˠܗଶૉจઅ୯ҐͰߦΘͳ͍ ˠจੜΛߦ͏ʢจষ͔ΒจΛੜʣ ˠจੜΛߦ͏ʢจষ͔ΒจΛੜʣ ɾ౷ܭϞσϧΛΘͳ͍ ɾ౷ܭϞσϧΛΘͳ͍
ˠ ˠਓ͕ؒݟͯࣗવͳཁจΛੜ ਓ͕ؒݟͯࣗવͳཁจΛੜ ᶄ
طଘݚڀ طଘݚڀ ɾ ɾΒ Β[2008] [2008] - -༻ྫϕʔεͱͨ͠ཁख๏ ༻ྫϕʔεͱͨ͠ཁख๏ -
-ೖྗจͱ༻ྫͷྨࣅΛ༻ ೖྗจͱ༻ྫͷྨࣅΛ༻ ɾ ɾງΒ ງΒ[2002] [2002] - -ʮ ʮTri Tri- -gram gramʯͱʮ ʯͱʮTF TFɾ ɾIDF IDFʯΛݩʹ࠷దԽ ʯΛݩʹ࠷దԽ ᶅ
ྨࣅ༻ྫܕཁ ྨࣅ༻ྫܕཁ ྨࣅ༻ྫจΛબ͢Δ؍શ෦Ͱ ྨࣅ༻ྫจΛબ͢Δ؍શ෦Ͱ3 3ͭ ͭ ɾ ɾʮॿࢺͷҰகʯ ʮॿࢺͷҰகʯˠ ˠػೳޠͷද
ػೳޠͷද ɾʮݻ༗දݱλάͷҰகʯ ɾʮݻ༗දݱλάͷҰகʯ ˠߏจղੳثͷղੳ݁Ռ ˠߏจղੳثͷղੳ݁Ռ ɾʮ୯ޠؒྨࣅʯ ɾʮ୯ޠؒྨࣅʯˠ୯ޠͷ૬ޓใྔ ˠ୯ޠͷ૬ޓใྔ ᶆ
ʮߏจยʯͱʁ ʮߏจยʯͱʁ ຊݚڀ͕ࣨఏҊͨ֓͠೦ ຊݚڀ͕ࣨఏҊͨ֓͠೦ - -ʮ̎จઅͷΓड͚ʯͷରͰ͋Δ ʮ̎จઅͷΓड͚ʯͷରͰ͋Δ ߏจยͷྫ ߏจยͷྫ ྫʮ
ྫʮS Sࣾͷܞଳӷথ͕ΩϨΠʯ ࣾͷܞଳӷথ͕ΩϨΠʯ ʮ ʮS SࣾͷܞଳʯɺʮܞଳΩϨΠʯɺʮӷথ͕ΩϨΠʯ ࣾͷܞଳʯɺʮܞଳΩϨΠʯɺʮӷথ͕ΩϨΠʯ ͱ͍ͬͨ ͱ͍ͬͨ3 3ͭͷߏจยʢ୯ҐϐʔεʣʹͳΔ ͭͷߏจยʢ୯ҐϐʔεʣʹͳΔ ᶇ
ʮߏจยʯͷར ʮߏจยʯͷར ɾ ɾநग़͕༰қͰ͋Δ நग़͕༰қͰ͋Δ - -ʮ̎จઅͷΓड͚ʯΛجʹநग़ ʮ̎จઅͷΓड͚ʯΛجʹநग़ ɾ ɾ෦ʹམͱ͢͜ͱͰ؆ུԽ
෦ʹམͱ͢͜ͱͰ؆ུԽ - -ߏͰѻ͏ϨϕϧΛ؆୯Խ ߏͰѻ͏ϨϕϧΛ؆୯Խ ɾ ɾҙຯతͳܨ͕Γ ҙຯతͳܨ͕Γ - -୯ޠจઅΑΓᐆດੑ͕ແ͘ͳΔ ୯ޠจઅΑΓᐆດੑ͕ແ͘ͳΔ ᶈ
Ξϓϩʔν Ξϓϩʔν ᶗ ᶗ. . ༻ྫจͷબ ༻ྫจͷબ - -ೖྗهࣄͱҙຯతʹ͍ۙ༻ྫจΛબ ೖྗهࣄͱҙຯతʹ͍ۙ༻ྫจΛબ
ᶘ ᶘ. . ߏจยͷରԠ͚ ߏจยͷରԠ͚ - -ೖྗจͱ༻ྫจͷରԠΛಘΔ ೖྗจͱ༻ྫจͷରԠΛಘΔ ᶙ ᶙ. . ཁจͷੜ ཁจͷੜ - -ରԠ͚ΒΕͨߏจยΛ༻͍ͯจੜ ରԠ͚ΒΕͨߏจยΛ༻͍ͯจੜ ᶉ
γεςϜਤ γεςϜਤ ӳจࣈจઅ A/B/C/Dɻ E/F/G/Hɻ I/J/K/Lɻ a/b/c/d/eɻ Pi[AˠD] Pi[B ˠD]
Pi[EˠG] Pi[F ˠG] Pi[J ˠ L ] Pi[Kˠ L ] Pi[I ˠ J] Pi[GˠH] ༻ྫจͷू߹ ೖྗهࣄ ɻ ɻ ɻ ༻ྫจ ᶗ Ps[aˠc] Ps[bˠc] Ps[cˠe] Ps[dˠe] ग़ྗཁจ ᶊ A/G/B/J/Lɻ ᶘ ᶙ
༻ྫจͷબ ༻ྫจͷબ ɾ ɾߏจยͷྨࣅΛ༻͍ͯ༻ྫΛબ ߏจยͷྨࣅΛ༻͍ͯ༻ྫΛબ ᶋ
ʮߏจยʯͷྨࣅ ʮߏจยʯͷྨࣅ ɾ ɾEDR EDRͷγιʔϥεΛ༻͍ͯܭࢉ ͷγιʔϥεΛ༻͍ͯܭࢉ Ps(i)ʹ༻ྫʢೖྗʣͷߏจย Sme(Ime)=༻ྫจ(ೖྗจ)ͷΓݩจઅ ɺ Smc(Imc)=༻ྫจ(ೖྗจ)ͷΓઌจઅ
dk=SmeͱImeͷڞ௨্Ґϊʔυͷਂ͞ɺdi=Imeͷϊʔυͷਂ͞(dsSmeΛࣔ͢) ᶌ
ཁจͷੜ ཁจͷੜ ʻೖྗهࣄʼ ւಓ࿈߹ւ۠ړۀௐҕһձ͕·ͱΊͨീͷळαέͷ ࠷ऴړ֫ঢ়گͰɺړ֫ྔࡾઍඦࣣेສೋઍඦ࢛ेҰඌͰ લಉظൺҰ࢛ɾീˋݮͱͳͬͨ ɻւਫԹͷ্ঢ͕ෆړͷݪҼͱ͞ΕΔɻ ʻ༻ྫจʼ ݄̍̌ͷ֎՟४උߴ̔̐̍̓ԯ̎̌̌̕ສυϧͰલ݄ൺ ̍̓ԯ̓̍̌̌ສυϧݮɻ
ʻग़ྗཁจʼ ෆړͷݪҼͱ͞ΕΔړ֫ྔલಉظൺҰ࢛ɾീˋݮͱͳͬͨɻ ᶍ
ࣗಈධՁ ࣗಈධՁ ɾ ɾਖ਼ղσʔλʹਓखཁจΛ༻ ਖ਼ղσʔλʹਓखཁจΛ༻ ධՁई ैདྷख๏ ຊख๏ BLEUͷฏۉʢ100݅ʣ 0.41
0.08 ROUGE-4ͷฏۉʢ100݅ʣ 0.85 0.64 BLEU20ˋɺROUGE-475ˋͷ ύϑΥʔϚϯε͔͠ग़ͳ͍݁Ռ ᶎ
ߟ ߟ ᶗ ᶗ ᶗ ᶗ. . EDR EDRͷཏੑͷௐࠪ݁Ռ ͷཏੑͷௐࠪ݁Ռ
༻ྫจͷू߹ ධՁ࣮ݧσʔλ ܗଶૉ 1,003,459 16,188 ༰ޠ 677,855 9,998 EDR֓೦ࣙॻͱ ͷ߹க 294,445 4,394 ༰ޠʹର͢ΔEDR֓೦ࣙॻͷཏੑ ༻ྫจɺධՁ࣮ݧσʔλڞʹ44ˋͰ͋ͬͨɻ ˰EDR͚ͩͰγιʔϥεใ͕Γͳ͍ ᶏ
ߟ ߟ ᶘ ᶘ ᶘ ᶘ. .༰ޠɺߏจยͷྨࣅ ༰ޠɺߏจยͷྨࣅ ༰ޠ ߏจย
ධՁऀA 62/100 (62%) 34/100 (34%) ධՁB 38/100 (38%) 22/100 (22%) ධՁC 64/100 (64%) 42/100 (42%) ᶐ ༰ޠͷྨࣅ͕0.9ʢ࠷େ1ʹରͯ͠ʣΛӽ͑ͨ ͷʹରͯ͠9ׂ͕ਓؒͷओ؍ͱҰகͨ͠ɻ ˰ʮߏจยʯͷྨࣅ͕՝ͱͳΔ
݁ ݁ ɾ ɾߏจยΛ༻͍ͯཁจੜΛߦͬͨ -༰ޠͷྨࣅਓؒͷओ؍ʹ͍ۙ -ߏจยͷྨࣅʹؔͯ͠࠶ݕ౼͕ඞཁ ߏจยͷྨࣅʹؔͯ͠࠶ݕ౼͕ඞཁ - -γιʔϥεʹؔͯ͠ผͷϦιʔε͕ඞཁ γιʔϥεʹؔͯ͠ผͷϦιʔε͕ඞཁ
ᶑ
ධՁ࣮ݧ ධՁ࣮ݧ ɾ ɾ༻ྫจͷू߹ ༻ྫจͷू߹ - -27036 27036݅Λ༻ʢܦχϡʔεϝʔϧ ݅Λ༻ʢܦχϡʔεϝʔϧ ʣ
ʣ ɾ ɾධՁ࣮ݧσʔλ ධՁ࣮ݧσʔλ - -ຊܦࡁ৽ฉ ຊܦࡁ৽ฉ 100 100݅Λཁରͱ͢Δ ݅Λཁରͱ͢Δ ᶒ
ਓखධՁ ਓखධՁ ɾ ɾ༰దੑͷൺֱධՁ ༰దੑͷൺֱධՁ ैདྷख๏ ຊख๏ ධՁऀA 82/100 (จ)
18/100 (จ) ධՁऀB 82/100 (จ) 18/100 (จ) ɾ ɾՄಡੑධՁͷൺֱධՁߦͬͨ ՄಡੑධՁͷൺֱධՁߦͬͨ - -͔͠͠ɺैདྷख๏ΑΓԼճΔ ͔͠͠ɺैདྷख๏ΑΓԼճΔ ᶓ
ߟ ߟ ɾ ɾ࣍ͷ̎ʹ͍ͭͯՃௐࠪΛߦͬͨ ࣍ͷ̎ʹ͍ͭͯՃௐࠪΛߦͬͨ ᶗ ᶗ. . EDR EDRͷཏੑ
ͷཏੑ - -༻ྫจͱ ༻ྫจͱධՁ࣮ݧσʔλ ධՁ࣮ݧσʔλʹؔͯ͠ௐࠪ ʹؔͯ͠ௐࠪ ᶘ ᶘ. .༰ޠɺߏจยͷྨࣅ ༰ޠɺߏจยͷྨࣅ - -ਓؒͷओ؍ͱͷҰகੑʹؔͯ͠ௐࠪ ਓؒͷओ؍ͱͷҰகੑʹؔͯ͠ௐࠪ ᶔ