Upgrade to Pro — share decks privately, control downloads, hide ads and more …

類似用例文の部分的置換による文短縮

 類似用例文の部分的置換による文短縮

牧野 恵, 池田 諭史, 山本 和英. 類似用例文の部分的置換による文短縮. 情報処理学会 研究報告, NL173-4 (2006.5)

Transcript

 1. ྨࣅ༻ྫจͷ ෦෼తஔ׵ʹΑΔจ୹ॖ ௕Ԭٕज़Պֶେֶ ిؾܥ ຀໺ ܙ ஑ా ་࢙ ࢁຊ࿨ӳ 2006೥5݄19೔

 2. എܠ • ܞଳ୺຤΍ిޫܝࣔ൘ʹ͓͚Δχϡʔεهࣄ – ̍هࣄ͋ͨΓͷจࣈ਺͕গͳ͍ – ཁ఺͕؆ܿʹड़΂ΒΕ͍ͯΔ • ۙ೥ͷཁ໿ʹؔ͢Δݚڀಈ޲ –

  จ୹ॖٕज़ͷݚڀ͕੝ΜͰ͋Δ 1
 3. طଘݚڀ • େ৿Β[2005] ܞଳ୺຤޲͚χϡʔεهࣄͷࣗಈ࡞੒ tfɾidf Λ༻͍ͯจઅ͝ͱʹॏཁ౓Λࢉग़ • ࡾ্Β[2004] ਓखͰ࡞੒ͨ͠ϧʔϧʹج͍ͮͯ৑௕෦෼Λ ࡟আ͠ɺࣈນΛࣗಈ࡞੒

  • ງΒ[2002] (٬؍ධՁͰͷൺֱରর) ಈతܭը๏Λ༻͍ͯ୯ޠநग़Λߦ͍ͬͯΔ จ୹ॖΛߦ͏ʹ͸༷ʑͳॲཧ͕ඞཁ ୹ॖจ΁ͷ࠾༻ՕॴΛ൑அ͢Δ͜ͱ͸ࠔ೉ 2
 4. ༻ྫར༻ܕͷจ୹ॖ -৽װઢཁ໿هࣄ- • ೔ܦgooʹΑΔϝʔϧαʔϏε – ৽װઢं಺ͷిޫܝࣔ൘Ͱ࣮ࡍʹ࢖༻͞Ε͍ͯ ΔχϡʔεهࣄΛ഑৴ – λΠτϧͱຊจ1ʙ3จͰߏ੒͞ΕΔ –

  ਓखͰॏཁՕॴͷಛఆɺ৑௕෦෼ͷ࡟আΛߦͬ ͯ࡞੒͞Εͨ୹ॖจ – ഑৴ස౓ ݄༵ʙ༵ۚ೔·Ͱͷिʹ5೔ɺ1೔3ճ ͜ͷΑ͏ͳχϡʔεهࣄΛ ʮ৽װઢཁ໿هࣄʯͱఆٛ͢Δ 3
 5. ༻ྫར༻ܕͷจ୹ॖ ୹ॖจΛ࡞੒ ༻ྫจɿ ʮ৽װઢཁ໿هࣄʯ̍จ໨ (28032จʛ1999೥12݄ʙ2006೥3݄) ɾ ॏཁՕॴͷಛఆ ɾ ୹ॖจ΁ͷ࠾༻Օॴͷબ୒ 4

  • ൺֱత༰қʹ୹ॖจ͕ಘΒΕΔ ʢϧʔϧ࡞੒΍ॏཁ౓ͷࢉग़͕ෆཁʣ • ΑΓࣗવͳ୹ॖจ͕ಘΒΕΔ
 6. ༻ྫར༻ܕͷจ୹ॖ -୹ॖจͷग़ྗ·Ͱ- ̍ɽ ೖྗจͱྨࣅͨ͠༻ྫจʢʮྨࣅ༻ྫจʯʣ Λબ୒͢Δ ̎ɽ બ୒͞Εͨྨࣅ༻ྫจͱೖྗจͷจઅΛ ஔ׵͠ɺ୹ॖจΛ࡞੒͢Δ ̏ɽ म০෦ͷ෇ՃΛߦ͏

  ɾೖྗจ͔Βੜ੒ͨ͠ύλϯ ɾ༻ྫจ͔Βੜ੒ͨ͠ύλϯ ʢ28032݅ʣ ൺֱ ྨࣅ༻ྫจ 5
 7. ྨࣅ༻ྫจͷબ୒ -֓ཁ- • ೖྗจͱߏจɺޠኮ͕ྨࣅͨ͠༻ྫจ ʢಛʹߏจ͕ྨࣅͨ͠༻ྫจʣ • • ύλϯͷੜ੒ 1ɽจ຤੔ܗʢจ຤ͷܗࣜΛ౷Ұʣ 2ɽߏจύλϯɺ୯ޠύλϯΛੜ੒

  ߏจతͳྨࣅ ޠኮతͳྨࣅ จͷྨࣅ ߏจύλϯ ୯ޠύλϯ 6
 8. ྨࣅ༻ྫจͷબ୒ -จ຤੔ܗ- • ৽װઢཁ໿هࣄʹදΕΔಛ௃తͳจ຤දݱ [ࢁຊΒ,2005] ʮମݴࢭΊʯɺʮॿࢺࢭΊʯ ྨࣅ༻ྫจͷબ୒Λਖ਼͘͠ߦ͑ΔΑ͏ʹ ༻ྫจ ೖྗจ จ຤ͷܗࣜΛશͯଗ͑Δ

  ʮʙͱ߹ҙͨ͠ʯ ˠ ʮʙͱ߹ҙʯ ʮʙ͔Βఫୀ͢Δํ਑ʯ ˠ ʮʙ͔Βఫୀ΁ʯ 7
 9. ྨࣅ༻ྫจͷબ୒ -ύλϯͷੜ੒(1/2)- ߏจύλϯ – จ຤ɺಈࢺɺ֨৘ใΛख͕͔Γͱ͢Δ – จͷجຊߏ଄Λද͢෦෼Λύλϯʹ࠾༻ ߏจύλϯʹ࠾༻͢Δ෦෼ จ຤1จઅ (ͨͩ͠਺ࣈɺॿࢺ͸൚Խͯ͠࠾༻)

  ಈࢺؚ͕·ΕΔจઅͱͦͷ܎Γݩจઅ ʢ໊ͨͩ͠ࢺɺ਺ࣈɺه߸͸൚Խͯ͠࠾༻ʣ ୯ޠύλϯ – ޠኮʹண໨͠ɺݻ༗໊ࢺɺ਺ࣈɺه߸Λ൚Խͨ͠ύ λϯ 8
 10. ྨࣅ༻ྫจͷબ୒ -ύλϯͷੜ੒(2/2)- ύλϯͷੜ੒ྫ Ex1) ΠτʔϤʔΧಊ͸ / 24೔͔Β / 5೔ؒݶఆͰ /

  8200ԁͷ / ਈ࢜ɾ්ਓεʔπΛ / ൢച / ߏจύλϯ) #͸#͔Β#Ͱ#Λൢച ୯ޠύλϯ) #͸#೔͔Β#೔ؒݶఆͰ#ԁͷ ਈ࢜#්ਓεʔπΛൢച ˞໊ࢺ۟ʹ܎Δจઅ͸ߏจύλϯ࠾༻ͤͣ 9
 11. ྨࣅ༻ྫจͷબ୒ ύλϯͷൺֱ – ೖྗจͱ࠷΋ྨࣅͨ͠༻ྫจΛબ୒͢Δ – ྨࣅ౓ई౓ʹ͸BLEUείΞΛ࢖༻ • BLEUείΞ n-gramͷزԿฏۉ ෆ౰ͳείΞΛ༩͑ͳ͍Α͏ϖφϧςΟ

  )) ( ), ( BLEU( ) 1 ( )) ( ), ( BLEU( ) , ( sim i i i t w s w t d s d t s λ λ − + = : ) ( ), ( : ) ( ), ( : : i t w s w i t d s d i t s ೖྗจ ൪໨ͷ༻ྫจ i ೖྗจͷߏจύλϯɺ ൪໨ͷ༻ྫจͷߏจύλϯ i ೖྗจͷ୯ޠύλϯɺ ൪໨ͷ༻ྫจͷ୯ޠύλϯ i ༻ྫจू߹ ͷ T ) , ( sim max arg ˆ i t s T ti t ∈ = ྨࣅ༻ྫจ ͸ t ˆ 10/
 12. ༻ྫར༻ܕͷจ୹ॖ -୹ॖจͷग़ྗ·Ͱ- ̍ɽ ೖྗจͱྨࣅͨ͠༻ྫจʢʮྨࣅ༻ྫจʯʣ Λબ୒͢Δ ̎ɽ બ୒͞Εͨྨࣅ༻ྫจͱೖྗจͷจઅΛ ஔ׵͠ɺ୹ॖจΛ࡞੒͢Δ ̏ɽ म০෦ͷ෇ՃΛߦ͏

  11
 13. ୹ॖจͷ࡞੒ -֓ཁ- ෦෼తஔ׵ – ೖྗจͱྨࣅ༻ྫจͷจઅΛஔ׵ – ୹ॖจ࡞੒·Ͱ 1ɽจ຤จઅΛஔ׵ 2ɽஔ׵ͨ͠จઅͷ܎ΓݩจઅͰ࠷ऴܗଶૉ͕ ॿࢺ

  ˠ ॿࢺ͕ಉ͡৔߹ ͦͷଞ ˠ ඼ࢺ͕ಉ͡৔߹ ͦͷจઅΛஔ׵͢Δ ʢͨͩ͠ʮ໊ࢺ+ॿࢺʯʹ܎Δจઅ͸ஔ׵ͤͣʣ ஔ׵Օॴ͕ແ͘ͳΔ·Ͱ܁Γฦ͢ 12
 14. ୹ॖจͷ࡞੒ -࡞੒ྫ- ྨࣅ༻ྫจɿDDIͱ/KDDɺ/೔ຊҠಈ௨৴(IDO)͸/ 16೔ޕޙɺ/དྷ೥ͷ/10݄1೔෇Ͱ/ ߹ซ͢Δͱ / ਖ਼ࣜʹ/ ൃද / ೖྗจɿμΠΤʔͷ/ߴ໦๜෉ࣾ௕͸/15೔ޕલɺ

  /ܾࢉऔక໾ձͷ/੮্Ͱ/22೔෇Ͱ/ࣾ௕Λ/ ࣙ೚͢Δͱ/ ද໌ / ஔ׵ޙɿߴ໦๜෉ࣾ௕͸15೔ޕલɺ22೔෇Ͱࣙ೚͢Δͱ ද໌ ද໌ ߴ໦๜෉ࣾ௕͸ 15೔ޕલɺ 22೔෇Ͱ ࣙ೚͢Δͱ 13/
 15. ༻ྫར༻ܕͷจ୹ॖ -୹ॖจͷग़ྗ·Ͱ- ̍ɽ ೖྗจͱྨࣅͨ͠༻ྫจʢʮྨࣅ༻ྫจʯʣ Λબ୒͢Δ ̎ɽ બ୒͞Εͨྨࣅ༻ྫจͱೖྗจͷจઅΛ ஔ׵͠ɺ୹ॖจΛ࡞੒͢Δ ̏ɽ म০෦ͷ෇ՃΛߦ͏

  14
 16. म০෦ͷ෇Ճ -༻ྫจ͔Βσʔλ࡞੒- • ࿈ମम০અͷ௕͞ ˠ ඃम০໊ࢺʹΑͬͯҟͳΔ • ༻ྫจ(໿28000݅)ɿ – ʮ໊ࢺʴ֨ॿࢺʯɺʮ໊ࢺʴ܎ॿࢺʯͷจઅʹରͯ͠

  Կॏʹจઅ͕܎͍ͬͯΔ͔ฏۉΛͱΔ ܾఆ άϧδΞେ౷ྖબڍͰ ݱ৬ͷ γΣϫϧφθେ౷ྖͷ ࠶બ͕ % % % % େ౷ྖ : ̍จઅ ࠶બ : ̎จઅ Exʣ༻ྫจ 15
 17. म০෦ͷ෇Ճ -෇Ճྫ- ೖྗจɿμΠΤʔͷ/ߴ໦๜෉ࣾ௕͸/15೔ޕલɺ/ ܾࢉऔక໾ձͷ/੮্Ͱ/22೔෇Ͱ/ࣾ௕Λ/ࣙ೚ ͢Δͱ/ද໌/ ஔ׵ޙɿߴ໦๜෉ࣾ௕͸/15೔ޕલɺ/22೔෇Ͱ/ ࣙ೚͢Δͱ/ද໌/ ग़ྗจ(୹ॖจ)ɿ μΠΤʔͷ/ߴ໦๜෉ࣾ௕͸/15 ೔ޕલɺ/22೔෇Ͱ/ࣙ೚͢Δͱ/ද໌/

  ࿈ମम০અͷ௕͞ฏۉ͸1จઅ 16
 18. ධՁ࣮ݧ -࣮ݧσʔλ- • ༻ྫจ – ʮ৽װઢཁ໿هࣄʯ 1จ໨ 28032จ ʢ1999೥12݄ʙ2006೥3݄ʣ •

  ςετσʔλ – Webهࣄͷ1จ໨100จ ʢlNIKKEI NETΑΓzʣ • ύϥϝʔλͷௐ੔ – ςετσʔλͱ͸ผͷWebهࣄͷ1จ໨100จ • ٬؍ධՁͷਖ਼ղσʔλ – WebهࣄͱλΠτϧ͕ಉҰͷ༻ྫจ 17
 19. ٬؍ධՁ -ධՁํ๏- • ٬؍ධՁ Ϧʔυ๏ طଘݚڀʢ୯ޠநग़ʹΑΔจ୹ॖʣ ఏҊख๏aʢ1Ґͷྨࣅ༻ྫจΛ࢖༻ʣ ఏҊख๏bʢ্Ґ5Ґͷྨࣅ༻ྫจΛ࢖༻ɺ5จΛग़ྗʣ ධՁࢦඪ ROUGEείΞ(N-gram࠶ݱ཰)

  ∑ ∑ ∈ − ∈ − − = r gram n r gram n n n n gram r CT gram r CT gram c CT r c N ) ( )) ( ), ( min( ) , ( - ROUGE ఏҊख๏ͷ ཁ໿཰Ͱ࣮ݧ 18
 20. ཁ໿཰ • ཁ໿཰ – ग़ྗจͷܗଶૉ਺ ʗ ೖྗจͷܗଶૉ਺ – ٬؍ධՁͰ͸͜ͷཁ໿཰ΛϦʔυ๏ɺطଘݚڀ ʹద༻͠ൺֱΛߦ͏

  .454 ্Ґ5Ґͷྨࣅ༻ྫจ͔Β࡞੒ ʢROUGE-1͕࠷΋ߴ͔ͬͨ୹ॖจʣ .416 1Ґͷྨࣅ༻ྫจ͔Β࡞੒ ཁ໿཰ ཁ໿཰ͷࢉग़Λߦͬͨର৅ 19
 21. ٬؍ධՁ -ධՁ݁Ռ- ఏҊख๏a:1Ґͷྨࣅ༻ྫจ͔Β࡞੒ͨ͠୹ॖจ ఏҊख๏̱:ྨࣅ༻ྫจΛ্Ґ5Ґ·Ͱग़ྗͨ͠ͱ͖ʹ ࠷΋ྑ͍ධՁ͕ಘΒΕͨ୹ॖจ ఏҊख๏ͷํ͕༏ҐͰ͋Δ݁Ռ͕ಘΒΕͨ ʢROUGE-̎ͷ݁Ռ͔ΒΑΓ୯ޠ࿈઀ͷྑ͍୹ॖจΛ࡞ ੒Ͱ͖ͨʣ .332 .208

  .254 ROUGE-2 .517 .458 .446 ROUGE-1 ఏҊख๏b طଘݚڀ Ϧʔυ๏ .279 .186 .233 ROUGE-2 .455 .421 .410 ROUGE-1 ఏҊख๏a طଘݚڀ Ϧʔυ๏ 20
 22. ओ؍ධՁ -ධՁํ๏- • ̎ͭͷൺֱʢ࠶ݱ཰ɺద߹཰ɺF஋ʣ ఏҊख๏ɿ্Ґ5จΛग़ྗ ̍ɽඃݧऀ3ਓ ೖྗจͷจઅ͔Β୹ॖจʹඞཁͩͱࢥ͏จઅΛࣗ༝ʹ બ୒ͨ͠ ྨࣅ༻ྫจΛ্Ґ5Ґ·Ͱग़ྗ͠ɺ࡞੒ͨ͠୹ॖจ5จ ਓ͕ؒจઅ୯ҐͰબ୒ͨ͠৔߹ͷཧ૝తͳ୹ॖ

  จʹͲΕ͚͍͔ͩۙ ൺֱ 21
 23. ओ؍ධՁ -ධՁํ๏- ̎ɽඃݧऀ3ਓ ࢦఆ͞Εͨจઅ਺ͷൣғͰ୹ॖจʹඞཁͩͱߟ͑Δจ અΛબ୒ ྨࣅ༻ྫจΛ্Ґ5Ґ·Ͱग़ྗ͠ɺ࡞੒ͨ͠୹ॖจ5จ ఏҊख๏͕୹ॖจʹ࠾༻ͨ͠จઅͷਖ਼ޡ Ex) 1Ґ 6จઅ

  2Ґ 7จઅ 3Ґ 6จઅ 4Ґ 8จઅ (max) 5Ґ 5จઅ (min) 5ʙ8จઅͰબ୒ ൺֱ ࢦఆͨ͠จઅ਺ 22 ྨࣅ༻ྫจxҐ͔Β࡞੒ͨ͠୹ॖจͷจઅ਺
 24. ओ؍ධՁ -ධՁ݁Ռ- ̍ɽ೚ҙͷจઅ਺Ͱબ୒ ̎ɽࢦఆ͞Εͨจઅ਺Ͱબ୒ ࠶ݱ཰͸௿͍͕ɺఏҊख๏Ͱબ୒ͨ͠จઅͷ໿8ׂ͸ਖ਼ ղͰ͋ͬͨ .669 .645 .709 .654

  F஋ .781 .699 .867 .778 ద߹཰ .588 .599 .600 .554 ࠶ݱ཰ શମฏۉ ඃݧऀC ඃݧऀB ඃݧऀA .665 .634 .749 .613 F஋ .734 .637 .786 .648 ద߹཰ .637 .632 .716 .581 ࠶ݱ཰ શମฏۉ ඃݧऀC ඃݧऀB ඃݧऀA 23
 25. ߟ࡯ -୹ॖจͷจઅ਺- • ඃݧऀ͕೚ҙͷจઅ਺Ͱ୹ॖจʹ࠾༻ͨ͠จઅ਺ ೖྗจͷจઅ਺ɺฏۉ13.4จઅʹରͯ͠ ఏҊख๏Ͱબ୒͢Δจઅ਺͸গͳ͍ ˠ ࠶ݱ཰ ௿ •

  ਓ͕ؒ࡞੒͢Δ୹ॖจʹΑΓ͚ۙͮΔͨΊʹ ஔ׵ํ๏ (ྨࣅ༻ྫจͱߏจ͕શ͘ҟͳΔͱஔ׵Ͱ͖ͳ͍) म০෦ͷ෇Ճ (Ͳͷम০෦Λ෇Ճ͢΂͖͔༏ઌ౓Λߟྀ͢Δ) 5.8 6.3 7.8 7.0 จઅ਺ ఏҊख๏ ඃݧऀC ඃݧऀB ඃݧऀA 24
 26. ߟ࡯ -ਖ਼͘͠࡞੒͞Εͳ͔ͬͨ୹ॖจ- • ਖ਼͘͠࡞੒͞Εͳ͔ͬͨ୹ॖจʹ͍ͭͯ – ྨࣅ༻ྫจ ˠ ߏจύλϯɺ୯ޠύλϯ ೖྗจ: ๺ே઱ʹΑΔ፮கඃ֐ऀɺીզͻͱΈ͞Μͷ෉

  ͰݩถฌͷδΣϯΩϯε͞Μ͸ ʙ ͱ ໘ձͨ͠ બ୒͞Εͨྨࣅ༻ྫจ: ીզͻͱΈ͞Μͷ෉Ͱݩถฌͷ δΣϯΩϯε͞Μ͕ ʙ ʹ ग़಄΁ ୯ޠύλϯ͕ྨࣅ͍ͯ͠Δ͚ͩͰ͸ɺਖ਼͍͠୹ॖจ ͕࡞੒͞Εͳ͍ ˠ ύϥϝʔλͷௐ੔ɺޠʹॏΈΛஔ͘ͳͲݕ౼͕ ඞཁ 25
 27. ͓ΘΓʹ • ೖྗจͱྨࣅͨ͠༻ྫจͷจઅΛஔ׵͢Δ͜ ͱʹΑͬͯ୹ॖจΛ࡞੒ͨ͠ ༻ྫར༻ܕͷจ୹ॖ ϧʔϧ࡞੒ɺॏཁ౓ͷࢉग़͕ෆཁ ΑΓࣗવͳ୹ॖจ͕࡞੒Ͱ͖Δ • طଘݚڀʹൺ΂ɺ̧̤̪̜̚είΞͰ༏Ґͳ݁ Ռ͕ಘΒΕͨ

  • ࠓޙͷ՝୊ – ྨࣅ༻ྫจͷબ୒ – ཁ໿཰Մมͷจ୹ॖث 27
 28. • ͓ΘΓ