Upgrade to Pro — share decks privately, control downloads, hide ads and more …

情報検索の基礎 #12

146f04b4645afc2de2fe9d5bad51cc89?s=47 nishiokya
July 03, 2019

情報検索の基礎 #12

言語モデルを利用した検索手法
クエリ尤度モデル
シンプル&拡張性
言語モデルとスムージングを問題にあわせて組み合わせ

応用した言語モデル色々
言語尤度モデル、KL距離
翻訳モデル

146f04b4645afc2de2fe9d5bad51cc89?s=128

nishiokya

July 03, 2019
Tweet

More Decks by nishiokya

Other Decks in Science

Transcript

 1. ৘ใݕࡧͷجૅ ৘ใݕࡧͷͨΊͷݴޠϞσϧ LVNBHBJ

 2. ষͷ֓ཁ • • ݴޠϞσϧͷ֓ཁ • • ΫΤϦʔ໬౓Ϟσϧ •

   • ݴޠϞσϧͱଞͷख๏ͷൺֱ • • ֦ுݴޠϞσϧ
 3. ষͷ֓ཁ • ষͷ಺༰ • จষͱΫΤϦΛ௚઀ར༻ͨ͠ॱং෇͚ • จষEʹΫΤϦRΛؚΉ͔൱͔ • ΫΤϦʹରͯؔ͠࿈͔ඇؔ࿈͔ 2VFSZ

  ! " = 1 %, ')
 4. ষͷ֓ཁ • จষ!͔ΒݴޠϞσϧ"#Λੜ੒ • ݴޠϞσϧ͕ΫΤϦΛੜ੒͢Δ֬཰$ % "# • $ %

  "# Ͱॱং෇͚ 2VFSZ ݴޠϞσϧ $(%|"# )
 5. ݴޠϞσϧ

 6. ༗ݶΦʔτϚτϯͱݴޠϞσϧ • ୯ޠΛੜ੒͢ΔݴޠϞσϧͷྫ • lGSPHTBJEUIBUUPBEMJLFGSPHzΛੜ੒͢Δ֬཰ จষEͷ.PEFM ୯ޠͷग़ݱ֬཰ lGSPHTBJEUIBUUPBEMJLFGSPHzΛੜ੒͢Δ֬཰ จষEʹ͓͚Δ୯ޠ ͷग़ݱ֬཰

  = 0.000000000024 &ℎ( 
 7. ༗ݶΦʔτϚτϯͱݴޠϞσϧ • ྫ͑ͯઆ໌ • จষதͷ୯ޠ GSPH MJLF ͘͡ • จষͷશ୯ޠΛೖΕͨ͘͡ശ

  ʹ ݴޠϞσϧ • lGSPHzճɺlTBJEzճʜͷ૊Έ߹ΘͤΛ͘͡ശ͔ΒҾ֬͘཰ lGSPHTBJEUIBUUPBEMJLFGSPHzΛੜ੒͢Δ֬཰ จষ ୯ޠͷׂ߹ GSPH UIBU MJLF GSPH TBJE UPBE
 8. ༗ݶΦʔτϚτϯͱݴޠϞσϧ • ݴޠϞσϧͷൺֱ • ͭจষ͔Β࡞੒ͨ͠ݴޠϞσϧ • ͲͪΒͷํ͕lGSPHTBJEUIBUUPBEMJLFGSPHzΛੜ੒͢Δ֬཰͕ߴ͍͔ .PEFMͷํ͕֬཰͕ߴ͍ จষͷํ͕ଟ͘ΫΤϦ͕ग़ݱ͠ɺదͨ͠จষ

 9. ༗ݶΦʔτϚτϯͱݴޠϞσϧ จষ ୯ޠͷׂ߹ ୯ޠͷׂ߹ จষ • Ͳ͏͍͏͜ͱ • จষͷ͘͡ശͱจষͷ͘͡ശΛ४උ •

  GSPHº TBJE UIBU UPBE MJLFͷ૊Έ߹ΘͤΛͻ֬͘཰͸ ͲͪΒͷํ͕ߴ͍͔ʁ
 10. ݴޠϞσϧͷछྨ • ྫͰ͸ΫΤϦʹؚ·ΕΔ୯ޠͷग़ݱ֬཰ͷੵΛར༻ • શ୯ޠͷग़ݱ֬཰ͷੵʹΫΤϦ͕ੜ੒͞ΕΔ֬཰ ˠ ͜Ε͸ຊ౰ʹଥ౰ʁ ୯ޠͷग़ݱ֬཰ lGSPHTBJEUIBUUPBEMJLFGSPHzΛੜ੒͢Δ֬཰ =

  0.000000000024
 11. ݴޠϞσϧͷछྨ • ΫΤϦ͕ग़ݱ͢Δ֬཰ΛͲ͏ߏங͢Δ͔ʁ • ϢχάϥϜݴޠϞσϧ • ֤୯ޠ͸ಠཱͱԾఆ͢Δ • ྫͰܭࢉͨ͠ͷ͸͜ͷϞσϧ •

  όΠάϥϜݴޠϞσϧ • ֤୯ޠ͸લͷ୯ޠͷӨڹΛड͚ΔͱԾఆ͢Δ • Ի੠ೝࣝ౳Ͱར༻ • ֬཰తࣗ༝จ๏ • Ի੠ೝࣝ΍εϖϧमਖ਼ͳͲෳࡶͳपลจ຺Λߟྀ͢Δ৔߹ʹར༻
 12. ݴޠϞσϧͷछྨ • ৘ใݕࡧ͸ຆͲϢχάϥϜݴޠϞσϧΛར༻ • ୯ޠͷߏ੒ʹґଘ͢ΔλεΫͰ͸ͳ͍ • ৘ใݕࡧͰे෼ͳύϑΥʔϚϯε͕ಘΒΕΔ • ΑΓෳࡶͳϞσϧ͸৘ใݕࡧʹద͞ͳ͍ •

  จষ͔ΒϞσϧΛ࡞੒͢ΔͨΊ܇࿅σʔλ͕গͳ͍ • ! "# "$ ΛٻΊΔͷʹෆे෼ ୯ޠͷग़ݱ֬཰ 0,!
 13. ޠʹ͓͚Δଟ߲෼෍ • ϢχάϥϜݴޠϞσϧͰ͸ޠͷॱং͸ແؔ܎ • จষ!Λੜ੒͢Δ֬཰͸ଟ߲෼෍ͰදݱͰ͖Δ "# : ! % &'(#

  : ! & ) & : &
 14. ΫΤϦʔ໬౓Ϟσϧ

 15. ৘ใݕࡧʹ͓͚ΔΫΤϦʔ໬౓Ϟσϧͷར༻ • ֬཰తʹϥϯΩϯά͢Δʹ͸ʜ • ΍Γ͍ͨ͜ͱɿ! " # ʹΑͬͯจষΛϥϯΩϯά͢Δ • !

  " # ɿΫΤϦ#ʹରͯ͠จॻ"͕ద߹͢Δ֬཰ • ϕΠζͷ๏ଇΛద༻͢Δͱ ΫΤϦͷൃੜ֬཰ จষͷൃੜ֬཰ จষʹ͓͚Δ ΫΤϦͷൃੜ֬཰
 16. ৘ใݕࡧʹ͓͚ΔΫΤϦʔ໬౓Ϟσϧͷར༻ ΫΤϦ͸શͯͷจষͰಉ͡ ˠ ϥϯΩϯάʹؔ܎ͳ͍ จষ͕ग़ݱ͢Δ֬཰͸Ұ༷ ͱߟ͑Δ͔͠ͳ͍ ˠ ϥϯΩϯάʹؔ܎ͳ͍ ˞δϟϯϧ΍طಡ৘ใͳͲΛߟྀͯ͠Մมͷ৔߹΋͋Δ ʮจষʹ͓͚ΔΫΤϦͷൃੜ֬཰ʯ͕ຊ࣭తͳҙຯΛ࣋ͭ

 17. ৘ใݕࡧʹ͓͚ΔΫΤϦʔ໬౓Ϟσϧͷར༻ ! " # ͷٻΊΔํ๏͸৭ʑ ͜͜Ͱ͸ϢχάϥϜݴޠϞσϧΛར༻ ࠷ॳͷྫͱҰॹ ! " #

  = ! " %& ݴޠϞσϧΛར༻ͨ͠ݕࡧ͕ΫΤϦʔ໬౓Ϟσϧ จষ # ! " %& lGSPHTBJEUIBUUPBEMJLFGSPHz
 18. ৘ใݕࡧʹ͓͚ΔΫΤϦʔ໬౓Ϟσϧͷར༻ • ଟ߲෼෍ʹ౰ͯ͸ΊΔͱ࠷ऴతʹ͜͏ͳΔ ଟ߲܎਺ จॻEͷϞσϧ͕ ୯ޠUΛੜ੒͢Δ֬཰ จॻEʹ͓͚Δ ୯ޠUͷൃੜස౓ ίϨΫγϣϯ಺ͷશ ୯ޠ7ʹର͢Δ௚ੵ

 19. ΫΤϦʔੜ੒֬཰ͷਪఆ • ! " #$ ͸Ͳ͏ٻΊΒΕΔ͔ʁ • ࠷໬ਪఆͰ% " #$

  ͕࠷େʹͳΔ% & #$ ΛٻΊΔ จষEͷ૯୯ޠ਺ จষEʹ͓͚Δ୯ޠUͷग़ݱස౓ ୯७ʹ୯ޠ͕ൃੜ͢Δׂ߹ͰٻΊΔ͜ͱ͕Ͱ͖Δ
 20. ! " #$ = &$ '()*$ ! '(),$ ! ⋯

  '().$ ! ! '/ #$ )01*2! '3 #$ )01,2 ⋯ ! '4 #$ )01.2 = &$ ∏ 67/ 4 '()8$ ! 9 :7/ 4 ! ': #$ )01;2 ର਺໬౓ΛऔΔͱ log ! " #$ = &$ − @ 67/ 4 log '()8$ ! + @ :7/ 4 '();$ log! ': #$ ଟ߲෼෍ͷ੒໿∑676 C ! ': #$ = 1Λ༻͍ͯ ϥάϥϯδϡ৐਺๏ʹΑΓۃ஋ΛٻΊΔ & = &$ − @ 67/ 4 log '()8$ ! + @ :7/ 4 '();$ log! ': #$ + E @ 676 C ! '6 #$ − 1 F& F! 'G #$ = '()H$ ! 'G #$ + E = 0 − '()H$ E = ! 'G #$ શͯͷJʹରͯ͠ಉ༷ʹภඍ෼ΛٻΊɺ ଍͠߹ΘͤΔ − 1 E @ G7/ C '()H$ = @ G7/ C ! 'G #$ − &$ E = 1 E = −&$ − '()H$ &$ = ! 'G #$ ! 'G #$ )01H2 K2 EΛ্هͷࣜʹ୅ೖ͢Δ ٻΊͯΈͨ
 21. ΫΤϦʔੜ੒֬཰ͷਪఆ ࠷ॳͷྫͰߟ͑Δͱʜ !"#,% &% จষEʹग़ݱ͢Δશ୯ޠதͷ୯ޠUͷׂ߹ ΫΤϦʹؚ·ΕΔ୯ޠͷ ൃੜ֬཰ͷ௚ੵ ࠷ॳͷྫ͸ϢχάϥϜݴޠϞσϧΛར༻ͨ͠ΫΤϦ໬౓Ϟσϧ

 22. ΫΤϦʔੜ੒֬཰ͷਪఆ • ໰୊఺ • શ͘ग़ݱ͠ͳ͍୯ޠ͕͋Δͱ֬཰͕ʹͳΔ • ΫΤϦʮϥʔϝϯ ͱΜͭ͜ OBHPZBʯͰݕࡧ จষʹʮOBHPZBʯ͕ͳ͚Ε͹໬౓͸

  • ྵ֬཰໰୊ • ҙຯͱͷ઀ଓʁ DPOOFDUJWFTFNBOUJDT DPOKVODUJWFTFNBOUJDT
 23. ΫΤϦʔੜ੒֬཰ͷਪఆ • ղܾࡦɿεϜʔδϯά • ষͰ΋ొ৔ͨ͠ྵ֬཰ରࡦ • ՃࢉεϜʔδϯά ষ • ෼฼෼ࢠʹՃࢉ

   Ћ • ਫ਼౓ѱ͍
 24. ΫΤϦʔੜ੒֬཰ͷਪఆ • ઢܗิؒ๏ • จষʹग़ݱ͠ͳ͍୯ޠ΋ίϨΫγϣϯશମͰ͸ग़ݱ͢ΔͩΖ͏ • ίϨΫγϣϯʹؚ·ΕΔ୯ޠͰ͋Ε͹ྵ֬཰໰୊ΛճආͰ͖Δ • શจষʹରͯ͠εϜʔδϯά߲͸ಉ͡ ˠ

  ॱং΁ͷӨڹ͸ͳ͍ εϜʔδϯάͷॏΈ 0 ≤ # ≤ 1 จষEʹ͓͚Δ୯ޠU ͷग़ݱ֬཰ ίϨΫγϣϯશମͷ ୯ޠUͷग़ݱ֬཰
 25. ΫΤϦʔੜ੒֬཰ͷਪఆ • σΟϦΫϨɾεϜʔδϯά • จষ௕ʹԠͯ͡εϜʔδϯάͷ౓߹͍ΛՄมʹ͢Δ • จষ͕௕͍ ʹ ؚΜͰ͍Δ୯ޠ͕ଟ͘ɺεϜʔδϯά͕ඞཁͳ͍ εϜʔδϯάͷॏΈЋͷӨڹ

  ͸จষ௕ʹΑܾͬͯ·Δ
 26. ΫΤϦʔੜ੒֬཰ͷਪఆ • ΫΤϦ໬౓ϞσϧΛ·ͱΊΔͱʜ • ͜ͷ໬౓Λར༻ͯ͠ϥϯΩϯά͢Δ จষEʹ͓͚Δ୯ޠU ͷग़ݱ֬཰ ίϨΫγϣϯશମͷ ୯ޠUͷग़ݱ֬཰ จষͷੜ੒֬཰

  ಥવ෮׆ͨ͠
 27. 1POUFͱ$SPGUʹΑΔ࣮ݧ • ΫΤϦ໬౓ϞσϧʹΑΔݕࡧ͸1POUFBOE$SPGU Ͱ ॳΊͯఏҊ͞Εͨ • ΫΤϦ໬౓ϞσϧͱUGJEGΛൺֱ • 53&$Ͱݕূ

  • UGJEGΑΓݦஶʹྑ͍͜ͱΛࣔͨ͠
 28. 1POUFͱ$SPGUʹΑΔ࣮ݧ • ఺ฏۉద߹཰ͰධՁ • શͯͷ3FDBMMͰ-. ΫΤϦ໬౓Ϟσϧ ͷ1SFDJTJPO͕༏Ґ • ࿦จΑΓ •

  UGJEGͷΑ͏ͳΞυϗοΫͳํ๏Ͱ͸ͳ͘ ౷ܭతͳཧ࿦ʹجͮ͘ख๏ΛఏҊͨ͠ • ਫ਼౓޲্͸ॏཁͰ͸ͳ͍ ৽͍͠৘ใݕࡧͷํ๏ͷఏҊʹҙຯ͕͋Δ
 29. ৘ใݕࡧʹ͓͚ΔݴޠϞσϧख๏ͱ ଞͷख๏ͷରൺ

 30. ݴޠϞσϧख๏ͱଞͷख๏ͷରൺ • #*. όΠφϦಠཱϞσϧ ͱͷҧ͍ • Ϟσϧͷؔ࿈ੑΛఘΊ͍ͯΔ • #*.͸୯ޠ͝ͱͷ!"Λར༻ɺ֤จষͰڞ௨ͯ͠ར༻͢Δ •

  ݴޠϞσϧ͸Ϟσϧؒ จষؒ Ͱڞ௨ͷύϥϝʔλΛ༻͍ͳ͍ • ݴޠϞσϧ͸ؔ࿈ੑͷ֓೦͕ͳ͍ #*.ͷ3
 31. ݴޠϞσϧख๏ͱଞͷख๏ͷରൺ • ݴޠϞσϧͷܽ఺ • ؔ࿈ඇؔ࿈ͷ֓೦͕ͳ͍ͨΊద߹ϑΟʔυόοΫ͕ࠔ೉ • ϑϨʔζ΍અͷݕࡧʹ͸ରԠͰ͖ͳ͍ • ϢχάϥϜϞσϧ͸୯ޠͷग़ݱ֬཰͕ಠཱ͔ͩΒ •

  όΠάϥϜϞσϧͳͲΛ࢖͏ඞཁ͕͋Δ
 32. ݴޠϞσϧख๏ͱଞͷख๏ͷରൺ • UGJEGͱͷҧ͍ • େ·͔ʹ͸ࣅ͍ͯΔ • UG ˠ ϢχάϥϜݴޠϞσϧͰͦͷ··ར༻ •

  JEG ˠ ίϨΫγϣϯશମΛར༻͢ΔεϜʔδϯάʹগ͠ࣅ͍ͯΔ • UGJEG͸ώϡʔϦεςΟοΫ ݴޠϞσϧ͸ݪଇత ਺ཧత • ݴޠϞσϧ͸֬཰Ϟσϧ΍εϜʔδϯάํ๏Λม͑ΒΕΔ UGJEG ݴޠϞσϧ
 33. ݴޠϞσϧख๏ͱଞͷख๏ͷରൺ • UGJEG • UG JEG྆ํڞ͕ߴ͍ͱߴ͍஋ • ίϨΫγϣϯͰසग़͢Δ୯ޠͷJEG͸௿͍஋ • ݴޠϞσϧ

  • ͋·Γग़ݱ͠ͳ͍୯ޠ͕͋Δͱ֬཰͕ݮΔ UGJEG ݴޠϞσϧ
 34. ֦ுݴޠϞσϧख๏

 35. ֦ுݴޠϞσϧख๏ จষ໬౓Ϟσϧ ! " #$ • ΫΤϦʔ͕จষΛੜ੒͢Δ֬཰Λར༻ • ͋·ΓධՁ͞Ε͍ͯͳ͍ •

  ΫΤϦʔ͸୯ޠ͕গͳ͍ͨΊɺਫ਼౓ྑ͍ਪఆ͕Ͱ͖ͳ͍ • ద߹ϑΟʔυόοΫ͸૊ࠐΊΔ • ؔ࿈จষ͔ΒऔΓग़ͨ͠༻ޠΛΫΤϦʔʹ֦ுͰ͖Δ ΫΤϦ໬౓Ϟσϧ จষ໬౓Ϟσϧ ,-ڑ཭ʹجͮ͘ํ๏
 36. ֦ுݴޠϞσϧख๏ • ,-ڑ཭ʹجͮ͘ख๏ • ! " #$ ͱ! % #&

  ͷڑ཭ΛଌΓɺখ͍͞ॱʹϥϯΩϯά • ΫΤϦ໬౓ɺจষ໬౓ڞʹසग़͢Δ୯ޠ͕͋Δ΄Ͳద߹͍ͯ͠Δ • ࣮͸ΫΤϦ໬౓Ϟσϧͱ౳ՁʹͳΔ • ෼෍ؒͷڑ཭Λར༻ͨ͠ํ๏͸ଞʹ΋ൃలͰ͖Δ
 37. ֦ுݴޠϞσϧख๏ • ຋༁Ϟσϧ • ಉٛޠɺଞݴޠݕࡧ΁ͷରࡦ จষݴޠϞσϧ ΫΤϦ໬౓Ϟσϧ ಉٛޠؒͷࣄޙ֬཰ γιʔϥε΍ݴޠࣙॻ͔Β࡞੒ ೔ຊޠͷ୯ޠUͱӳޠͷ୯ޠW

  ͕ಉٛޠͰ͋Δ֬཰ ӳ୯ޠW͕ӳจষEʹ ൃੜ͢Δ֬཰
 38. ·ͱΊ • ݴޠϞσϧΛར༻ͨ͠ݕࡧख๏ • ΫΤϦ໬౓Ϟσϧ • γϯϓϧˍ֦ுੑ • ݴޠϞσϧͱεϜʔδϯάΛ໰୊ʹ͋Θͤͯ૊Έ߹Θͤ •

  Ԡ༻ͨ͠ݴޠϞσϧ৭ʑ • ݴޠ໬౓Ϟσϧɺ,-ڑ཭ • ຋༁Ϟσϧ
 39. ࢀߟจݙ • ߐޱߒೋ l৘ใݕࡧͷͨΊͷ֬཰తݴޠϞσϧz ৘ใॲཧֶձ ݚڀใࠂ 7PM4-1/P • ݪౡॱ

  ࠇڮఓ෉ lςΩετͷද૚৘ใͱજࡏ৘ใΛར༻ͨ͠ద ߹ϑΟʔυόοΫz ࣗવݴޠॲཧ /P 7PM • ೥ʹ࣮ࢪ͞Εͨษڧձࢿྉ • IUUQOBPZBEZOEOTPSHdOBPZBJJSQQU