Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
情報検索の基礎 #12
Search
nishiokya
July 03, 2019
Science
1
370
情報検索の基礎 #12
言語モデルを利用した検索手法
クエリ尤度モデル
シンプル&拡張性
言語モデルとスムージングを問題にあわせて組み合わせ
応用した言語モデル色々
言語尤度モデル、KL距離
翻訳モデル
nishiokya
July 03, 2019
Tweet
Share
More Decks by nishiokya
See All by nishiokya
Introduction to Information Retrieval #21 Link analysis
nishiokya
1
220
夜の部Part1:IIRの演習問題を解く--名古屋統計勉強会
nishiokya
1
50
IIR輪読会 Chapter11 確率的情報検索
nishiokya
1
350
情報検索の基礎 第8章 情報検索の評価
nishiokya
1
140
情報検索の基礎 第6章 スコア付け、用語重み付け、ベクトル空間モデル
nishiokya
1
200
情報検索の基礎 第5章 インデックスの圧縮
nishiokya
1
130
情報検索の基礎3.3.3 編集距離の補足
nishiokya
1
250
名古屋検索勉強会 #4 インデックスの構築
nishiokya
1
120
Introduction to Information Retrieval Chapter 1
nishiokya
2
390
Other Decks in Science
See All in Science
Machine Learning for Materials (Lecture 4)
aronwalsh
0
670
Machine Learning for Materials (Lecture 1)
aronwalsh
1
1.5k
OptimizationNight~機械学習と数理最適化の融合~
hidenari
0
290
研究・教育・産学連携の循環の実践
sshimizu2006
0
220
20240420 Global Azure 2024 | Azure Migrate でデータセンターのサーバーを評価&移行してみる
olivia_0707
2
540
LCG20
lcolladotor
0
210
文系出身でも「アルゴリズム×数学」はスッキリ理解できた!話
wakamatsu_takumu
0
200
2023-07-18_Verge_Genomics
lcolladotor
0
110
救急外来でのめまい診療_中枢性めまいを見逃さない!
psasa
0
160
データで課題を解決する -因果関係を調べる統計的因果推論-
sshimizu2006
4
1.3k
論文輪読会 第16回 "NeRF:Representing Scenes as Neural"
academix
0
460
Pandas 2 vs Polars vs Dask (PyDataGlobal 2023 December)
ianozsvald
0
440
Featured
See All Featured
The Power of CSS Pseudo Elements
geoffreycrofte
60
5k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
116
18k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
357
22k
Learning to Love Humans: Emotional Interface Design
aarron
267
39k
Adopting Sorbet at Scale
ufuk
68
8.6k
Making the Leap to Tech Lead
cromwellryan
124
8.5k
From Idea to $5000 a Month in 5 Months
shpigford
377
45k
Scaling GitHub
holman
457
140k
Web development in the modern age
philhawksworth
202
10k
Embracing the Ebb and Flow
colly
80
4.1k
Testing 201, or: Great Expectations
jmmastey
28
6.4k
[RailsConf 2023] Rails as a piece of cake
palkan
23
4k
Transcript
ใݕࡧͷجૅ ใݕࡧͷͨΊͷݴޠϞσϧ LVNBHBJ
ষͷ֓ཁ • • ݴޠϞσϧͷ֓ཁ • • ΫΤϦʔϞσϧ •
• ݴޠϞσϧͱଞͷख๏ͷൺֱ • • ֦ுݴޠϞσϧ
ষͷ֓ཁ • ষͷ༰ • จষͱΫΤϦΛར༻ͨ͠ॱং͚ • จষEʹΫΤϦRΛؚΉ͔൱͔ • ΫΤϦʹରͯؔ͠࿈͔ඇؔ࿈͔ 2VFSZ
! " = 1 %, ')
ষͷ֓ཁ • จষ!͔ΒݴޠϞσϧ"#Λੜ • ݴޠϞσϧ͕ΫΤϦΛੜ͢Δ֬$ % "# • $ %
"# Ͱॱং͚ 2VFSZ ݴޠϞσϧ $(%|"# )
ݴޠϞσϧ
༗ݶΦʔτϚτϯͱݴޠϞσϧ • ୯ޠΛੜ͢ΔݴޠϞσϧͷྫ • lGSPHTBJEUIBUUPBEMJLFGSPHzΛੜ͢Δ֬ จষEͷ.PEFM ୯ޠͷग़ݱ֬ lGSPHTBJEUIBUUPBEMJLFGSPHzΛੜ͢Δ֬ จষEʹ͓͚Δ୯ޠ ͷग़ݱ֬
= 0.000000000024 &ℎ(
༗ݶΦʔτϚτϯͱݴޠϞσϧ • ྫ͑ͯઆ໌ • จষதͷ୯ޠ GSPH MJLF ͘͡ • จষͷશ୯ޠΛೖΕͨ͘͡ശ
ʹ ݴޠϞσϧ • lGSPHzճɺlTBJEzճʜͷΈ߹ΘͤΛ͘͡ശ͔ΒҾ֬͘ lGSPHTBJEUIBUUPBEMJLFGSPHzΛੜ͢Δ֬ จষ ୯ޠͷׂ߹ GSPH UIBU MJLF GSPH TBJE UPBE
༗ݶΦʔτϚτϯͱݴޠϞσϧ • ݴޠϞσϧͷൺֱ • ͭจষ͔Β࡞ͨ͠ݴޠϞσϧ • ͲͪΒͷํ͕lGSPHTBJEUIBUUPBEMJLFGSPHzΛੜ͢Δ͕֬ߴ͍͔ .PEFMͷํ͕͕֬ߴ͍ จষͷํ͕ଟ͘ΫΤϦ͕ग़ݱ͠ɺదͨ͠จষ
༗ݶΦʔτϚτϯͱݴޠϞσϧ จষ ୯ޠͷׂ߹ ୯ޠͷׂ߹ จষ • Ͳ͏͍͏͜ͱ • จষͷ͘͡ശͱจষͷ͘͡ശΛ४උ •
GSPHº TBJE UIBU UPBE MJLFͷΈ߹ΘͤΛͻ֬͘ ͲͪΒͷํ͕ߴ͍͔ʁ
ݴޠϞσϧͷछྨ • ྫͰΫΤϦʹؚ·ΕΔ୯ޠͷग़ݱ֬ͷੵΛར༻ • શ୯ޠͷग़ݱ֬ͷੵʹΫΤϦ͕ੜ͞ΕΔ֬ ˠ ͜Εຊʹଥʁ ୯ޠͷग़ݱ֬ lGSPHTBJEUIBUUPBEMJLFGSPHzΛੜ͢Δ֬ =
0.000000000024
ݴޠϞσϧͷछྨ • ΫΤϦ͕ग़ݱ͢Δ֬ΛͲ͏ߏங͢Δ͔ʁ • ϢχάϥϜݴޠϞσϧ • ֤୯ޠಠཱͱԾఆ͢Δ • ྫͰܭࢉͨ͠ͷ͜ͷϞσϧ •
όΠάϥϜݴޠϞσϧ • ֤୯ޠલͷ୯ޠͷӨڹΛड͚ΔͱԾఆ͢Δ • ԻೝࣝͰར༻ • ֬తࣗ༝จ๏ • Իೝࣝεϖϧमਖ਼ͳͲෳࡶͳपลจ຺Λߟྀ͢Δ߹ʹར༻
ݴޠϞσϧͷछྨ • ใݕࡧຆͲϢχάϥϜݴޠϞσϧΛར༻ • ୯ޠͷߏʹґଘ͢ΔλεΫͰͳ͍ • ใݕࡧͰेͳύϑΥʔϚϯε͕ಘΒΕΔ • ΑΓෳࡶͳϞσϧใݕࡧʹద͞ͳ͍ •
จষ͔ΒϞσϧΛ࡞͢ΔͨΊ܇࿅σʔλ͕গͳ͍ • ! "# "$ ΛٻΊΔͷʹෆे ୯ޠͷग़ݱ֬ 0,!
ޠʹ͓͚Δଟ߲ • ϢχάϥϜݴޠϞσϧͰޠͷॱংແؔ • จষ!Λੜ͢Δ֬ଟ߲ͰදݱͰ͖Δ "# : ! % &'(#
: ! & ) & : &
ΫΤϦʔϞσϧ
ใݕࡧʹ͓͚ΔΫΤϦʔϞσϧͷར༻ • ֬తʹϥϯΩϯά͢Δʹʜ • Γ͍ͨ͜ͱɿ! " # ʹΑͬͯจষΛϥϯΩϯά͢Δ • !
" # ɿΫΤϦ#ʹରͯ͠จॻ"͕ద߹͢Δ֬ • ϕΠζͷ๏ଇΛద༻͢Δͱ ΫΤϦͷൃੜ֬ จষͷൃੜ֬ จষʹ͓͚Δ ΫΤϦͷൃੜ֬
ใݕࡧʹ͓͚ΔΫΤϦʔϞσϧͷར༻ ΫΤϦશͯͷจষͰಉ͡ ˠ ϥϯΩϯάʹؔͳ͍ จষ͕ग़ݱ͢Δ֬Ұ༷ ͱߟ͑Δ͔͠ͳ͍ ˠ ϥϯΩϯάʹؔͳ͍ ˞δϟϯϧطಡใͳͲΛߟྀͯ͠Մมͷ߹͋Δ ʮจষʹ͓͚ΔΫΤϦͷൃੜ֬ʯ͕ຊ࣭తͳҙຯΛ࣋ͭ
ใݕࡧʹ͓͚ΔΫΤϦʔϞσϧͷར༻ ! " # ͷٻΊΔํ๏৭ʑ ͜͜ͰϢχάϥϜݴޠϞσϧΛར༻ ࠷ॳͷྫͱҰॹ ! " #
= ! " %& ݴޠϞσϧΛར༻ͨ͠ݕࡧ͕ΫΤϦʔϞσϧ จষ # ! " %& lGSPHTBJEUIBUUPBEMJLFGSPHz
ใݕࡧʹ͓͚ΔΫΤϦʔϞσϧͷར༻ • ଟ߲ʹͯΊΔͱ࠷ऴతʹ͜͏ͳΔ ଟ߲ จॻEͷϞσϧ͕ ୯ޠUΛੜ͢Δ֬ จॻEʹ͓͚Δ ୯ޠUͷൃੜස ίϨΫγϣϯͷશ ୯ޠ7ʹର͢Δੵ
ΫΤϦʔੜ֬ͷਪఆ • ! " #$ Ͳ͏ٻΊΒΕΔ͔ʁ • ࠷ਪఆͰ% " #$
͕࠷େʹͳΔ% & #$ ΛٻΊΔ จষEͷ૯୯ޠ จষEʹ͓͚Δ୯ޠUͷग़ݱස ୯७ʹ୯ޠ͕ൃੜ͢Δׂ߹ͰٻΊΔ͜ͱ͕Ͱ͖Δ
! " #$ = &$ '()*$ ! '(),$ ! ⋯
'().$ ! ! '/ #$ )01*2! '3 #$ )01,2 ⋯ ! '4 #$ )01.2 = &$ ∏ 67/ 4 '()8$ ! 9 :7/ 4 ! ': #$ )01;2 ରΛऔΔͱ log ! " #$ = &$ − @ 67/ 4 log '()8$ ! + @ :7/ 4 '();$ log! ': #$ ଟ߲ͷ∑676 C ! ': #$ = 1Λ༻͍ͯ ϥάϥϯδϡ๏ʹΑΓۃΛٻΊΔ & = &$ − @ 67/ 4 log '()8$ ! + @ :7/ 4 '();$ log! ': #$ + E @ 676 C ! '6 #$ − 1 F& F! 'G #$ = '()H$ ! 'G #$ + E = 0 − '()H$ E = ! 'G #$ શͯͷJʹରͯ͠ಉ༷ʹภඍΛٻΊɺ ͠߹ΘͤΔ − 1 E @ G7/ C '()H$ = @ G7/ C ! 'G #$ − &$ E = 1 E = −&$ − '()H$ &$ = ! 'G #$ ! 'G #$ )01H2 K2 EΛ্هͷࣜʹೖ͢Δ ٻΊͯΈͨ
ΫΤϦʔੜ֬ͷਪఆ ࠷ॳͷྫͰߟ͑Δͱʜ !"#,% &% จষEʹग़ݱ͢Δશ୯ޠதͷ୯ޠUͷׂ߹ ΫΤϦʹؚ·ΕΔ୯ޠͷ ൃੜ֬ͷੵ ࠷ॳͷྫϢχάϥϜݴޠϞσϧΛར༻ͨ͠ΫΤϦϞσϧ
ΫΤϦʔੜ֬ͷਪఆ • • શ͘ग़ݱ͠ͳ͍୯ޠ͕͋Δͱ͕֬ʹͳΔ • ΫΤϦʮϥʔϝϯ ͱΜͭ͜ OBHPZBʯͰݕࡧ จষʹʮOBHPZBʯ͕ͳ͚Ε
• ྵ֬ • ҙຯͱͷଓʁ DPOOFDUJWFTFNBOUJDT DPOKVODUJWFTFNBOUJDT
ΫΤϦʔੜ֬ͷਪఆ • ղܾࡦɿεϜʔδϯά • ষͰొͨ͠ྵ֬ରࡦ • ՃࢉεϜʔδϯά ষ • ࢠʹՃࢉ
Ћ • ਫ਼ѱ͍
ΫΤϦʔੜ֬ͷਪఆ • ઢܗิؒ๏ • จষʹग़ݱ͠ͳ͍୯ޠίϨΫγϣϯશମͰग़ݱ͢ΔͩΖ͏ • ίϨΫγϣϯʹؚ·ΕΔ୯ޠͰ͋Εྵ֬ΛճආͰ͖Δ • શจষʹରͯ͠εϜʔδϯά߲ಉ͡ ˠ
ॱংͷӨڹͳ͍ εϜʔδϯάͷॏΈ 0 ≤ # ≤ 1 จষEʹ͓͚Δ୯ޠU ͷग़ݱ֬ ίϨΫγϣϯશମͷ ୯ޠUͷग़ݱ֬
ΫΤϦʔੜ֬ͷਪఆ • σΟϦΫϨɾεϜʔδϯά • จষʹԠͯ͡εϜʔδϯάͷ߹͍ΛՄมʹ͢Δ • จষ͕͍ ʹ ؚΜͰ͍Δ୯ޠ͕ଟ͘ɺεϜʔδϯά͕ඞཁͳ͍ εϜʔδϯάͷॏΈЋͷӨڹ
จষʹΑܾͬͯ·Δ
ΫΤϦʔੜ֬ͷਪఆ • ΫΤϦϞσϧΛ·ͱΊΔͱʜ • ͜ͷΛར༻ͯ͠ϥϯΩϯά͢Δ จষEʹ͓͚Δ୯ޠU ͷग़ݱ֬ ίϨΫγϣϯશମͷ ୯ޠUͷग़ݱ֬ จষͷੜ֬
ಥવ෮׆ͨ͠
1POUFͱ$SPGUʹΑΔ࣮ݧ • ΫΤϦϞσϧʹΑΔݕࡧ1POUFBOE$SPGU Ͱ ॳΊͯఏҊ͞Εͨ • ΫΤϦϞσϧͱUGJEGΛൺֱ • 53&$Ͱݕূ
• UGJEGΑΓݦஶʹྑ͍͜ͱΛࣔͨ͠
1POUFͱ$SPGUʹΑΔ࣮ݧ • ฏۉద߹ͰධՁ • શͯͷ3FDBMMͰ-. ΫΤϦϞσϧ ͷ1SFDJTJPO͕༏Ґ • จΑΓ •
UGJEGͷΑ͏ͳΞυϗοΫͳํ๏Ͱͳ͘ ౷ܭతͳཧʹجͮ͘ख๏ΛఏҊͨ͠ • ਫ਼্ॏཁͰͳ͍ ৽͍͠ใݕࡧͷํ๏ͷఏҊʹҙຯ͕͋Δ
ใݕࡧʹ͓͚ΔݴޠϞσϧख๏ͱ ଞͷख๏ͷରൺ
ݴޠϞσϧख๏ͱଞͷख๏ͷରൺ • #*. όΠφϦಠཱϞσϧ ͱͷҧ͍ • Ϟσϧͷؔ࿈ੑΛఘΊ͍ͯΔ • #*.୯ޠ͝ͱͷ!"Λར༻ɺ֤จষͰڞ௨ͯ͠ར༻͢Δ •
ݴޠϞσϧϞσϧؒ จষؒ Ͱڞ௨ͷύϥϝʔλΛ༻͍ͳ͍ • ݴޠϞσϧؔ࿈ੑͷ֓೦͕ͳ͍ #*.ͷ3
ݴޠϞσϧख๏ͱଞͷख๏ͷରൺ • ݴޠϞσϧͷܽ • ؔ࿈ඇؔ࿈ͷ֓೦͕ͳ͍ͨΊద߹ϑΟʔυόοΫ͕ࠔ • ϑϨʔζઅͷݕࡧʹରԠͰ͖ͳ͍ • ϢχάϥϜϞσϧ୯ޠͷग़ݱ͕֬ಠཱ͔ͩΒ •
όΠάϥϜϞσϧͳͲΛ͏ඞཁ͕͋Δ
ݴޠϞσϧख๏ͱଞͷख๏ͷରൺ • UGJEGͱͷҧ͍ • େ·͔ʹࣅ͍ͯΔ • UG ˠ ϢχάϥϜݴޠϞσϧͰͦͷ··ར༻ •
JEG ˠ ίϨΫγϣϯશମΛར༻͢ΔεϜʔδϯάʹগ͠ࣅ͍ͯΔ • UGJEGώϡʔϦεςΟοΫ ݴޠϞσϧݪଇత ཧత • ݴޠϞσϧ֬ϞσϧεϜʔδϯάํ๏Λม͑ΒΕΔ UGJEG ݴޠϞσϧ
ݴޠϞσϧख๏ͱଞͷख๏ͷରൺ • UGJEG • UG JEG྆ํڞ͕ߴ͍ͱߴ͍ • ίϨΫγϣϯͰසग़͢Δ୯ޠͷJEG͍ • ݴޠϞσϧ
• ͋·Γग़ݱ͠ͳ͍୯ޠ͕͋Δͱ͕֬ݮΔ UGJEG ݴޠϞσϧ
֦ுݴޠϞσϧख๏
֦ுݴޠϞσϧख๏ จষϞσϧ ! " #$ • ΫΤϦʔ͕จষΛੜ͢Δ֬Λར༻ • ͋·ΓධՁ͞Ε͍ͯͳ͍ •
ΫΤϦʔ୯ޠ͕গͳ͍ͨΊɺਫ਼ྑ͍ਪఆ͕Ͱ͖ͳ͍ • ద߹ϑΟʔυόοΫࠐΊΔ • ؔ࿈จষ͔ΒऔΓग़ͨ͠༻ޠΛΫΤϦʔʹ֦ுͰ͖Δ ΫΤϦϞσϧ จষϞσϧ ,-ڑʹجͮ͘ํ๏
֦ுݴޠϞσϧख๏ • ,-ڑʹجͮ͘ख๏ • ! " #$ ͱ! % #&
ͷڑΛଌΓɺখ͍͞ॱʹϥϯΩϯά • ΫΤϦɺจষڞʹසग़͢Δ୯ޠ͕͋Δ΄Ͳద߹͍ͯ͠Δ • ࣮ΫΤϦϞσϧͱՁʹͳΔ • ؒͷڑΛར༻ͨ͠ํ๏ଞʹൃలͰ͖Δ
֦ுݴޠϞσϧख๏ • ༁Ϟσϧ • ಉٛޠɺଞݴޠݕࡧͷରࡦ จষݴޠϞσϧ ΫΤϦϞσϧ ಉٛޠؒͷࣄޙ֬ γιʔϥεݴޠࣙॻ͔Β࡞ ຊޠͷ୯ޠUͱӳޠͷ୯ޠW
͕ಉٛޠͰ͋Δ֬ ӳ୯ޠW͕ӳจষEʹ ൃੜ͢Δ֬
·ͱΊ • ݴޠϞσϧΛར༻ͨ͠ݕࡧख๏ • ΫΤϦϞσϧ • γϯϓϧˍ֦ுੑ • ݴޠϞσϧͱεϜʔδϯάΛʹ͋ΘͤͯΈ߹Θͤ •
Ԡ༻ͨ͠ݴޠϞσϧ৭ʑ • ݴޠϞσϧɺ,-ڑ • ༁Ϟσϧ
ࢀߟจݙ • ߐޱߒೋ lใݕࡧͷͨΊͷ֬తݴޠϞσϧz ใॲཧֶձ ݚڀใࠂ 7PM4-1/P • ݪౡॱ
ࠇڮఓ lςΩετͷදใͱજࡏใΛར༻ͨ͠ద ߹ϑΟʔυόοΫz ࣗવݴޠॲཧ /P 7PM • ʹ࣮ࢪ͞Εͨษڧձࢿྉ • IUUQOBPZBEZOEOTPSHdOBPZBJJSQQU