Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
情報検索の基礎 #12
Search
nishiokya
July 03, 2019
Science
1
450
情報検索の基礎 #12
言語モデルを利用した検索手法
クエリ尤度モデル
シンプル&拡張性
言語モデルとスムージングを問題にあわせて組み合わせ
応用した言語モデル色々
言語尤度モデル、KL距離
翻訳モデル
nishiokya
July 03, 2019
Tweet
Share
More Decks by nishiokya
See All by nishiokya
Introduction to Information Retrieval #21 Link analysis
nishiokya
1
270
夜の部Part1:IIRの演習問題を解く--名古屋統計勉強会
nishiokya
1
76
IIR輪読会 Chapter11 確率的情報検索
nishiokya
1
440
情報検索の基礎 第8章 情報検索の評価
nishiokya
1
200
情報検索の基礎 第6章 スコア付け、用語重み付け、ベクトル空間モデル
nishiokya
1
240
情報検索の基礎 第5章 インデックスの圧縮
nishiokya
1
160
情報検索の基礎3.3.3 編集距離の補足
nishiokya
1
290
名古屋検索勉強会 #4 インデックスの構築
nishiokya
1
160
Introduction to Information Retrieval Chapter 1
nishiokya
2
470
Other Decks in Science
See All in Science
機械学習 - ニューラルネットワーク入門
trycycle
PRO
0
840
機械学習 - pandas入門
trycycle
PRO
0
310
研究って何だっけ / What is Research?
ks91
PRO
1
120
ランサムウェア対策にも考慮したVMware、Hyper-V、Azure、AWS間のリアルタイムレプリケーション「Zerto」を徹底解説
climbteam
0
110
Quelles valorisations des logiciels vers le monde socio-économique dans un contexte de Science Ouverte ?
bluehats
1
490
データベース09: 実体関連モデル上の一貫性制約
trycycle
PRO
0
990
データベース01: データベースを使わない世界
trycycle
PRO
1
770
Explanatory material
yuki1986
0
400
オンプレミス環境にKubernetesを構築する
koukimiura
0
340
Ignite の1年間の軌跡
ktombow
0
150
統計的因果探索: 背景知識とデータにより因果仮説を探索する
sshimizu2006
4
1k
NASの容量不足のお悩み解決!災害対策も兼ねた「Wasabi Cloud NAS」はここがスゴイ
climbteam
0
120
Featured
See All Featured
Context Engineering - Making Every Token Count
addyosmani
1
23
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
15k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
Done Done
chrislema
185
16k
Embracing the Ebb and Flow
colly
87
4.8k
How to Think Like a Performance Engineer
csswizardry
26
1.9k
Intergalactic Javascript Robots from Outer Space
tanoku
272
27k
Into the Great Unknown - MozCon
thekraken
40
2k
The Art of Programming - Codeland 2020
erikaheidi
55
13k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.9k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
Build The Right Thing And Hit Your Dates
maggiecrowley
37
2.8k
Transcript
ใݕࡧͷجૅ ใݕࡧͷͨΊͷݴޠϞσϧ LVNBHBJ
ষͷ֓ཁ • • ݴޠϞσϧͷ֓ཁ • • ΫΤϦʔϞσϧ •
• ݴޠϞσϧͱଞͷख๏ͷൺֱ • • ֦ுݴޠϞσϧ
ষͷ֓ཁ • ষͷ༰ • จষͱΫΤϦΛར༻ͨ͠ॱং͚ • จষEʹΫΤϦRΛؚΉ͔൱͔ • ΫΤϦʹରͯؔ͠࿈͔ඇؔ࿈͔ 2VFSZ
! " = 1 %, ')
ষͷ֓ཁ • จষ!͔ΒݴޠϞσϧ"#Λੜ • ݴޠϞσϧ͕ΫΤϦΛੜ͢Δ֬$ % "# • $ %
"# Ͱॱং͚ 2VFSZ ݴޠϞσϧ $(%|"# )
ݴޠϞσϧ
༗ݶΦʔτϚτϯͱݴޠϞσϧ • ୯ޠΛੜ͢ΔݴޠϞσϧͷྫ • lGSPHTBJEUIBUUPBEMJLFGSPHzΛੜ͢Δ֬ จষEͷ.PEFM ୯ޠͷग़ݱ֬ lGSPHTBJEUIBUUPBEMJLFGSPHzΛੜ͢Δ֬ จষEʹ͓͚Δ୯ޠ ͷग़ݱ֬
= 0.000000000024 &ℎ(
༗ݶΦʔτϚτϯͱݴޠϞσϧ • ྫ͑ͯઆ໌ • จষதͷ୯ޠ GSPH MJLF ͘͡ • จষͷશ୯ޠΛೖΕͨ͘͡ശ
ʹ ݴޠϞσϧ • lGSPHzճɺlTBJEzճʜͷΈ߹ΘͤΛ͘͡ശ͔ΒҾ֬͘ lGSPHTBJEUIBUUPBEMJLFGSPHzΛੜ͢Δ֬ จষ ୯ޠͷׂ߹ GSPH UIBU MJLF GSPH TBJE UPBE
༗ݶΦʔτϚτϯͱݴޠϞσϧ • ݴޠϞσϧͷൺֱ • ͭจষ͔Β࡞ͨ͠ݴޠϞσϧ • ͲͪΒͷํ͕lGSPHTBJEUIBUUPBEMJLFGSPHzΛੜ͢Δ͕֬ߴ͍͔ .PEFMͷํ͕͕֬ߴ͍ จষͷํ͕ଟ͘ΫΤϦ͕ग़ݱ͠ɺదͨ͠จষ
༗ݶΦʔτϚτϯͱݴޠϞσϧ จষ ୯ޠͷׂ߹ ୯ޠͷׂ߹ จষ • Ͳ͏͍͏͜ͱ • จষͷ͘͡ശͱจষͷ͘͡ശΛ४උ •
GSPHº TBJE UIBU UPBE MJLFͷΈ߹ΘͤΛͻ֬͘ ͲͪΒͷํ͕ߴ͍͔ʁ
ݴޠϞσϧͷछྨ • ྫͰΫΤϦʹؚ·ΕΔ୯ޠͷग़ݱ֬ͷੵΛར༻ • શ୯ޠͷग़ݱ֬ͷੵʹΫΤϦ͕ੜ͞ΕΔ֬ ˠ ͜Εຊʹଥʁ ୯ޠͷग़ݱ֬ lGSPHTBJEUIBUUPBEMJLFGSPHzΛੜ͢Δ֬ =
0.000000000024
ݴޠϞσϧͷछྨ • ΫΤϦ͕ग़ݱ͢Δ֬ΛͲ͏ߏங͢Δ͔ʁ • ϢχάϥϜݴޠϞσϧ • ֤୯ޠಠཱͱԾఆ͢Δ • ྫͰܭࢉͨ͠ͷ͜ͷϞσϧ •
όΠάϥϜݴޠϞσϧ • ֤୯ޠલͷ୯ޠͷӨڹΛड͚ΔͱԾఆ͢Δ • ԻೝࣝͰར༻ • ֬తࣗ༝จ๏ • Իೝࣝεϖϧमਖ਼ͳͲෳࡶͳपลจ຺Λߟྀ͢Δ߹ʹར༻
ݴޠϞσϧͷछྨ • ใݕࡧຆͲϢχάϥϜݴޠϞσϧΛར༻ • ୯ޠͷߏʹґଘ͢ΔλεΫͰͳ͍ • ใݕࡧͰेͳύϑΥʔϚϯε͕ಘΒΕΔ • ΑΓෳࡶͳϞσϧใݕࡧʹద͞ͳ͍ •
จষ͔ΒϞσϧΛ࡞͢ΔͨΊ܇࿅σʔλ͕গͳ͍ • ! "# "$ ΛٻΊΔͷʹෆे ୯ޠͷग़ݱ֬ 0,!
ޠʹ͓͚Δଟ߲ • ϢχάϥϜݴޠϞσϧͰޠͷॱংແؔ • จষ!Λੜ͢Δ֬ଟ߲ͰදݱͰ͖Δ "# : ! % &'(#
: ! & ) & : &
ΫΤϦʔϞσϧ
ใݕࡧʹ͓͚ΔΫΤϦʔϞσϧͷར༻ • ֬తʹϥϯΩϯά͢Δʹʜ • Γ͍ͨ͜ͱɿ! " # ʹΑͬͯจষΛϥϯΩϯά͢Δ • !
" # ɿΫΤϦ#ʹରͯ͠จॻ"͕ద߹͢Δ֬ • ϕΠζͷ๏ଇΛద༻͢Δͱ ΫΤϦͷൃੜ֬ จষͷൃੜ֬ จষʹ͓͚Δ ΫΤϦͷൃੜ֬
ใݕࡧʹ͓͚ΔΫΤϦʔϞσϧͷར༻ ΫΤϦશͯͷจষͰಉ͡ ˠ ϥϯΩϯάʹؔͳ͍ จষ͕ग़ݱ͢Δ֬Ұ༷ ͱߟ͑Δ͔͠ͳ͍ ˠ ϥϯΩϯάʹؔͳ͍ ˞δϟϯϧطಡใͳͲΛߟྀͯ͠Մมͷ߹͋Δ ʮจষʹ͓͚ΔΫΤϦͷൃੜ֬ʯ͕ຊ࣭తͳҙຯΛ࣋ͭ
ใݕࡧʹ͓͚ΔΫΤϦʔϞσϧͷར༻ ! " # ͷٻΊΔํ๏৭ʑ ͜͜ͰϢχάϥϜݴޠϞσϧΛར༻ ࠷ॳͷྫͱҰॹ ! " #
= ! " %& ݴޠϞσϧΛར༻ͨ͠ݕࡧ͕ΫΤϦʔϞσϧ จষ # ! " %& lGSPHTBJEUIBUUPBEMJLFGSPHz
ใݕࡧʹ͓͚ΔΫΤϦʔϞσϧͷར༻ • ଟ߲ʹͯΊΔͱ࠷ऴతʹ͜͏ͳΔ ଟ߲ จॻEͷϞσϧ͕ ୯ޠUΛੜ͢Δ֬ จॻEʹ͓͚Δ ୯ޠUͷൃੜස ίϨΫγϣϯͷશ ୯ޠ7ʹର͢Δੵ
ΫΤϦʔੜ֬ͷਪఆ • ! " #$ Ͳ͏ٻΊΒΕΔ͔ʁ • ࠷ਪఆͰ% " #$
͕࠷େʹͳΔ% & #$ ΛٻΊΔ จষEͷ૯୯ޠ จষEʹ͓͚Δ୯ޠUͷग़ݱස ୯७ʹ୯ޠ͕ൃੜ͢Δׂ߹ͰٻΊΔ͜ͱ͕Ͱ͖Δ
! " #$ = &$ '()*$ ! '(),$ ! ⋯
'().$ ! ! '/ #$ )01*2! '3 #$ )01,2 ⋯ ! '4 #$ )01.2 = &$ ∏ 67/ 4 '()8$ ! 9 :7/ 4 ! ': #$ )01;2 ରΛऔΔͱ log ! " #$ = &$ − @ 67/ 4 log '()8$ ! + @ :7/ 4 '();$ log! ': #$ ଟ߲ͷ∑676 C ! ': #$ = 1Λ༻͍ͯ ϥάϥϯδϡ๏ʹΑΓۃΛٻΊΔ & = &$ − @ 67/ 4 log '()8$ ! + @ :7/ 4 '();$ log! ': #$ + E @ 676 C ! '6 #$ − 1 F& F! 'G #$ = '()H$ ! 'G #$ + E = 0 − '()H$ E = ! 'G #$ શͯͷJʹରͯ͠ಉ༷ʹภඍΛٻΊɺ ͠߹ΘͤΔ − 1 E @ G7/ C '()H$ = @ G7/ C ! 'G #$ − &$ E = 1 E = −&$ − '()H$ &$ = ! 'G #$ ! 'G #$ )01H2 K2 EΛ্هͷࣜʹೖ͢Δ ٻΊͯΈͨ
ΫΤϦʔੜ֬ͷਪఆ ࠷ॳͷྫͰߟ͑Δͱʜ !"#,% &% จষEʹग़ݱ͢Δશ୯ޠதͷ୯ޠUͷׂ߹ ΫΤϦʹؚ·ΕΔ୯ޠͷ ൃੜ֬ͷੵ ࠷ॳͷྫϢχάϥϜݴޠϞσϧΛར༻ͨ͠ΫΤϦϞσϧ
ΫΤϦʔੜ֬ͷਪఆ • • શ͘ग़ݱ͠ͳ͍୯ޠ͕͋Δͱ͕֬ʹͳΔ • ΫΤϦʮϥʔϝϯ ͱΜͭ͜ OBHPZBʯͰݕࡧ จষʹʮOBHPZBʯ͕ͳ͚Ε
• ྵ֬ • ҙຯͱͷଓʁ DPOOFDUJWFTFNBOUJDT DPOKVODUJWFTFNBOUJDT
ΫΤϦʔੜ֬ͷਪఆ • ղܾࡦɿεϜʔδϯά • ষͰొͨ͠ྵ֬ରࡦ • ՃࢉεϜʔδϯά ষ • ࢠʹՃࢉ
Ћ • ਫ਼ѱ͍
ΫΤϦʔੜ֬ͷਪఆ • ઢܗิؒ๏ • จষʹग़ݱ͠ͳ͍୯ޠίϨΫγϣϯશମͰग़ݱ͢ΔͩΖ͏ • ίϨΫγϣϯʹؚ·ΕΔ୯ޠͰ͋Εྵ֬ΛճආͰ͖Δ • શจষʹରͯ͠εϜʔδϯά߲ಉ͡ ˠ
ॱংͷӨڹͳ͍ εϜʔδϯάͷॏΈ 0 ≤ # ≤ 1 จষEʹ͓͚Δ୯ޠU ͷग़ݱ֬ ίϨΫγϣϯશମͷ ୯ޠUͷग़ݱ֬
ΫΤϦʔੜ֬ͷਪఆ • σΟϦΫϨɾεϜʔδϯά • จষʹԠͯ͡εϜʔδϯάͷ߹͍ΛՄมʹ͢Δ • จষ͕͍ ʹ ؚΜͰ͍Δ୯ޠ͕ଟ͘ɺεϜʔδϯά͕ඞཁͳ͍ εϜʔδϯάͷॏΈЋͷӨڹ
จষʹΑܾͬͯ·Δ
ΫΤϦʔੜ֬ͷਪఆ • ΫΤϦϞσϧΛ·ͱΊΔͱʜ • ͜ͷΛར༻ͯ͠ϥϯΩϯά͢Δ จষEʹ͓͚Δ୯ޠU ͷग़ݱ֬ ίϨΫγϣϯશମͷ ୯ޠUͷग़ݱ֬ จষͷੜ֬
ಥવ෮׆ͨ͠
1POUFͱ$SPGUʹΑΔ࣮ݧ • ΫΤϦϞσϧʹΑΔݕࡧ1POUFBOE$SPGU Ͱ ॳΊͯఏҊ͞Εͨ • ΫΤϦϞσϧͱUGJEGΛൺֱ • 53&$Ͱݕূ
• UGJEGΑΓݦஶʹྑ͍͜ͱΛࣔͨ͠
1POUFͱ$SPGUʹΑΔ࣮ݧ • ฏۉద߹ͰධՁ • શͯͷ3FDBMMͰ-. ΫΤϦϞσϧ ͷ1SFDJTJPO͕༏Ґ • จΑΓ •
UGJEGͷΑ͏ͳΞυϗοΫͳํ๏Ͱͳ͘ ౷ܭతͳཧʹجͮ͘ख๏ΛఏҊͨ͠ • ਫ਼্ॏཁͰͳ͍ ৽͍͠ใݕࡧͷํ๏ͷఏҊʹҙຯ͕͋Δ
ใݕࡧʹ͓͚ΔݴޠϞσϧख๏ͱ ଞͷख๏ͷରൺ
ݴޠϞσϧख๏ͱଞͷख๏ͷରൺ • #*. όΠφϦಠཱϞσϧ ͱͷҧ͍ • Ϟσϧͷؔ࿈ੑΛఘΊ͍ͯΔ • #*.୯ޠ͝ͱͷ!"Λར༻ɺ֤จষͰڞ௨ͯ͠ར༻͢Δ •
ݴޠϞσϧϞσϧؒ จষؒ Ͱڞ௨ͷύϥϝʔλΛ༻͍ͳ͍ • ݴޠϞσϧؔ࿈ੑͷ֓೦͕ͳ͍ #*.ͷ3
ݴޠϞσϧख๏ͱଞͷख๏ͷରൺ • ݴޠϞσϧͷܽ • ؔ࿈ඇؔ࿈ͷ֓೦͕ͳ͍ͨΊద߹ϑΟʔυόοΫ͕ࠔ • ϑϨʔζઅͷݕࡧʹରԠͰ͖ͳ͍ • ϢχάϥϜϞσϧ୯ޠͷग़ݱ͕֬ಠཱ͔ͩΒ •
όΠάϥϜϞσϧͳͲΛ͏ඞཁ͕͋Δ
ݴޠϞσϧख๏ͱଞͷख๏ͷରൺ • UGJEGͱͷҧ͍ • େ·͔ʹࣅ͍ͯΔ • UG ˠ ϢχάϥϜݴޠϞσϧͰͦͷ··ར༻ •
JEG ˠ ίϨΫγϣϯશମΛར༻͢ΔεϜʔδϯάʹগ͠ࣅ͍ͯΔ • UGJEGώϡʔϦεςΟοΫ ݴޠϞσϧݪଇత ཧత • ݴޠϞσϧ֬ϞσϧεϜʔδϯάํ๏Λม͑ΒΕΔ UGJEG ݴޠϞσϧ
ݴޠϞσϧख๏ͱଞͷख๏ͷରൺ • UGJEG • UG JEG྆ํڞ͕ߴ͍ͱߴ͍ • ίϨΫγϣϯͰසग़͢Δ୯ޠͷJEG͍ • ݴޠϞσϧ
• ͋·Γग़ݱ͠ͳ͍୯ޠ͕͋Δͱ͕֬ݮΔ UGJEG ݴޠϞσϧ
֦ுݴޠϞσϧख๏
֦ுݴޠϞσϧख๏ จষϞσϧ ! " #$ • ΫΤϦʔ͕จষΛੜ͢Δ֬Λར༻ • ͋·ΓධՁ͞Ε͍ͯͳ͍ •
ΫΤϦʔ୯ޠ͕গͳ͍ͨΊɺਫ਼ྑ͍ਪఆ͕Ͱ͖ͳ͍ • ద߹ϑΟʔυόοΫࠐΊΔ • ؔ࿈จষ͔ΒऔΓग़ͨ͠༻ޠΛΫΤϦʔʹ֦ுͰ͖Δ ΫΤϦϞσϧ จষϞσϧ ,-ڑʹجͮ͘ํ๏
֦ுݴޠϞσϧख๏ • ,-ڑʹجͮ͘ख๏ • ! " #$ ͱ! % #&
ͷڑΛଌΓɺখ͍͞ॱʹϥϯΩϯά • ΫΤϦɺจষڞʹසग़͢Δ୯ޠ͕͋Δ΄Ͳద߹͍ͯ͠Δ • ࣮ΫΤϦϞσϧͱՁʹͳΔ • ؒͷڑΛར༻ͨ͠ํ๏ଞʹൃలͰ͖Δ
֦ுݴޠϞσϧख๏ • ༁Ϟσϧ • ಉٛޠɺଞݴޠݕࡧͷରࡦ จষݴޠϞσϧ ΫΤϦϞσϧ ಉٛޠؒͷࣄޙ֬ γιʔϥεݴޠࣙॻ͔Β࡞ ຊޠͷ୯ޠUͱӳޠͷ୯ޠW
͕ಉٛޠͰ͋Δ֬ ӳ୯ޠW͕ӳจষEʹ ൃੜ͢Δ֬
·ͱΊ • ݴޠϞσϧΛར༻ͨ͠ݕࡧख๏ • ΫΤϦϞσϧ • γϯϓϧˍ֦ுੑ • ݴޠϞσϧͱεϜʔδϯάΛʹ͋ΘͤͯΈ߹Θͤ •
Ԡ༻ͨ͠ݴޠϞσϧ৭ʑ • ݴޠϞσϧɺ,-ڑ • ༁Ϟσϧ
ࢀߟจݙ • ߐޱߒೋ lใݕࡧͷͨΊͷ֬తݴޠϞσϧz ใॲཧֶձ ݚڀใࠂ 7PM4-1/P • ݪౡॱ
ࠇڮఓ lςΩετͷදใͱજࡏใΛར༻ͨ͠ద ߹ϑΟʔυόοΫz ࣗવݴޠॲཧ /P 7PM • ʹ࣮ࢪ͞Εͨษڧձࢿྉ • IUUQOBPZBEZOEOTPSHdOBPZBJJSQQU