Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Speaker Deck
PRO
Sign in
Sign up for free
情報検索の基礎 #12
nishiokya
July 03, 2019
Science
1
230
情報検索の基礎 #12
言語モデルを利用した検索手法
クエリ尤度モデル
シンプル&拡張性
言語モデルとスムージングを問題にあわせて組み合わせ
応用した言語モデル色々
言語尤度モデル、KL距離
翻訳モデル
nishiokya
July 03, 2019
Tweet
Share
More Decks by nishiokya
See All by nishiokya
Introduction to Information Retrieval #21 Link analysis
nishiokya
1
140
夜の部Part1:IIRの演習問題を解く--名古屋統計勉強会
nishiokya
1
20
IIR輪読会 Chapter11 確率的情報検索
nishiokya
1
200
情報検索の基礎 第8章 情報検索の評価
nishiokya
1
87
情報検索の基礎 第6章 スコア付け、用語重み付け、ベクトル空間モデル
nishiokya
1
180
情報検索の基礎 第5章 インデックスの圧縮
nishiokya
1
100
情報検索の基礎3.3.3 編集距離の補足
nishiokya
1
180
名古屋検索勉強会 #4 インデックスの構築
nishiokya
1
95
Introduction to Information Retrieval Chapter 1
nishiokya
2
330
Other Decks in Science
See All in Science
Cross-Media Information Spaces and Architectures (CISA)
signer
PRO
2
13k
アダプティブなカード
fukuyori
2
160
第2回ディープラーニング勉強会~画像処理編~
ganchan11
0
130
20220216_球体周りの流れ抗力係数1_FreeCADで球体モデル作成
kamakiri1225
0
260
(2013) Le problème des distances de Erdős
mansuy
0
110
AI最新論文読み会2021年11月
ecoopnet
0
210
資料科學哪有這麼可愛
line_developers_tw
PRO
0
1.6k
Classiが取り組んできた 機械学習の試行錯誤
tetsuroito
0
200
バスケットボールメッシュ生成
kamakiri1225
0
460
My research talk for CCA promotion
dfm
1
540
An Investigation into the Correlation between a Country's Total Olympic Medal Count, GDP, and Freedom Index through History
asnowberger
1
160
20220217_球体周りの流れ抗力係数3_snappyHexMeshで球体周りのメッシュ作成
kamakiri1225
0
160
Featured
See All Featured
The Pragmatic Product Professional
lauravandoore
19
3k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
655
120k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
151
13k
Intergalactic Javascript Robots from Outer Space
tanoku
261
25k
Faster Mobile Websites
deanohume
294
28k
Building Applications with DynamoDB
mza
83
4.7k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
5
510
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
349
27k
Building Better People: How to give real-time feedback that sticks.
wjessup
344
17k
VelocityConf: Rendering Performance Case Studies
addyosmani
316
22k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
10
3.4k
10 Git Anti Patterns You Should be Aware of
lemiorhan
638
52k
Transcript
ใݕࡧͷجૅ ใݕࡧͷͨΊͷݴޠϞσϧ LVNBHBJ
ষͷ֓ཁ • • ݴޠϞσϧͷ֓ཁ • • ΫΤϦʔϞσϧ •
• ݴޠϞσϧͱଞͷख๏ͷൺֱ • • ֦ுݴޠϞσϧ
ষͷ֓ཁ • ষͷ༰ • จষͱΫΤϦΛར༻ͨ͠ॱং͚ • จষEʹΫΤϦRΛؚΉ͔൱͔ • ΫΤϦʹରͯؔ͠࿈͔ඇؔ࿈͔ 2VFSZ
! " = 1 %, ')
ষͷ֓ཁ • จষ!͔ΒݴޠϞσϧ"#Λੜ • ݴޠϞσϧ͕ΫΤϦΛੜ͢Δ֬$ % "# • $ %
"# Ͱॱং͚ 2VFSZ ݴޠϞσϧ $(%|"# )
ݴޠϞσϧ
༗ݶΦʔτϚτϯͱݴޠϞσϧ • ୯ޠΛੜ͢ΔݴޠϞσϧͷྫ • lGSPHTBJEUIBUUPBEMJLFGSPHzΛੜ͢Δ֬ จষEͷ.PEFM ୯ޠͷग़ݱ֬ lGSPHTBJEUIBUUPBEMJLFGSPHzΛੜ͢Δ֬ จষEʹ͓͚Δ୯ޠ ͷग़ݱ֬
= 0.000000000024 &ℎ(
༗ݶΦʔτϚτϯͱݴޠϞσϧ • ྫ͑ͯઆ໌ • จষதͷ୯ޠ GSPH MJLF ͘͡ • จষͷશ୯ޠΛೖΕͨ͘͡ശ
ʹ ݴޠϞσϧ • lGSPHzճɺlTBJEzճʜͷΈ߹ΘͤΛ͘͡ശ͔ΒҾ֬͘ lGSPHTBJEUIBUUPBEMJLFGSPHzΛੜ͢Δ֬ จষ ୯ޠͷׂ߹ GSPH UIBU MJLF GSPH TBJE UPBE
༗ݶΦʔτϚτϯͱݴޠϞσϧ • ݴޠϞσϧͷൺֱ • ͭจষ͔Β࡞ͨ͠ݴޠϞσϧ • ͲͪΒͷํ͕lGSPHTBJEUIBUUPBEMJLFGSPHzΛੜ͢Δ͕֬ߴ͍͔ .PEFMͷํ͕͕֬ߴ͍ จষͷํ͕ଟ͘ΫΤϦ͕ग़ݱ͠ɺదͨ͠จষ
༗ݶΦʔτϚτϯͱݴޠϞσϧ จষ ୯ޠͷׂ߹ ୯ޠͷׂ߹ จষ • Ͳ͏͍͏͜ͱ • จষͷ͘͡ശͱจষͷ͘͡ശΛ४උ •
GSPHº TBJE UIBU UPBE MJLFͷΈ߹ΘͤΛͻ֬͘ ͲͪΒͷํ͕ߴ͍͔ʁ
ݴޠϞσϧͷछྨ • ྫͰΫΤϦʹؚ·ΕΔ୯ޠͷग़ݱ֬ͷੵΛར༻ • શ୯ޠͷग़ݱ֬ͷੵʹΫΤϦ͕ੜ͞ΕΔ֬ ˠ ͜Εຊʹଥʁ ୯ޠͷग़ݱ֬ lGSPHTBJEUIBUUPBEMJLFGSPHzΛੜ͢Δ֬ =
0.000000000024
ݴޠϞσϧͷछྨ • ΫΤϦ͕ग़ݱ͢Δ֬ΛͲ͏ߏங͢Δ͔ʁ • ϢχάϥϜݴޠϞσϧ • ֤୯ޠಠཱͱԾఆ͢Δ • ྫͰܭࢉͨ͠ͷ͜ͷϞσϧ •
όΠάϥϜݴޠϞσϧ • ֤୯ޠલͷ୯ޠͷӨڹΛड͚ΔͱԾఆ͢Δ • ԻೝࣝͰར༻ • ֬తࣗ༝จ๏ • Իೝࣝεϖϧमਖ਼ͳͲෳࡶͳपลจ຺Λߟྀ͢Δ߹ʹར༻
ݴޠϞσϧͷछྨ • ใݕࡧຆͲϢχάϥϜݴޠϞσϧΛར༻ • ୯ޠͷߏʹґଘ͢ΔλεΫͰͳ͍ • ใݕࡧͰेͳύϑΥʔϚϯε͕ಘΒΕΔ • ΑΓෳࡶͳϞσϧใݕࡧʹద͞ͳ͍ •
จষ͔ΒϞσϧΛ࡞͢ΔͨΊ܇࿅σʔλ͕গͳ͍ • ! "# "$ ΛٻΊΔͷʹෆे ୯ޠͷग़ݱ֬ 0,!
ޠʹ͓͚Δଟ߲ • ϢχάϥϜݴޠϞσϧͰޠͷॱংແؔ • จষ!Λੜ͢Δ֬ଟ߲ͰදݱͰ͖Δ "# : ! % &'(#
: ! & ) & : &
ΫΤϦʔϞσϧ
ใݕࡧʹ͓͚ΔΫΤϦʔϞσϧͷར༻ • ֬తʹϥϯΩϯά͢Δʹʜ • Γ͍ͨ͜ͱɿ! " # ʹΑͬͯจষΛϥϯΩϯά͢Δ • !
" # ɿΫΤϦ#ʹରͯ͠จॻ"͕ద߹͢Δ֬ • ϕΠζͷ๏ଇΛద༻͢Δͱ ΫΤϦͷൃੜ֬ จষͷൃੜ֬ จষʹ͓͚Δ ΫΤϦͷൃੜ֬
ใݕࡧʹ͓͚ΔΫΤϦʔϞσϧͷར༻ ΫΤϦશͯͷจষͰಉ͡ ˠ ϥϯΩϯάʹؔͳ͍ จষ͕ग़ݱ͢Δ֬Ұ༷ ͱߟ͑Δ͔͠ͳ͍ ˠ ϥϯΩϯάʹؔͳ͍ ˞δϟϯϧطಡใͳͲΛߟྀͯ͠Մมͷ߹͋Δ ʮจষʹ͓͚ΔΫΤϦͷൃੜ֬ʯ͕ຊ࣭తͳҙຯΛ࣋ͭ
ใݕࡧʹ͓͚ΔΫΤϦʔϞσϧͷར༻ ! " # ͷٻΊΔํ๏৭ʑ ͜͜ͰϢχάϥϜݴޠϞσϧΛར༻ ࠷ॳͷྫͱҰॹ ! " #
= ! " %& ݴޠϞσϧΛར༻ͨ͠ݕࡧ͕ΫΤϦʔϞσϧ จষ # ! " %& lGSPHTBJEUIBUUPBEMJLFGSPHz
ใݕࡧʹ͓͚ΔΫΤϦʔϞσϧͷར༻ • ଟ߲ʹͯΊΔͱ࠷ऴతʹ͜͏ͳΔ ଟ߲ จॻEͷϞσϧ͕ ୯ޠUΛੜ͢Δ֬ จॻEʹ͓͚Δ ୯ޠUͷൃੜස ίϨΫγϣϯͷશ ୯ޠ7ʹର͢Δੵ
ΫΤϦʔੜ֬ͷਪఆ • ! " #$ Ͳ͏ٻΊΒΕΔ͔ʁ • ࠷ਪఆͰ% " #$
͕࠷େʹͳΔ% & #$ ΛٻΊΔ จষEͷ૯୯ޠ จষEʹ͓͚Δ୯ޠUͷग़ݱස ୯७ʹ୯ޠ͕ൃੜ͢Δׂ߹ͰٻΊΔ͜ͱ͕Ͱ͖Δ
! " #$ = &$ '()*$ ! '(),$ ! ⋯
'().$ ! ! '/ #$ )01*2! '3 #$ )01,2 ⋯ ! '4 #$ )01.2 = &$ ∏ 67/ 4 '()8$ ! 9 :7/ 4 ! ': #$ )01;2 ରΛऔΔͱ log ! " #$ = &$ − @ 67/ 4 log '()8$ ! + @ :7/ 4 '();$ log! ': #$ ଟ߲ͷ∑676 C ! ': #$ = 1Λ༻͍ͯ ϥάϥϯδϡ๏ʹΑΓۃΛٻΊΔ & = &$ − @ 67/ 4 log '()8$ ! + @ :7/ 4 '();$ log! ': #$ + E @ 676 C ! '6 #$ − 1 F& F! 'G #$ = '()H$ ! 'G #$ + E = 0 − '()H$ E = ! 'G #$ શͯͷJʹରͯ͠ಉ༷ʹภඍΛٻΊɺ ͠߹ΘͤΔ − 1 E @ G7/ C '()H$ = @ G7/ C ! 'G #$ − &$ E = 1 E = −&$ − '()H$ &$ = ! 'G #$ ! 'G #$ )01H2 K2 EΛ্هͷࣜʹೖ͢Δ ٻΊͯΈͨ
ΫΤϦʔੜ֬ͷਪఆ ࠷ॳͷྫͰߟ͑Δͱʜ !"#,% &% จষEʹग़ݱ͢Δશ୯ޠதͷ୯ޠUͷׂ߹ ΫΤϦʹؚ·ΕΔ୯ޠͷ ൃੜ֬ͷੵ ࠷ॳͷྫϢχάϥϜݴޠϞσϧΛར༻ͨ͠ΫΤϦϞσϧ
ΫΤϦʔੜ֬ͷਪఆ • • શ͘ग़ݱ͠ͳ͍୯ޠ͕͋Δͱ͕֬ʹͳΔ • ΫΤϦʮϥʔϝϯ ͱΜͭ͜ OBHPZBʯͰݕࡧ จষʹʮOBHPZBʯ͕ͳ͚Ε
• ྵ֬ • ҙຯͱͷଓʁ DPOOFDUJWFTFNBOUJDT DPOKVODUJWFTFNBOUJDT
ΫΤϦʔੜ֬ͷਪఆ • ղܾࡦɿεϜʔδϯά • ষͰొͨ͠ྵ֬ରࡦ • ՃࢉεϜʔδϯά ষ • ࢠʹՃࢉ
Ћ • ਫ਼ѱ͍
ΫΤϦʔੜ֬ͷਪఆ • ઢܗิؒ๏ • จষʹग़ݱ͠ͳ͍୯ޠίϨΫγϣϯશମͰग़ݱ͢ΔͩΖ͏ • ίϨΫγϣϯʹؚ·ΕΔ୯ޠͰ͋Εྵ֬ΛճආͰ͖Δ • શจষʹରͯ͠εϜʔδϯά߲ಉ͡ ˠ
ॱংͷӨڹͳ͍ εϜʔδϯάͷॏΈ 0 ≤ # ≤ 1 จষEʹ͓͚Δ୯ޠU ͷग़ݱ֬ ίϨΫγϣϯશମͷ ୯ޠUͷग़ݱ֬
ΫΤϦʔੜ֬ͷਪఆ • σΟϦΫϨɾεϜʔδϯά • จষʹԠͯ͡εϜʔδϯάͷ߹͍ΛՄมʹ͢Δ • จষ͕͍ ʹ ؚΜͰ͍Δ୯ޠ͕ଟ͘ɺεϜʔδϯά͕ඞཁͳ͍ εϜʔδϯάͷॏΈЋͷӨڹ
จষʹΑܾͬͯ·Δ
ΫΤϦʔੜ֬ͷਪఆ • ΫΤϦϞσϧΛ·ͱΊΔͱʜ • ͜ͷΛར༻ͯ͠ϥϯΩϯά͢Δ จষEʹ͓͚Δ୯ޠU ͷग़ݱ֬ ίϨΫγϣϯશମͷ ୯ޠUͷग़ݱ֬ จষͷੜ֬
ಥવ෮׆ͨ͠
1POUFͱ$SPGUʹΑΔ࣮ݧ • ΫΤϦϞσϧʹΑΔݕࡧ1POUFBOE$SPGU Ͱ ॳΊͯఏҊ͞Εͨ • ΫΤϦϞσϧͱUGJEGΛൺֱ • 53&$Ͱݕূ
• UGJEGΑΓݦஶʹྑ͍͜ͱΛࣔͨ͠
1POUFͱ$SPGUʹΑΔ࣮ݧ • ฏۉద߹ͰධՁ • શͯͷ3FDBMMͰ-. ΫΤϦϞσϧ ͷ1SFDJTJPO͕༏Ґ • จΑΓ •
UGJEGͷΑ͏ͳΞυϗοΫͳํ๏Ͱͳ͘ ౷ܭతͳཧʹجͮ͘ख๏ΛఏҊͨ͠ • ਫ਼্ॏཁͰͳ͍ ৽͍͠ใݕࡧͷํ๏ͷఏҊʹҙຯ͕͋Δ
ใݕࡧʹ͓͚ΔݴޠϞσϧख๏ͱ ଞͷख๏ͷରൺ
ݴޠϞσϧख๏ͱଞͷख๏ͷରൺ • #*. όΠφϦಠཱϞσϧ ͱͷҧ͍ • Ϟσϧͷؔ࿈ੑΛఘΊ͍ͯΔ • #*.୯ޠ͝ͱͷ!"Λར༻ɺ֤จষͰڞ௨ͯ͠ར༻͢Δ •
ݴޠϞσϧϞσϧؒ จষؒ Ͱڞ௨ͷύϥϝʔλΛ༻͍ͳ͍ • ݴޠϞσϧؔ࿈ੑͷ֓೦͕ͳ͍ #*.ͷ3
ݴޠϞσϧख๏ͱଞͷख๏ͷରൺ • ݴޠϞσϧͷܽ • ؔ࿈ඇؔ࿈ͷ֓೦͕ͳ͍ͨΊద߹ϑΟʔυόοΫ͕ࠔ • ϑϨʔζઅͷݕࡧʹରԠͰ͖ͳ͍ • ϢχάϥϜϞσϧ୯ޠͷग़ݱ͕֬ಠཱ͔ͩΒ •
όΠάϥϜϞσϧͳͲΛ͏ඞཁ͕͋Δ
ݴޠϞσϧख๏ͱଞͷख๏ͷରൺ • UGJEGͱͷҧ͍ • େ·͔ʹࣅ͍ͯΔ • UG ˠ ϢχάϥϜݴޠϞσϧͰͦͷ··ར༻ •
JEG ˠ ίϨΫγϣϯશମΛར༻͢ΔεϜʔδϯάʹগ͠ࣅ͍ͯΔ • UGJEGώϡʔϦεςΟοΫ ݴޠϞσϧݪଇత ཧత • ݴޠϞσϧ֬ϞσϧεϜʔδϯάํ๏Λม͑ΒΕΔ UGJEG ݴޠϞσϧ
ݴޠϞσϧख๏ͱଞͷख๏ͷରൺ • UGJEG • UG JEG྆ํڞ͕ߴ͍ͱߴ͍ • ίϨΫγϣϯͰසग़͢Δ୯ޠͷJEG͍ • ݴޠϞσϧ
• ͋·Γग़ݱ͠ͳ͍୯ޠ͕͋Δͱ͕֬ݮΔ UGJEG ݴޠϞσϧ
֦ுݴޠϞσϧख๏
֦ுݴޠϞσϧख๏ จষϞσϧ ! " #$ • ΫΤϦʔ͕จষΛੜ͢Δ֬Λར༻ • ͋·ΓධՁ͞Ε͍ͯͳ͍ •
ΫΤϦʔ୯ޠ͕গͳ͍ͨΊɺਫ਼ྑ͍ਪఆ͕Ͱ͖ͳ͍ • ద߹ϑΟʔυόοΫࠐΊΔ • ؔ࿈จষ͔ΒऔΓग़ͨ͠༻ޠΛΫΤϦʔʹ֦ுͰ͖Δ ΫΤϦϞσϧ จষϞσϧ ,-ڑʹجͮ͘ํ๏
֦ுݴޠϞσϧख๏ • ,-ڑʹجͮ͘ख๏ • ! " #$ ͱ! % #&
ͷڑΛଌΓɺখ͍͞ॱʹϥϯΩϯά • ΫΤϦɺจষڞʹසग़͢Δ୯ޠ͕͋Δ΄Ͳద߹͍ͯ͠Δ • ࣮ΫΤϦϞσϧͱՁʹͳΔ • ؒͷڑΛར༻ͨ͠ํ๏ଞʹൃలͰ͖Δ
֦ுݴޠϞσϧख๏ • ༁Ϟσϧ • ಉٛޠɺଞݴޠݕࡧͷରࡦ จষݴޠϞσϧ ΫΤϦϞσϧ ಉٛޠؒͷࣄޙ֬ γιʔϥεݴޠࣙॻ͔Β࡞ ຊޠͷ୯ޠUͱӳޠͷ୯ޠW
͕ಉٛޠͰ͋Δ֬ ӳ୯ޠW͕ӳจষEʹ ൃੜ͢Δ֬
·ͱΊ • ݴޠϞσϧΛར༻ͨ͠ݕࡧख๏ • ΫΤϦϞσϧ • γϯϓϧˍ֦ுੑ • ݴޠϞσϧͱεϜʔδϯάΛʹ͋ΘͤͯΈ߹Θͤ •
Ԡ༻ͨ͠ݴޠϞσϧ৭ʑ • ݴޠϞσϧɺ,-ڑ • ༁Ϟσϧ
ࢀߟจݙ • ߐޱߒೋ lใݕࡧͷͨΊͷ֬తݴޠϞσϧz ใॲཧֶձ ݚڀใࠂ 7PM4-1/P • ݪౡॱ
ࠇڮఓ lςΩετͷදใͱજࡏใΛར༻ͨ͠ద ߹ϑΟʔυόοΫz ࣗવݴޠॲཧ /P 7PM • ʹ࣮ࢪ͞Εͨษڧձࢿྉ • IUUQOBPZBEZOEOTPSHdOBPZBJJSQQU