Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
情報検索の基礎 #12
Search
nishiokya
July 03, 2019
Science
1
460
情報検索の基礎 #12
言語モデルを利用した検索手法
クエリ尤度モデル
シンプル&拡張性
言語モデルとスムージングを問題にあわせて組み合わせ
応用した言語モデル色々
言語尤度モデル、KL距離
翻訳モデル
nishiokya
July 03, 2019
Tweet
Share
More Decks by nishiokya
See All by nishiokya
Introduction to Information Retrieval #21 Link analysis
nishiokya
1
270
夜の部Part1:IIRの演習問題を解く--名古屋統計勉強会
nishiokya
1
79
IIR輪読会 Chapter11 確率的情報検索
nishiokya
1
440
情報検索の基礎 第8章 情報検索の評価
nishiokya
1
210
情報検索の基礎 第6章 スコア付け、用語重み付け、ベクトル空間モデル
nishiokya
1
240
情報検索の基礎 第5章 インデックスの圧縮
nishiokya
1
170
情報検索の基礎3.3.3 編集距離の補足
nishiokya
1
290
名古屋検索勉強会 #4 インデックスの構築
nishiokya
1
160
Introduction to Information Retrieval Chapter 1
nishiokya
2
480
Other Decks in Science
See All in Science
2025-06-11-ai_belgium
sofievl
1
210
academist Prize 4期生 研究トーク延長戦!「美は世界を救う」っていうけど、どうやって?
jimpe_hitsuwari
0
450
風の力で振れ幅が大きくなる振り子!? 〜タコマナローズ橋はなぜ落ちたのか〜
syotasasaki593876
1
160
生成AIと学ぶPythonデータ分析再入門-Pythonによるクラスタリング・可視化をサクサク実施-
datascientistsociety
PRO
4
1.9k
デジタルアーカイブの教育利用促進を目指したメタデータLOD基盤に関する研究 / Research on a Metadata LOD Platform for Promoting Educational Uses of Digital Archives
masao
0
130
凸最適化からDC最適化まで
santana_hammer
1
340
データベース14: B+木 & ハッシュ索引
trycycle
PRO
0
560
Agent開発フレームワークのOverviewとW&B Weaveとのインテグレーション
siyoo
0
390
データベース06: SQL (3/3) 副問い合わせ
trycycle
PRO
1
700
データベース05: SQL(2/3) 結合質問
trycycle
PRO
0
850
会社でMLモデルを作るとは @電気通信大学 データアントレプレナーフェロープログラム
yuto16
1
430
機械学習 - ニューラルネットワーク入門
trycycle
PRO
0
900
Featured
See All Featured
Designing Experiences People Love
moore
143
24k
Practical Orchestrator
shlominoach
190
11k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
32
2.7k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
128
54k
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
Stop Working from a Prison Cell
hatefulcrawdad
273
21k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
15k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
3.2k
Done Done
chrislema
186
16k
Principles of Awesome APIs and How to Build Them.
keavy
127
17k
Faster Mobile Websites
deanohume
310
31k
KATA
mclloyd
PRO
32
15k
Transcript
ใݕࡧͷجૅ ใݕࡧͷͨΊͷݴޠϞσϧ LVNBHBJ
ষͷ֓ཁ • • ݴޠϞσϧͷ֓ཁ • • ΫΤϦʔϞσϧ •
• ݴޠϞσϧͱଞͷख๏ͷൺֱ • • ֦ுݴޠϞσϧ
ষͷ֓ཁ • ষͷ༰ • จষͱΫΤϦΛར༻ͨ͠ॱং͚ • จষEʹΫΤϦRΛؚΉ͔൱͔ • ΫΤϦʹରͯؔ͠࿈͔ඇؔ࿈͔ 2VFSZ
! " = 1 %, ')
ষͷ֓ཁ • จষ!͔ΒݴޠϞσϧ"#Λੜ • ݴޠϞσϧ͕ΫΤϦΛੜ͢Δ֬$ % "# • $ %
"# Ͱॱং͚ 2VFSZ ݴޠϞσϧ $(%|"# )
ݴޠϞσϧ
༗ݶΦʔτϚτϯͱݴޠϞσϧ • ୯ޠΛੜ͢ΔݴޠϞσϧͷྫ • lGSPHTBJEUIBUUPBEMJLFGSPHzΛੜ͢Δ֬ จষEͷ.PEFM ୯ޠͷग़ݱ֬ lGSPHTBJEUIBUUPBEMJLFGSPHzΛੜ͢Δ֬ จষEʹ͓͚Δ୯ޠ ͷग़ݱ֬
= 0.000000000024 &ℎ(
༗ݶΦʔτϚτϯͱݴޠϞσϧ • ྫ͑ͯઆ໌ • จষதͷ୯ޠ GSPH MJLF ͘͡ • จষͷશ୯ޠΛೖΕͨ͘͡ശ
ʹ ݴޠϞσϧ • lGSPHzճɺlTBJEzճʜͷΈ߹ΘͤΛ͘͡ശ͔ΒҾ֬͘ lGSPHTBJEUIBUUPBEMJLFGSPHzΛੜ͢Δ֬ จষ ୯ޠͷׂ߹ GSPH UIBU MJLF GSPH TBJE UPBE
༗ݶΦʔτϚτϯͱݴޠϞσϧ • ݴޠϞσϧͷൺֱ • ͭจষ͔Β࡞ͨ͠ݴޠϞσϧ • ͲͪΒͷํ͕lGSPHTBJEUIBUUPBEMJLFGSPHzΛੜ͢Δ͕֬ߴ͍͔ .PEFMͷํ͕͕֬ߴ͍ จষͷํ͕ଟ͘ΫΤϦ͕ग़ݱ͠ɺదͨ͠จষ
༗ݶΦʔτϚτϯͱݴޠϞσϧ จষ ୯ޠͷׂ߹ ୯ޠͷׂ߹ จষ • Ͳ͏͍͏͜ͱ • จষͷ͘͡ശͱจষͷ͘͡ശΛ४උ •
GSPHº TBJE UIBU UPBE MJLFͷΈ߹ΘͤΛͻ֬͘ ͲͪΒͷํ͕ߴ͍͔ʁ
ݴޠϞσϧͷछྨ • ྫͰΫΤϦʹؚ·ΕΔ୯ޠͷग़ݱ֬ͷੵΛར༻ • શ୯ޠͷग़ݱ֬ͷੵʹΫΤϦ͕ੜ͞ΕΔ֬ ˠ ͜Εຊʹଥʁ ୯ޠͷग़ݱ֬ lGSPHTBJEUIBUUPBEMJLFGSPHzΛੜ͢Δ֬ =
0.000000000024
ݴޠϞσϧͷछྨ • ΫΤϦ͕ग़ݱ͢Δ֬ΛͲ͏ߏங͢Δ͔ʁ • ϢχάϥϜݴޠϞσϧ • ֤୯ޠಠཱͱԾఆ͢Δ • ྫͰܭࢉͨ͠ͷ͜ͷϞσϧ •
όΠάϥϜݴޠϞσϧ • ֤୯ޠલͷ୯ޠͷӨڹΛड͚ΔͱԾఆ͢Δ • ԻೝࣝͰར༻ • ֬తࣗ༝จ๏ • Իೝࣝεϖϧमਖ਼ͳͲෳࡶͳपลจ຺Λߟྀ͢Δ߹ʹར༻
ݴޠϞσϧͷछྨ • ใݕࡧຆͲϢχάϥϜݴޠϞσϧΛར༻ • ୯ޠͷߏʹґଘ͢ΔλεΫͰͳ͍ • ใݕࡧͰेͳύϑΥʔϚϯε͕ಘΒΕΔ • ΑΓෳࡶͳϞσϧใݕࡧʹద͞ͳ͍ •
จষ͔ΒϞσϧΛ࡞͢ΔͨΊ܇࿅σʔλ͕গͳ͍ • ! "# "$ ΛٻΊΔͷʹෆे ୯ޠͷग़ݱ֬ 0,!
ޠʹ͓͚Δଟ߲ • ϢχάϥϜݴޠϞσϧͰޠͷॱংແؔ • จষ!Λੜ͢Δ֬ଟ߲ͰදݱͰ͖Δ "# : ! % &'(#
: ! & ) & : &
ΫΤϦʔϞσϧ
ใݕࡧʹ͓͚ΔΫΤϦʔϞσϧͷར༻ • ֬తʹϥϯΩϯά͢Δʹʜ • Γ͍ͨ͜ͱɿ! " # ʹΑͬͯจষΛϥϯΩϯά͢Δ • !
" # ɿΫΤϦ#ʹରͯ͠จॻ"͕ద߹͢Δ֬ • ϕΠζͷ๏ଇΛద༻͢Δͱ ΫΤϦͷൃੜ֬ จষͷൃੜ֬ จষʹ͓͚Δ ΫΤϦͷൃੜ֬
ใݕࡧʹ͓͚ΔΫΤϦʔϞσϧͷར༻ ΫΤϦશͯͷจষͰಉ͡ ˠ ϥϯΩϯάʹؔͳ͍ จষ͕ग़ݱ͢Δ֬Ұ༷ ͱߟ͑Δ͔͠ͳ͍ ˠ ϥϯΩϯάʹؔͳ͍ ˞δϟϯϧطಡใͳͲΛߟྀͯ͠Մมͷ߹͋Δ ʮจষʹ͓͚ΔΫΤϦͷൃੜ֬ʯ͕ຊ࣭తͳҙຯΛ࣋ͭ
ใݕࡧʹ͓͚ΔΫΤϦʔϞσϧͷར༻ ! " # ͷٻΊΔํ๏৭ʑ ͜͜ͰϢχάϥϜݴޠϞσϧΛར༻ ࠷ॳͷྫͱҰॹ ! " #
= ! " %& ݴޠϞσϧΛར༻ͨ͠ݕࡧ͕ΫΤϦʔϞσϧ จষ # ! " %& lGSPHTBJEUIBUUPBEMJLFGSPHz
ใݕࡧʹ͓͚ΔΫΤϦʔϞσϧͷར༻ • ଟ߲ʹͯΊΔͱ࠷ऴతʹ͜͏ͳΔ ଟ߲ จॻEͷϞσϧ͕ ୯ޠUΛੜ͢Δ֬ จॻEʹ͓͚Δ ୯ޠUͷൃੜස ίϨΫγϣϯͷશ ୯ޠ7ʹର͢Δੵ
ΫΤϦʔੜ֬ͷਪఆ • ! " #$ Ͳ͏ٻΊΒΕΔ͔ʁ • ࠷ਪఆͰ% " #$
͕࠷େʹͳΔ% & #$ ΛٻΊΔ จষEͷ૯୯ޠ จষEʹ͓͚Δ୯ޠUͷग़ݱස ୯७ʹ୯ޠ͕ൃੜ͢Δׂ߹ͰٻΊΔ͜ͱ͕Ͱ͖Δ
! " #$ = &$ '()*$ ! '(),$ ! ⋯
'().$ ! ! '/ #$ )01*2! '3 #$ )01,2 ⋯ ! '4 #$ )01.2 = &$ ∏ 67/ 4 '()8$ ! 9 :7/ 4 ! ': #$ )01;2 ରΛऔΔͱ log ! " #$ = &$ − @ 67/ 4 log '()8$ ! + @ :7/ 4 '();$ log! ': #$ ଟ߲ͷ∑676 C ! ': #$ = 1Λ༻͍ͯ ϥάϥϯδϡ๏ʹΑΓۃΛٻΊΔ & = &$ − @ 67/ 4 log '()8$ ! + @ :7/ 4 '();$ log! ': #$ + E @ 676 C ! '6 #$ − 1 F& F! 'G #$ = '()H$ ! 'G #$ + E = 0 − '()H$ E = ! 'G #$ શͯͷJʹରͯ͠ಉ༷ʹภඍΛٻΊɺ ͠߹ΘͤΔ − 1 E @ G7/ C '()H$ = @ G7/ C ! 'G #$ − &$ E = 1 E = −&$ − '()H$ &$ = ! 'G #$ ! 'G #$ )01H2 K2 EΛ্هͷࣜʹೖ͢Δ ٻΊͯΈͨ
ΫΤϦʔੜ֬ͷਪఆ ࠷ॳͷྫͰߟ͑Δͱʜ !"#,% &% จষEʹग़ݱ͢Δશ୯ޠதͷ୯ޠUͷׂ߹ ΫΤϦʹؚ·ΕΔ୯ޠͷ ൃੜ֬ͷੵ ࠷ॳͷྫϢχάϥϜݴޠϞσϧΛར༻ͨ͠ΫΤϦϞσϧ
ΫΤϦʔੜ֬ͷਪఆ • • શ͘ग़ݱ͠ͳ͍୯ޠ͕͋Δͱ͕֬ʹͳΔ • ΫΤϦʮϥʔϝϯ ͱΜͭ͜ OBHPZBʯͰݕࡧ จষʹʮOBHPZBʯ͕ͳ͚Ε
• ྵ֬ • ҙຯͱͷଓʁ DPOOFDUJWFTFNBOUJDT DPOKVODUJWFTFNBOUJDT
ΫΤϦʔੜ֬ͷਪఆ • ղܾࡦɿεϜʔδϯά • ষͰొͨ͠ྵ֬ରࡦ • ՃࢉεϜʔδϯά ষ • ࢠʹՃࢉ
Ћ • ਫ਼ѱ͍
ΫΤϦʔੜ֬ͷਪఆ • ઢܗิؒ๏ • จষʹग़ݱ͠ͳ͍୯ޠίϨΫγϣϯશମͰग़ݱ͢ΔͩΖ͏ • ίϨΫγϣϯʹؚ·ΕΔ୯ޠͰ͋Εྵ֬ΛճආͰ͖Δ • શจষʹରͯ͠εϜʔδϯά߲ಉ͡ ˠ
ॱংͷӨڹͳ͍ εϜʔδϯάͷॏΈ 0 ≤ # ≤ 1 จষEʹ͓͚Δ୯ޠU ͷग़ݱ֬ ίϨΫγϣϯશମͷ ୯ޠUͷग़ݱ֬
ΫΤϦʔੜ֬ͷਪఆ • σΟϦΫϨɾεϜʔδϯά • จষʹԠͯ͡εϜʔδϯάͷ߹͍ΛՄมʹ͢Δ • จষ͕͍ ʹ ؚΜͰ͍Δ୯ޠ͕ଟ͘ɺεϜʔδϯά͕ඞཁͳ͍ εϜʔδϯάͷॏΈЋͷӨڹ
จষʹΑܾͬͯ·Δ
ΫΤϦʔੜ֬ͷਪఆ • ΫΤϦϞσϧΛ·ͱΊΔͱʜ • ͜ͷΛར༻ͯ͠ϥϯΩϯά͢Δ จষEʹ͓͚Δ୯ޠU ͷग़ݱ֬ ίϨΫγϣϯશମͷ ୯ޠUͷग़ݱ֬ จষͷੜ֬
ಥવ෮׆ͨ͠
1POUFͱ$SPGUʹΑΔ࣮ݧ • ΫΤϦϞσϧʹΑΔݕࡧ1POUFBOE$SPGU Ͱ ॳΊͯఏҊ͞Εͨ • ΫΤϦϞσϧͱUGJEGΛൺֱ • 53&$Ͱݕূ
• UGJEGΑΓݦஶʹྑ͍͜ͱΛࣔͨ͠
1POUFͱ$SPGUʹΑΔ࣮ݧ • ฏۉద߹ͰධՁ • શͯͷ3FDBMMͰ-. ΫΤϦϞσϧ ͷ1SFDJTJPO͕༏Ґ • จΑΓ •
UGJEGͷΑ͏ͳΞυϗοΫͳํ๏Ͱͳ͘ ౷ܭతͳཧʹجͮ͘ख๏ΛఏҊͨ͠ • ਫ਼্ॏཁͰͳ͍ ৽͍͠ใݕࡧͷํ๏ͷఏҊʹҙຯ͕͋Δ
ใݕࡧʹ͓͚ΔݴޠϞσϧख๏ͱ ଞͷख๏ͷରൺ
ݴޠϞσϧख๏ͱଞͷख๏ͷରൺ • #*. όΠφϦಠཱϞσϧ ͱͷҧ͍ • Ϟσϧͷؔ࿈ੑΛఘΊ͍ͯΔ • #*.୯ޠ͝ͱͷ!"Λར༻ɺ֤จষͰڞ௨ͯ͠ར༻͢Δ •
ݴޠϞσϧϞσϧؒ จষؒ Ͱڞ௨ͷύϥϝʔλΛ༻͍ͳ͍ • ݴޠϞσϧؔ࿈ੑͷ֓೦͕ͳ͍ #*.ͷ3
ݴޠϞσϧख๏ͱଞͷख๏ͷରൺ • ݴޠϞσϧͷܽ • ؔ࿈ඇؔ࿈ͷ֓೦͕ͳ͍ͨΊద߹ϑΟʔυόοΫ͕ࠔ • ϑϨʔζઅͷݕࡧʹରԠͰ͖ͳ͍ • ϢχάϥϜϞσϧ୯ޠͷग़ݱ͕֬ಠཱ͔ͩΒ •
όΠάϥϜϞσϧͳͲΛ͏ඞཁ͕͋Δ
ݴޠϞσϧख๏ͱଞͷख๏ͷରൺ • UGJEGͱͷҧ͍ • େ·͔ʹࣅ͍ͯΔ • UG ˠ ϢχάϥϜݴޠϞσϧͰͦͷ··ར༻ •
JEG ˠ ίϨΫγϣϯશମΛར༻͢ΔεϜʔδϯάʹগ͠ࣅ͍ͯΔ • UGJEGώϡʔϦεςΟοΫ ݴޠϞσϧݪଇత ཧత • ݴޠϞσϧ֬ϞσϧεϜʔδϯάํ๏Λม͑ΒΕΔ UGJEG ݴޠϞσϧ
ݴޠϞσϧख๏ͱଞͷख๏ͷରൺ • UGJEG • UG JEG྆ํڞ͕ߴ͍ͱߴ͍ • ίϨΫγϣϯͰසग़͢Δ୯ޠͷJEG͍ • ݴޠϞσϧ
• ͋·Γग़ݱ͠ͳ͍୯ޠ͕͋Δͱ͕֬ݮΔ UGJEG ݴޠϞσϧ
֦ுݴޠϞσϧख๏
֦ுݴޠϞσϧख๏ จষϞσϧ ! " #$ • ΫΤϦʔ͕จষΛੜ͢Δ֬Λར༻ • ͋·ΓධՁ͞Ε͍ͯͳ͍ •
ΫΤϦʔ୯ޠ͕গͳ͍ͨΊɺਫ਼ྑ͍ਪఆ͕Ͱ͖ͳ͍ • ద߹ϑΟʔυόοΫࠐΊΔ • ؔ࿈จষ͔ΒऔΓग़ͨ͠༻ޠΛΫΤϦʔʹ֦ுͰ͖Δ ΫΤϦϞσϧ จষϞσϧ ,-ڑʹجͮ͘ํ๏
֦ுݴޠϞσϧख๏ • ,-ڑʹجͮ͘ख๏ • ! " #$ ͱ! % #&
ͷڑΛଌΓɺখ͍͞ॱʹϥϯΩϯά • ΫΤϦɺจষڞʹසग़͢Δ୯ޠ͕͋Δ΄Ͳద߹͍ͯ͠Δ • ࣮ΫΤϦϞσϧͱՁʹͳΔ • ؒͷڑΛར༻ͨ͠ํ๏ଞʹൃలͰ͖Δ
֦ுݴޠϞσϧख๏ • ༁Ϟσϧ • ಉٛޠɺଞݴޠݕࡧͷରࡦ จষݴޠϞσϧ ΫΤϦϞσϧ ಉٛޠؒͷࣄޙ֬ γιʔϥεݴޠࣙॻ͔Β࡞ ຊޠͷ୯ޠUͱӳޠͷ୯ޠW
͕ಉٛޠͰ͋Δ֬ ӳ୯ޠW͕ӳจষEʹ ൃੜ͢Δ֬
·ͱΊ • ݴޠϞσϧΛར༻ͨ͠ݕࡧख๏ • ΫΤϦϞσϧ • γϯϓϧˍ֦ுੑ • ݴޠϞσϧͱεϜʔδϯάΛʹ͋ΘͤͯΈ߹Θͤ •
Ԡ༻ͨ͠ݴޠϞσϧ৭ʑ • ݴޠϞσϧɺ,-ڑ • ༁Ϟσϧ
ࢀߟจݙ • ߐޱߒೋ lใݕࡧͷͨΊͷ֬తݴޠϞσϧz ใॲཧֶձ ݚڀใࠂ 7PM4-1/P • ݪౡॱ
ࠇڮఓ lςΩετͷදใͱજࡏใΛར༻ͨ͠ద ߹ϑΟʔυόοΫz ࣗવݴޠॲཧ /P 7PM • ʹ࣮ࢪ͞Εͨษڧձࢿྉ • IUUQOBPZBEZOEOTPSHdOBPZBJJSQQU