Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
情報検索の基礎 #12
Search
nishiokya
July 03, 2019
Science
1
450
情報検索の基礎 #12
言語モデルを利用した検索手法
クエリ尤度モデル
シンプル&拡張性
言語モデルとスムージングを問題にあわせて組み合わせ
応用した言語モデル色々
言語尤度モデル、KL距離
翻訳モデル
nishiokya
July 03, 2019
Tweet
Share
More Decks by nishiokya
See All by nishiokya
Introduction to Information Retrieval #21 Link analysis
nishiokya
1
260
夜の部Part1:IIRの演習問題を解く--名古屋統計勉強会
nishiokya
1
72
IIR輪読会 Chapter11 確率的情報検索
nishiokya
1
430
情報検索の基礎 第8章 情報検索の評価
nishiokya
1
200
情報検索の基礎 第6章 スコア付け、用語重み付け、ベクトル空間モデル
nishiokya
1
240
情報検索の基礎 第5章 インデックスの圧縮
nishiokya
1
150
情報検索の基礎3.3.3 編集距離の補足
nishiokya
1
280
名古屋検索勉強会 #4 インデックスの構築
nishiokya
1
150
Introduction to Information Retrieval Chapter 1
nishiokya
2
470
Other Decks in Science
See All in Science
Collective Predictive Coding Hypothesis and Beyond (@Japanese Association for Philosophy of Science, 26th October 2024)
tanichu
0
140
Transport information Geometry: Current and Future II
lwc2017
0
150
テンソル分解による糖尿病の組織特異的遺伝子発現の統合解析を用いた関連疾患の予測
tagtag
2
190
モンテカルロDCF法による事業価値の算出(モンテカルロ法とベイズモデリング) / Business Valuation Using Monte Carlo DCF Method (Monte Carlo Simulation and Bayesian Modeling)
ikuma_w
0
170
A Guide to Academic Writing Using Generative AI - A Workshop
ks91
PRO
0
110
機械学習 - K近傍法 & 機械学習のお作法
trycycle
PRO
0
1.1k
01_篠原弘道_SIPガバニングボード座長_ポスコロSIPへの期待.pdf
sip3ristex
0
530
CV_5_3dVision
hachama
0
140
白金鉱業Meetup Vol.16_【初学者向け発表】 数理最適化のはじめの一歩 〜身近な問題で学ぶ最適化の面白さ〜
brainpadpr
11
2.2k
深層学習を用いた根菜類の個数カウントによる収量推定法の開発
kentaitakura
0
160
データマイニング - グラフデータと経路
trycycle
PRO
1
140
生成検索エンジン最適化に関する研究の紹介
ynakano
2
1.1k
Featured
See All Featured
Rebuilding a faster, lazier Slack
samanthasiow
82
9.1k
Rails Girls Zürich Keynote
gr2m
94
14k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
The Straight Up "How To Draw Better" Workshop
denniskardys
234
140k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
20
1.3k
Automating Front-end Workflow
addyosmani
1370
200k
RailsConf 2023
tenderlove
30
1.1k
Done Done
chrislema
184
16k
Why You Should Never Use an ORM
jnunemaker
PRO
58
9.4k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.3k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
29
1.8k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
10
940
Transcript
ใݕࡧͷجૅ ใݕࡧͷͨΊͷݴޠϞσϧ LVNBHBJ
ষͷ֓ཁ • • ݴޠϞσϧͷ֓ཁ • • ΫΤϦʔϞσϧ •
• ݴޠϞσϧͱଞͷख๏ͷൺֱ • • ֦ுݴޠϞσϧ
ষͷ֓ཁ • ষͷ༰ • จষͱΫΤϦΛར༻ͨ͠ॱং͚ • จষEʹΫΤϦRΛؚΉ͔൱͔ • ΫΤϦʹରͯؔ͠࿈͔ඇؔ࿈͔ 2VFSZ
! " = 1 %, ')
ষͷ֓ཁ • จষ!͔ΒݴޠϞσϧ"#Λੜ • ݴޠϞσϧ͕ΫΤϦΛੜ͢Δ֬$ % "# • $ %
"# Ͱॱং͚ 2VFSZ ݴޠϞσϧ $(%|"# )
ݴޠϞσϧ
༗ݶΦʔτϚτϯͱݴޠϞσϧ • ୯ޠΛੜ͢ΔݴޠϞσϧͷྫ • lGSPHTBJEUIBUUPBEMJLFGSPHzΛੜ͢Δ֬ จষEͷ.PEFM ୯ޠͷग़ݱ֬ lGSPHTBJEUIBUUPBEMJLFGSPHzΛੜ͢Δ֬ จষEʹ͓͚Δ୯ޠ ͷग़ݱ֬
= 0.000000000024 &ℎ(
༗ݶΦʔτϚτϯͱݴޠϞσϧ • ྫ͑ͯઆ໌ • จষதͷ୯ޠ GSPH MJLF ͘͡ • จষͷશ୯ޠΛೖΕͨ͘͡ശ
ʹ ݴޠϞσϧ • lGSPHzճɺlTBJEzճʜͷΈ߹ΘͤΛ͘͡ശ͔ΒҾ֬͘ lGSPHTBJEUIBUUPBEMJLFGSPHzΛੜ͢Δ֬ จষ ୯ޠͷׂ߹ GSPH UIBU MJLF GSPH TBJE UPBE
༗ݶΦʔτϚτϯͱݴޠϞσϧ • ݴޠϞσϧͷൺֱ • ͭจষ͔Β࡞ͨ͠ݴޠϞσϧ • ͲͪΒͷํ͕lGSPHTBJEUIBUUPBEMJLFGSPHzΛੜ͢Δ͕֬ߴ͍͔ .PEFMͷํ͕͕֬ߴ͍ จষͷํ͕ଟ͘ΫΤϦ͕ग़ݱ͠ɺదͨ͠จষ
༗ݶΦʔτϚτϯͱݴޠϞσϧ จষ ୯ޠͷׂ߹ ୯ޠͷׂ߹ จষ • Ͳ͏͍͏͜ͱ • จষͷ͘͡ശͱจষͷ͘͡ശΛ४උ •
GSPHº TBJE UIBU UPBE MJLFͷΈ߹ΘͤΛͻ֬͘ ͲͪΒͷํ͕ߴ͍͔ʁ
ݴޠϞσϧͷछྨ • ྫͰΫΤϦʹؚ·ΕΔ୯ޠͷग़ݱ֬ͷੵΛར༻ • શ୯ޠͷग़ݱ֬ͷੵʹΫΤϦ͕ੜ͞ΕΔ֬ ˠ ͜Εຊʹଥʁ ୯ޠͷग़ݱ֬ lGSPHTBJEUIBUUPBEMJLFGSPHzΛੜ͢Δ֬ =
0.000000000024
ݴޠϞσϧͷछྨ • ΫΤϦ͕ग़ݱ͢Δ֬ΛͲ͏ߏங͢Δ͔ʁ • ϢχάϥϜݴޠϞσϧ • ֤୯ޠಠཱͱԾఆ͢Δ • ྫͰܭࢉͨ͠ͷ͜ͷϞσϧ •
όΠάϥϜݴޠϞσϧ • ֤୯ޠલͷ୯ޠͷӨڹΛड͚ΔͱԾఆ͢Δ • ԻೝࣝͰར༻ • ֬తࣗ༝จ๏ • Իೝࣝεϖϧमਖ਼ͳͲෳࡶͳपลจ຺Λߟྀ͢Δ߹ʹར༻
ݴޠϞσϧͷछྨ • ใݕࡧຆͲϢχάϥϜݴޠϞσϧΛར༻ • ୯ޠͷߏʹґଘ͢ΔλεΫͰͳ͍ • ใݕࡧͰेͳύϑΥʔϚϯε͕ಘΒΕΔ • ΑΓෳࡶͳϞσϧใݕࡧʹద͞ͳ͍ •
จষ͔ΒϞσϧΛ࡞͢ΔͨΊ܇࿅σʔλ͕গͳ͍ • ! "# "$ ΛٻΊΔͷʹෆे ୯ޠͷग़ݱ֬ 0,!
ޠʹ͓͚Δଟ߲ • ϢχάϥϜݴޠϞσϧͰޠͷॱংແؔ • จষ!Λੜ͢Δ֬ଟ߲ͰදݱͰ͖Δ "# : ! % &'(#
: ! & ) & : &
ΫΤϦʔϞσϧ
ใݕࡧʹ͓͚ΔΫΤϦʔϞσϧͷར༻ • ֬తʹϥϯΩϯά͢Δʹʜ • Γ͍ͨ͜ͱɿ! " # ʹΑͬͯจষΛϥϯΩϯά͢Δ • !
" # ɿΫΤϦ#ʹରͯ͠จॻ"͕ద߹͢Δ֬ • ϕΠζͷ๏ଇΛద༻͢Δͱ ΫΤϦͷൃੜ֬ จষͷൃੜ֬ จষʹ͓͚Δ ΫΤϦͷൃੜ֬
ใݕࡧʹ͓͚ΔΫΤϦʔϞσϧͷར༻ ΫΤϦશͯͷจষͰಉ͡ ˠ ϥϯΩϯάʹؔͳ͍ จষ͕ग़ݱ͢Δ֬Ұ༷ ͱߟ͑Δ͔͠ͳ͍ ˠ ϥϯΩϯάʹؔͳ͍ ˞δϟϯϧطಡใͳͲΛߟྀͯ͠Մมͷ߹͋Δ ʮจষʹ͓͚ΔΫΤϦͷൃੜ֬ʯ͕ຊ࣭తͳҙຯΛ࣋ͭ
ใݕࡧʹ͓͚ΔΫΤϦʔϞσϧͷར༻ ! " # ͷٻΊΔํ๏৭ʑ ͜͜ͰϢχάϥϜݴޠϞσϧΛར༻ ࠷ॳͷྫͱҰॹ ! " #
= ! " %& ݴޠϞσϧΛར༻ͨ͠ݕࡧ͕ΫΤϦʔϞσϧ จষ # ! " %& lGSPHTBJEUIBUUPBEMJLFGSPHz
ใݕࡧʹ͓͚ΔΫΤϦʔϞσϧͷར༻ • ଟ߲ʹͯΊΔͱ࠷ऴతʹ͜͏ͳΔ ଟ߲ จॻEͷϞσϧ͕ ୯ޠUΛੜ͢Δ֬ จॻEʹ͓͚Δ ୯ޠUͷൃੜස ίϨΫγϣϯͷશ ୯ޠ7ʹର͢Δੵ
ΫΤϦʔੜ֬ͷਪఆ • ! " #$ Ͳ͏ٻΊΒΕΔ͔ʁ • ࠷ਪఆͰ% " #$
͕࠷େʹͳΔ% & #$ ΛٻΊΔ จষEͷ૯୯ޠ จষEʹ͓͚Δ୯ޠUͷग़ݱස ୯७ʹ୯ޠ͕ൃੜ͢Δׂ߹ͰٻΊΔ͜ͱ͕Ͱ͖Δ
! " #$ = &$ '()*$ ! '(),$ ! ⋯
'().$ ! ! '/ #$ )01*2! '3 #$ )01,2 ⋯ ! '4 #$ )01.2 = &$ ∏ 67/ 4 '()8$ ! 9 :7/ 4 ! ': #$ )01;2 ରΛऔΔͱ log ! " #$ = &$ − @ 67/ 4 log '()8$ ! + @ :7/ 4 '();$ log! ': #$ ଟ߲ͷ∑676 C ! ': #$ = 1Λ༻͍ͯ ϥάϥϯδϡ๏ʹΑΓۃΛٻΊΔ & = &$ − @ 67/ 4 log '()8$ ! + @ :7/ 4 '();$ log! ': #$ + E @ 676 C ! '6 #$ − 1 F& F! 'G #$ = '()H$ ! 'G #$ + E = 0 − '()H$ E = ! 'G #$ શͯͷJʹରͯ͠ಉ༷ʹภඍΛٻΊɺ ͠߹ΘͤΔ − 1 E @ G7/ C '()H$ = @ G7/ C ! 'G #$ − &$ E = 1 E = −&$ − '()H$ &$ = ! 'G #$ ! 'G #$ )01H2 K2 EΛ্هͷࣜʹೖ͢Δ ٻΊͯΈͨ
ΫΤϦʔੜ֬ͷਪఆ ࠷ॳͷྫͰߟ͑Δͱʜ !"#,% &% จষEʹग़ݱ͢Δશ୯ޠதͷ୯ޠUͷׂ߹ ΫΤϦʹؚ·ΕΔ୯ޠͷ ൃੜ֬ͷੵ ࠷ॳͷྫϢχάϥϜݴޠϞσϧΛར༻ͨ͠ΫΤϦϞσϧ
ΫΤϦʔੜ֬ͷਪఆ • • શ͘ग़ݱ͠ͳ͍୯ޠ͕͋Δͱ͕֬ʹͳΔ • ΫΤϦʮϥʔϝϯ ͱΜͭ͜ OBHPZBʯͰݕࡧ จষʹʮOBHPZBʯ͕ͳ͚Ε
• ྵ֬ • ҙຯͱͷଓʁ DPOOFDUJWFTFNBOUJDT DPOKVODUJWFTFNBOUJDT
ΫΤϦʔੜ֬ͷਪఆ • ղܾࡦɿεϜʔδϯά • ষͰొͨ͠ྵ֬ରࡦ • ՃࢉεϜʔδϯά ষ • ࢠʹՃࢉ
Ћ • ਫ਼ѱ͍
ΫΤϦʔੜ֬ͷਪఆ • ઢܗิؒ๏ • จষʹग़ݱ͠ͳ͍୯ޠίϨΫγϣϯશମͰग़ݱ͢ΔͩΖ͏ • ίϨΫγϣϯʹؚ·ΕΔ୯ޠͰ͋Εྵ֬ΛճආͰ͖Δ • શจষʹରͯ͠εϜʔδϯά߲ಉ͡ ˠ
ॱংͷӨڹͳ͍ εϜʔδϯάͷॏΈ 0 ≤ # ≤ 1 จষEʹ͓͚Δ୯ޠU ͷग़ݱ֬ ίϨΫγϣϯશମͷ ୯ޠUͷग़ݱ֬
ΫΤϦʔੜ֬ͷਪఆ • σΟϦΫϨɾεϜʔδϯά • จষʹԠͯ͡εϜʔδϯάͷ߹͍ΛՄมʹ͢Δ • จষ͕͍ ʹ ؚΜͰ͍Δ୯ޠ͕ଟ͘ɺεϜʔδϯά͕ඞཁͳ͍ εϜʔδϯάͷॏΈЋͷӨڹ
จষʹΑܾͬͯ·Δ
ΫΤϦʔੜ֬ͷਪఆ • ΫΤϦϞσϧΛ·ͱΊΔͱʜ • ͜ͷΛར༻ͯ͠ϥϯΩϯά͢Δ จষEʹ͓͚Δ୯ޠU ͷग़ݱ֬ ίϨΫγϣϯશମͷ ୯ޠUͷग़ݱ֬ จষͷੜ֬
ಥવ෮׆ͨ͠
1POUFͱ$SPGUʹΑΔ࣮ݧ • ΫΤϦϞσϧʹΑΔݕࡧ1POUFBOE$SPGU Ͱ ॳΊͯఏҊ͞Εͨ • ΫΤϦϞσϧͱUGJEGΛൺֱ • 53&$Ͱݕূ
• UGJEGΑΓݦஶʹྑ͍͜ͱΛࣔͨ͠
1POUFͱ$SPGUʹΑΔ࣮ݧ • ฏۉద߹ͰධՁ • શͯͷ3FDBMMͰ-. ΫΤϦϞσϧ ͷ1SFDJTJPO͕༏Ґ • จΑΓ •
UGJEGͷΑ͏ͳΞυϗοΫͳํ๏Ͱͳ͘ ౷ܭతͳཧʹجͮ͘ख๏ΛఏҊͨ͠ • ਫ਼্ॏཁͰͳ͍ ৽͍͠ใݕࡧͷํ๏ͷఏҊʹҙຯ͕͋Δ
ใݕࡧʹ͓͚ΔݴޠϞσϧख๏ͱ ଞͷख๏ͷରൺ
ݴޠϞσϧख๏ͱଞͷख๏ͷରൺ • #*. όΠφϦಠཱϞσϧ ͱͷҧ͍ • Ϟσϧͷؔ࿈ੑΛఘΊ͍ͯΔ • #*.୯ޠ͝ͱͷ!"Λར༻ɺ֤จষͰڞ௨ͯ͠ར༻͢Δ •
ݴޠϞσϧϞσϧؒ จষؒ Ͱڞ௨ͷύϥϝʔλΛ༻͍ͳ͍ • ݴޠϞσϧؔ࿈ੑͷ֓೦͕ͳ͍ #*.ͷ3
ݴޠϞσϧख๏ͱଞͷख๏ͷରൺ • ݴޠϞσϧͷܽ • ؔ࿈ඇؔ࿈ͷ֓೦͕ͳ͍ͨΊద߹ϑΟʔυόοΫ͕ࠔ • ϑϨʔζઅͷݕࡧʹରԠͰ͖ͳ͍ • ϢχάϥϜϞσϧ୯ޠͷग़ݱ͕֬ಠཱ͔ͩΒ •
όΠάϥϜϞσϧͳͲΛ͏ඞཁ͕͋Δ
ݴޠϞσϧख๏ͱଞͷख๏ͷରൺ • UGJEGͱͷҧ͍ • େ·͔ʹࣅ͍ͯΔ • UG ˠ ϢχάϥϜݴޠϞσϧͰͦͷ··ར༻ •
JEG ˠ ίϨΫγϣϯશମΛར༻͢ΔεϜʔδϯάʹগ͠ࣅ͍ͯΔ • UGJEGώϡʔϦεςΟοΫ ݴޠϞσϧݪଇత ཧత • ݴޠϞσϧ֬ϞσϧεϜʔδϯάํ๏Λม͑ΒΕΔ UGJEG ݴޠϞσϧ
ݴޠϞσϧख๏ͱଞͷख๏ͷରൺ • UGJEG • UG JEG྆ํڞ͕ߴ͍ͱߴ͍ • ίϨΫγϣϯͰසग़͢Δ୯ޠͷJEG͍ • ݴޠϞσϧ
• ͋·Γग़ݱ͠ͳ͍୯ޠ͕͋Δͱ͕֬ݮΔ UGJEG ݴޠϞσϧ
֦ுݴޠϞσϧख๏
֦ுݴޠϞσϧख๏ จষϞσϧ ! " #$ • ΫΤϦʔ͕จষΛੜ͢Δ֬Λར༻ • ͋·ΓධՁ͞Ε͍ͯͳ͍ •
ΫΤϦʔ୯ޠ͕গͳ͍ͨΊɺਫ਼ྑ͍ਪఆ͕Ͱ͖ͳ͍ • ద߹ϑΟʔυόοΫࠐΊΔ • ؔ࿈จষ͔ΒऔΓग़ͨ͠༻ޠΛΫΤϦʔʹ֦ுͰ͖Δ ΫΤϦϞσϧ จষϞσϧ ,-ڑʹجͮ͘ํ๏
֦ுݴޠϞσϧख๏ • ,-ڑʹجͮ͘ख๏ • ! " #$ ͱ! % #&
ͷڑΛଌΓɺখ͍͞ॱʹϥϯΩϯά • ΫΤϦɺจষڞʹසग़͢Δ୯ޠ͕͋Δ΄Ͳద߹͍ͯ͠Δ • ࣮ΫΤϦϞσϧͱՁʹͳΔ • ؒͷڑΛར༻ͨ͠ํ๏ଞʹൃలͰ͖Δ
֦ுݴޠϞσϧख๏ • ༁Ϟσϧ • ಉٛޠɺଞݴޠݕࡧͷରࡦ จষݴޠϞσϧ ΫΤϦϞσϧ ಉٛޠؒͷࣄޙ֬ γιʔϥεݴޠࣙॻ͔Β࡞ ຊޠͷ୯ޠUͱӳޠͷ୯ޠW
͕ಉٛޠͰ͋Δ֬ ӳ୯ޠW͕ӳจষEʹ ൃੜ͢Δ֬
·ͱΊ • ݴޠϞσϧΛར༻ͨ͠ݕࡧख๏ • ΫΤϦϞσϧ • γϯϓϧˍ֦ுੑ • ݴޠϞσϧͱεϜʔδϯάΛʹ͋ΘͤͯΈ߹Θͤ •
Ԡ༻ͨ͠ݴޠϞσϧ৭ʑ • ݴޠϞσϧɺ,-ڑ • ༁Ϟσϧ
ࢀߟจݙ • ߐޱߒೋ lใݕࡧͷͨΊͷ֬తݴޠϞσϧz ใॲཧֶձ ݚڀใࠂ 7PM4-1/P • ݪౡॱ
ࠇڮఓ lςΩετͷදใͱજࡏใΛར༻ͨ͠ద ߹ϑΟʔυόοΫz ࣗવݴޠॲཧ /P 7PM • ʹ࣮ࢪ͞Εͨษڧձࢿྉ • IUUQOBPZBEZOEOTPSHdOBPZBJJSQQU