Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
バンディット問題の理論とアルゴリズム 第8章 / bandit-8
Search
todesking
December 27, 2019
Technology
130
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
バンディット問題の理論とアルゴリズム 第8章 / bandit-8
todesking
December 27, 2019
More Decks by todesking
See All by todesking
自作言語進捗 2020 Mar / ojaml-2020-mar
todesking
0
450
オンライン広告におけるCTR/CVR推定関係の論文を30本くらい雑に紹介する / rtb-papers-ctr
todesking
3
1.8k
オンライン広告関連の論文を50本くらい雑に紹介する AdKDD編 / adkdd-all
todesking
4
2.5k
バンディット問題の理論とアルゴリズム 第二章 / bandit2
todesking
0
200
自作言語進捗 2019 May / ojaml-2019-may
todesking
0
980
自作言語進捗 2019 Mar
todesking
0
520
ベイズ統計モデリング 10 // Doing Bayesian Data Analysis Chapter 10
todesking
0
130
実行時におけるJVMバイトコード最適化手法
todesking
16
13k
Other Decks in Technology
See All in Technology
GitHub Copilot運用のリアル ~AI Credit時代にどう向き合うか~
takafumisu2uk1
0
470
千葉での単身赴任からAWSをやり続け、千葉に戻ってきた話
yama3133
1
120
Amazon Redshift zero-ETL 統合を活用した軽量なマルチプロダクトデータ可視化基盤 / Lightweight Multi-Product Data Visualization with Amazon Redshift Zero-ETL
kaminashi
0
100
toB プロダクトから見たWAF
tokai235
0
240
從觀望到全公司落地:AI Agentic Coding 導入實戰 — 流程整合與安全治理
appleboy
0
130
ご挨拶「10周年を迎える共創ラボのこれまでとこれから」
iotcomjpadmin
0
140
AIペネトレーションテスト・ セキュリティ検証「AgenticSec」紹介資料
laysakura
2
7.7k
Comment regagner la souveraineté de vos données tout en étant payé grâce à Nostr !
rlifchitz
0
210
アラート調査向けAIエージェントの本番導入とその後/AI Agents for Alert Investigation: Production Deployment and After
taddy_919
1
230
事業会社における 機械学習・推薦システム技術の活用事例と必要な能力 / ml-recsys-in-layerx-wantedly-2026
yuya4
0
160
AIエージェントとPhysical AIが拓く製造業の変革(ハノーバーメッセリキャップ)
iotcomjpadmin
0
160
コミットの「なぜ」を読む
ota1022
0
120
Featured
See All Featured
The State of eCommerce SEO: How to Win in Today's Products SERPs - #SEOweek
aleyda
2
11k
ラッコキーワード サービス紹介資料
rakko
1
3.7M
How to Get Subject Matter Experts Bought In and Actively Contributing to SEO & PR Initiatives.
livdayseo
0
140
Building a A Zero-Code AI SEO Workflow
portentint
PRO
0
610
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
49
10k
Getting science done with accelerated Python computing platforms
jacobtomlinson
2
240
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
Balancing Empowerment & Direction
lara
6
1.2k
Product Roadmaps are Hard
iamctodd
PRO
55
12k
The Spectacular Lies of Maps
axbom
PRO
1
820
Redefining SEO in the New Era of Traffic Generation
szymonslowik
1
350
16th Malabo Montpellier Forum Presentation
akademiya2063
PRO
0
150
Transcript
όϯσΟοτͷ ཧͱΞϧΰϦζϜ 8ষ @todesking
࿈ଓόϯσΟοτͱ ϕΠζ࠷దԽ wબࢶ͕࣮ͷϕΫτϧͰ͋ΔΑ͏ͳ߹ͷόϯσΟοτ wऔΕΔߦಈͷू߹ w࣌ࠁ Ͱͷߦಈ wߦಈ
ʹର͢Δใुظ w࠷దͳߦಈ w ͷܗঢ়ະɺ ͷબࢶ࣮࣭తʹແݶͱ͍͏աࠅ ͳঢ়گ ⊂ ℝd t at ∈ a f(a) a* = argmaxa∈ f(a) f(a) a
ࡶԻ wࡶԻͳ͠Ϟσϧ wࡶԻ͋ΓϞσϧ w͜ͷষͰ ͷࡶԻ͕ΔϞσϧΛߟ͑Δ wࡶԻͳ͠Ϟσϧͷ߹ɺ ճͷ୳ࡧͰ࣮֬ʹ ͕Θ͔Δͨ
Ίɺ ͷ߹Λߟ͑Δͷ͕ຊ࣭త wྫ.-ϞσϧͷϋΠύʔύϥϝʔλΛ ɺMFBWFPOFPVU$7 ͷ݁ՌΛ ͱ͢Δɻ wਅ໘ʹ-00$7͢ΔͳΒޡࠩͳ͠Ϟσϧ wҰ෦ͷαϯϓϧ͚ͩͰ$7͢ΔͳΒޡࠩ͋ΓϞσϧ Xt = f(at ) Xt = f(at ) + ϵt , E[ϵt ] = 0 ϵt ∼ (0,σ2) || a* || = ∞ a f(a)
࿈ଓόϯσΟοτʹ͓͚Δ ϦάϨοτ w wใु࠷େͷબࢶΛબͼଓ͚ͨ߹ͱ࣮ࡍͷใुͷࠩ wྦྷੵใु࠷େԽΛతͱ͢Δ w୯७ϦάϨοτ w ࣌ࠁ
ʹ͓͍ͯͬͱใुظ͕ଟ͍ߦಈ w࠷େͷใुͱ࠷ऴతʹબΕͨߦಈͷใुͷࠩ wࡶԻͳ͠Ϟσϧͷ߹ɺ w࠷దࣝผΛతͱ͢Δ regret(T) = T ∑ t=1 (f(a*) − f(at )) Δ(T) = f(a*) − f( ̂ a*(T)) ̂ a*(T) T Δ(T) = f(a*) − max i∈{1,…,T} f(at )
ظؔͷΫϥε w Ϧϓγοπ࿈ଓͳͲ ͠Β͘ग़ͯ͜ͳ͍ͷͰޙ ճ͠
ϕΠζ࠷దԽ wΨεաఔΛԾఆͯ͠࠷దࣝผΛղ͘ w࠷ѱ࣌ͷੑೳʹ͍ͭͯఘΊͯɺʮฏۉతͳʯέʔεʹ ͓͍ͯΑ͍ੑೳΛ༩͑Δํࡦ wใुظ ͕Ψεաఔʹै͏ͱͯ͠ɺϦάϨοτ ୯७ϦάϨοτΛ࠷దԽ͢Δํࡦ wલఏͱͯ͠Ψεաఔ͕ඞཁͳͷͰઌʹઆ໌͠·͢ f(a)
༧උࣝ: Ψεաఔ wࠓ·Ͱͷߦಈ͓Αͼใु Λݩʹɺߦಈ ʹΑͬͯಘΒΕΔ ใुͷظ͕ै͏ ΛٻΊ͍ͨ wΨεաఔΛ͏͜ͱͰ͜ͷ͕ܭࢉՄೳ wҎ߱ͷํࡦ (16$#ɺτϯϓιϯɺظվળྔ
ͷલఏͱͳΔ wࢀߟจݙΨεաఔͱػցֶश ػցֶशϓϩϑΣογϣφϧ γϦʔζ at , Xt a P[f(a) = x|at , Xt ]
Ψεաఔ: త w؍ଌ͞Εͨσʔλ͔Βɺະͷؔ Λਪఆ͍ͨ͠ wೖྗ wݶΒΕͨσʔλ͔Βͷਪఆ݁Ռෆਖ਼֬ wˠ৴པΛ֬Ͱද͍ͨ͠ wؔͦͷͷͰͳ͘ɺͦͷ ΛٻΊΔ
f(x) : ℝd → ℝ X = {x1 , ⋯, xn }, y = {f(x1 ), ⋯, f(xn )} P[f |X, y] https://www.ism.ac.jp/~daichi/lectures/H26-GaussianProcess/gp-lecture2-daichi.pdf ؍ଌσʔλ(ेࣈ)Λݩʹ༧ଌ͞Εͨyͷɻ ظ͕࣮ઢɺ৴པ͕۠ؒ੨͍ྖҬͰࣔ͞Ε͍ͯΔ
Ψεաఔ: ʹ͍ͭͯͷԾఆ f w؍ଌσʔλ͔Β ͷΛٻΊΔʹԿΒ͔ͷԾఆ͕͍Δ wԾఆ جఈؔ ʹΑΔҰൠԽઢܕϞσϧ Ͱ͋Γɺࣄલ
Ͱ͋Δ w͋Δ ʹର͢Δ ͷɺ Λͬͯ ͱॻ͚Δ w͜ͷͱ͖ɺ ଟมྔΨεʹै͍ɺ Ͱ͋Δ wΧʔωϧؔ Λ༻͍Δͱ ͱॻ͚Δ f f ϕ(x) = (ϕ1 (x), …, ϕd (x)) f(x) = wTϕ(x) P(w) = (0, α−1I) X = (x1 , …, xN )T y = ( f(x1 ), …, f(xn ))T Φ = ϕ1 (x1 ) … ϕd (x1 ) ⋮ ⋱ ⋮ ϕ1 (xN ) … ϕd (xN ) y = Φw y y = (0, α−1ΦΦT) k(xn , xm ) = α−1ϕ(xn )Tϕ(xm ) y = (0, k(x1 , x1 ) ⋯ k(x1 , xN ) ⋮ ⋱ ⋮ k(xN , x1 ) ⋯ k(xN , xN ) )
Ψεաఔ: ༧ଌ w ͕؍ଌ͞Ε͍ͯΔঢ়ଶͰɺ ͷΛٻ Ί͍ͨ wؔͷͱԿ͔ҙͷ ʹରͯ͠ɺ ͷಉ࣌ ͕Θ͔Ε
ͷ͕Θ ͔ͬͨ͜ͱʹͳΔ wଟมྔΨεͷ͖݅ʹΑͬͯٻΊΒΕΔ w ͱͯ͠ɺ Ͱ͋Δͱ͖ɺ ʹͳΔ wະͷ ͷΛطͷ Ͱදݱ͢Δ͜ͱ͕Ͱ͖ͨ X = {x1 , ⋯, xn }T, y = {f(x1 ), ⋯, f(xn )}T f X* = {x* 1 , …, x* M }T y* = {f(x* 1 ), ⋯, f(x* M )}T P[y*|X*, X, y] f K(n, m) = k(xn , xm ) k* (n, m) = k(xn , x* m ) k** (n, m) = k(x* n , x* m ) ( y y*) ∼ ( 0, ( K k* kT * k** )) P[y*|X*, X, y] = (kT * K−1y, k** − kT * K−1k*) y* X*, X, y
ϕΠζ࠷దԽ: Χʔωϧ wόϯσΟοτຊʹΔ wΧʔωϧͷબ wਖ਼ఆΧʔωϧؔ ʹରͯ͠ ͱ͢Δͷ͕Ұൠ త w
wεέʔϧύϥϝʔλ ΛͱΔ wΨεΧʔωϧ wΨεΧʔωϧͷҰൠԽͰ͋ΔϚλʔϯΧʔωϧ wઢܗΧʔωϧ Λ༻ͨ͠߹ઢܗόϯσΟοτ ষ ͱಉ g k(a, a′ ) = σ2 0 g(∥a − a′ ∥λ ) ∥a∥λ = d ∑ i=1 ai /λ2 i λ g(z) = exp(−z2/2) k(a, a′ ) = σ2 0 aTa′
࿈ଓόϯσΟοτͷํࡦ: GP-UCB w ͕Ψεաఔʹै͏ͱͨ͠߹ɺࠓ·Ͱͷ݁Ռ͔Βߦಈ ͰಘΒΕΔ ใु ͷฏۉ ͱࢄ ͕ܭࢉՄೳ wϕΠζ৴པ۠ؒͷ্ݶ
ͱͳΔ w ৴པ w֤࣌ࠁͰ Λ࠷େԽ͢Δ ΛબͿํࡦ͕(16$# wϦάϨοτΛ࠷খԽͤ͞Δͷ͕త͕ͩɺ Λେ͖͘औΔͱ୯७Ϧά Ϩοτͷ࠷খԽʹରԠՄೳ w ΨεΧʔωϧ w ࣍ ͷϚλʔϯΧʔωϧ f a f(a) μ(a|Xt ) σ(a|Xt ) ¯ μa (t) = μ(a|Xt ) + αt σ(a|Xt ) αt ̂ μa (t) a αt regret(T) = O ( T(log T)d+2 ) regret(T) = O (T ν + d(d + 1) 2ν + d(d + 1) log T) 1 < ν < ∞
࿈ଓόϯσΟοτͷํࡦ: τϯϓιϯநग़ wΨεաఔΛલఏͱ͍ͯ͠ΔͨΊɺ ͷ͕ಘΒΕΔ wՄೳͳߦಈ ΛࢄԽ͠ɺ༗ݶͷީิ ʹରͯ͠ ͷ ΛαϯϓϦϯά͠ɺ࠷େͱͳΔߦಈΛબͿ wΨεաఔΛͬͨํࡦʹڞ௨͢Δಛͱͯ͠ɺ
࣍ݩߦྻ ʹؔ͢Δܭࢉ͕ඞཁࢼߦ͕ଟ͘ͳΔͱܭࢉྔ͕૿͢ w ͷܭࢉྔφΠʔϒʹͬͯ wۙࣅ͢ΕݮΒͤ͢Δ w3BUFTPG$POWFSHFODFGPS4QBSTF7BSJBUJPOBM (BVTTJBO1SPDFTT3FHSFTTJPO*$.-#FTUQBQFS wઢܗόϯσΟοτʹ͓͍ͯ͜ͷ͕ͳ͍͔ΘΓʹɺແݶ ࣍ݩΛѻ͑ͳ͍ f(a) a′ s f(a ∈ a′ s ) t K−1 O(N3)
࿈ଓόϯσΟοτͷํࡦ: ظվળྔํࡦ wΨεաఔʹ͓͍ͯ୯७ϦάϨοτͷ࠷খԽΛࢦ͢ํࡦ w ճͷߦಈͷதͰҰ൪ྑ͔ͬͨใु w ճͷߦಈޙͷ୯७ϦάϨοτ w࣌ࠁ5ʹ͓͚Δ࠷దߦಈ
wظվળྔ wߦಈ ʹΑͬͯɺࠓ·Ͱ؍ଌ͞Εͨ࠷େ͔ΒͲΕ͚ͩվળ͞ΕΔ͔ ͷظ w ͕࠷େʹͳΔબࢶΛબͿ T ̂ f* T = max{f(aT ), ̂ f* T−1 } T Δ(T) = f(a*) − ̂ f* T ̂ aT = argmaxa∈ E[max{f(a), ̂ f* T−1 }| f(aT−1 )] = argmaxa∈ E[max{f(a) − ̂ f* T−1 ,0}| f(aT−1 )] EI(a| f(at )) = E[max{f(a) − ̂ f* t ,0}| f(at )] a EI(a| f(at ))
ଟ߲ࣜ࣌ؒͰ࣮ߦՄೳͳํࡦ w͚ͩ͜͜Ψεաఔؔͳ͍ͷͰޙճ͠
ڞࢄؔͷύϥϝʔλਪఆ wΨεաఔΛ͏߹ɺڞࢄؔʹͲͷΧʔωϧΛ͏͔ɺϋΠ ύʔύϥϝʔλΛͲ͏͢Δ͔ͱ͍ͬͨબ͕ඞཁ wڞࢄؔΛܾఆ͢ΔͨΊͷύϥϝʔλ εέʔϧύϥϝʔλɺΧʔ ωϧͷछྨɺΧʔωϧͷύϥϝʔλɺ؍ଌϊΠζͷࢄ Λڞࢄύ ϥϝʔλ ͱ͢Δ w࣌ࠁ
Ͱͷ ͷɺ ͷͱͰͷڞࢄؔ Λͬͯ ͱͳΔ θ t θ θ k(θ) L(θ; Xt ) = 1 (2π)ddet(k(θ)(at , at ) + σ2Id ) exp( 1 2 Xt (k(θ)(at , at ) + σ2Id )−1XT t )
ڞࢄؔͷύϥϝʔλਪఆ w࣌ࠁ ʹ͓͚Δߦಈ Λܾఆ͢Δࡍɺ Λ ༻͍Δํࡦ wಛʹ ͕খ͍͞͏ͪɺਅ͔Β͔͚ΕͨྖҬʹਪఆ͕ऩଋ ͢Δ߹͕͋Δ w&*ํࡦͷ߹ɺ
Ͱ࠷ѱ࣌Ͱ୯७ϦάϨοτ͕ʹऩଋ ͠ͳ͍ wແݶʹࢼߦͯ͠ਖ਼͍͕͑͠ಘΒΕͳ͍ʜʜ wڞࢄύϥϝʔλʹؔ͢ΔࣄޙฏۉΛͱΔํࡦ wԿΒ͔ͷείΞؔ Λ࠷େԽ͢Δ Λબͼ͍ͨ߹ wࣄલ ௨ৗҰ༷ Λஔ͖ɺ Λ࠷େ Խ͢Δ ΛબͿ t + 1 at+1 ̂ θt = argmaxθ∈Θ L(θ; Xt ) t t → ∞ uθ (a) a π(θ) Eθ∼π(θ|Xt ) [uθ (a; Xt )] a
ଟ߲ࣜ࣌ؒͰ࣮ߦՄೳͳํࡦ: ׂۭؒʹجͮ͘SOOํࡦ wΨεաఔͰͳ͍ͭ w؍ଌؔʹର͢Δଟ߲ࣜ࣌ؒͰ࣮ݱՄೳ͔ͭ୯७Ϧά Ϩοτͷऩଋ͕อূՄೳͳํࡦ w͜͜ͰΑ͏͘Β͔͞ͷ੍͕ग़ͯ͘Δ w ࠷ద ɺ͋Δ
ͱͯ͢ͷ ʹ͓͍ ͯɺ Λຬͨ͢ a* c, a > 0 a ∈ f(a*) − f(a) ≤ c∥a* − a∥α
SOOํࡦ wՄೳͳߦಈͷۭؒΛׂ͠ɺͦΕͧΕͷྖҬͷதΛߦ ಈͱͯ͠બ wಘͨใुΛݩʹɺΑͦ͞͏ͳ෦ۭؒͷީิΛબ͠ɺ ࠶ؼతʹׂ͍ͯ͘͠ wͳΜͰ͏·͍͘͘ͷ͔ཧղͯ͠ͳ͍ʜʜݩؾ͕͋ͬͨΒ ޱ಄ͰΓ·͠ΐ͏