Upgrade to Pro — share decks privately, control downloads, hide ads and more …

バンディット問題の理論とアルゴリズム 第二章 / bandit2

todesking
September 20, 2019
97

バンディット問題の理論とアルゴリズム 第二章 / bandit2

todesking

September 20, 2019
Tweet

Transcript

  1. Ϟνϕʔγϣϯ • ΫϦοΫ཰ ͷೋͭͷ޿ࠂ͕͋Δ • ͦΕͧΕΛ100ճදࣔͨ͠ͱ͜Ζɺ؍ଌ͞ΕͨΫϦοΫ཰͸ ͱͳͬͨ • σʔλʹै͏ͳΒɺ޿ࠂ1ͷ΄͏͕ΫϦοΫ཰͕ྑ͍ͨΊͨ ͘͞Μදࣔͨ͠΄͏͕͍͍

    • ͔͠͠ɺͨ·ͨ·ͦ͏ͳ͚ͬͨͩͰɺ ͔΋͠Εͳ͍ • ໰͍: αϯϓϧ͔Βͷඪຊฏۉ ͕͋Δ ΑΓখ͞ ͘ͳΔ֬཰ Λ஌Γ͍ͨ μ1 , μ2 ̂ μ1 = 0.01, ̂ μ2 = 0.00 μ1 < μ2 n ̂ μn x ∈ [0,1] P[ ̂ μn ≤ x]
  2. Ϟνϕʔγϣϯ • ྫ: UCBํࡦʹ͓͚ΔείΞͷܾΊํ(3.4.1) • ࿹ ΛԿճ͔Ҿ͍ͯɺඪຊฏۉ Λಘͨ • ༗ҙਫ४

    Ͱਅͷظ଴஋ͷ্ݶΛಘ͍ͨ • ͕ ҎԼʹͳΔ֬཰ ͕ඞཁ i ̂ μi O(1/t) ̂ μi μ′ P[ ̂ μi ≤ μ′]
  3. த৺ۃݶఆཧ • ͔ͨ͠ʹۙࣅ͸Ͱ͖͕ͨ…… • ϕϦʔɾΤοηϯͷఆཧ: த৺ۃݶఆཧʹ͸ ఔ౓ ͷޡ͕ࠩ͋Δ • ޡࠩ:

    ਅͷྦྷੵ෼෍ؔ਺ ʹରͯ͠ɺ • ޡࠩ ͰͷۙࣅΛߦ͍͍ͨͳΒ ఔ౓ͷαϯϓϧ਺͕ඞ ཁˠͭΒ͍ʂʂʂ ϵ = O ( 1 n ) Fn (x) ϵ = |Fn (x) − Φ(x)| ϵ O ( 1 ϵ2 )
  4. ϔϑςΟϯάͷෆ౳ࣜ • i.i.d.֬཰ม਺ ͱ೚ҙͷ ʹରͯ͠ҎԼ͕੒Γཱͭ: • • • ͕ ͔Β

    Ҏ্ͣΕΔ֬཰͸ࢦ਺ؔ਺తʹݮগ • ͜ͷࣜ͸ ͷ෼෍͓Αͼ ʹґଘ͠ͳ͍ • ͦΕΒʹґଘ͢Δ͜ͱͰ΋ͬͱਫ਼౓ΛΑ͘Ͱ͖Δ • →νΣϧϊϑɾϔϑςΟϯάͷෆ౳ࣜ Xi Δ > 0 P [ ̂ μn ≤ μ − Δ] ≤ e−2nΔ2 P [ ̂ μn ≥ μ + Δ] ≤ e−2nΔ2 ̂ μn μ Δ Xi μ
  5. νΣϧϊϑɾϔϑςΟϯάͷ ෆ౳ࣜ • ظ଴஋ ͷϕϧψʔΠ෼෍Λ ͱද͢ • ظ଴஋ Λ΋ͭϕϧψʔΠ෼෍ؒͷKLμΠόʔδΣϯε͸ •

    • i.i.d.֬཰ม਺ ͓Αͼʹରͯ͠ • ೚ҙͷ ʹରͯ͠ • ೚ҙͷ ʹରͯ͠ p Ber(p) p, q d(p, q) = p log p q + (1 − p)log 1 − p 1 − q Xi ∈ [0,1] 0 ≤ x ≤ μ P[ ̂ μn ≤ x] ≤ e−nd(x,μ) μ ≤ x ≤ 1 P[ ̂ μn ≥ x] ≤ e−nd(x,μ)
  6. νΣϧϊϑɾϔϑςΟϯάͷ ෆ౳ࣜ • ϔϑςΟϯάͷෆ౳ࣜʹ͓͚Δ্ք: • νΣϧϊϑɾϔϑςΟϯάͷෆ౳ࣜʹ͓͚Δ্ք: • ϐϯεΧʔͷෆ౳ࣜʹΑΕ͹ɺ • ΑͬͯɺνΣϧϊϑɾϔϑςΟϯάͷෆ౳ࣜͷ΄͏͕ݫີ

    ͳ্քΛ༩͑Δ • ͕ϕϧψʔΠ෼෍ʹै͏৔߹ɺࢦ਺ ͸͜ΕҎ্վ ળͰ͖ͳ͍ e−2nΔ2 e−nd(x,μ) d(x, μ) ≥ 2(x − μ)2 = 2Δ2 Xi d(x, μ)
  7. αϊϑͷఆཧ • ্ͷ֬཰෼෍શମͷू߹Λ ͱ͢Δɻ೚ҙͷ෼෍ ͓Αͼ։ू߹ ɺดू߹ ɺ ͔Βͷα ϯϓϧnݸʹΑΔܦݧ෼෍ ʹରͯ͠ҎԼ͕੒Γཱͭ

    • • • (´ŋ_ŋ`)? ℝ P ∈ A ⊂ B ⊂ P ̂ Pn lim n→∞ inf 1 n log P [ ̂ Pn ∈ A] ≥ − inf Q∈A D (Q||P) lim n→∞ sup 1 n log P [ ̂ Pn ∈ B] ≤ − inf Q∈B D (Q||P)
  8. ݫີ઴ۙ࿦ • ૬ରޡࠩΛ೚ҙͷਫ਼౓ͰධՁ͢Δཧ࿦Β͍͠ • Ұ࣍ݩ֬཰ม਺ͷඪຊฏۉʹ͍ͭͯ͸ɺ͋Δఆ਺ ( ͷ෼෍ ͓Αͼ ʹґଘ)͕ଘࡏ ͯ͠

    • • ͜ͷࣜΛ࢖͏͜ͱͰɺνΣϧϊϑɾϔϑςΟϯάͷෆ౳ࣜ͸ਅͷ֬཰Λ ഒաେධ Ձ͍ͯ͠Δ͜ͱ͕Θ͔Δ • ༷ʑͳۙࣅΛ࢖༻ͨ͠৔߹ͷޡࠩͷάϥϑ: ਤ2.1 • ͜ͷࣜ͸ ͷ࿩Λ͍ͯͯ͠ɺ༗ݶͷ ʹ͍ͭͯ͸ݴٴ͍ͯ͠ͳ͍ɻ͔࣮͠͠ࡍʹ ͸༗ݶͰ΋ྑ͍ਫ਼౓Λ༩͑Δɻ • ٙ໰: νΣϧϊϑɾϔϑςΟϯάͷෆ౳ࣜΛ ͰׂΕ͹͍͍ͷͰ͸(´ŋ_ŋ`)? C Xi P x lim n→∞ P[ ̂ μn ≤ x] C n exp (−n supλ≤0 (λx − log E[eλXi])) = 1 n n → ∞ n n