$30 off During Our Annual Pro Sale. View Details »

バンディット問題の理論とアルゴリズム 第二章 / bandit2

todesking
September 20, 2019
77

バンディット問題の理論とアルゴリズム 第二章 / bandit2

todesking

September 20, 2019
Tweet

More Decks by todesking

Transcript

  1. όϯσΟοτ໰୊ͷཧ࿦
    ͱΞϧΰϦζϜ ୈೋষ
    @todesking

    View Slide

  2. ͜ͷষͰ΍Δ͜ͱ
    • த৺ۃݶఆཧ

    • ϔϑςΟϯάͷෆ౳ࣜ

    • νΣϧϊϑɾϔϑςΟϯάͷෆ౳ࣜ

    • αϊϑͷఆཧ

    • େภࠩݪཧ

    View Slide

  3. Ϟνϕʔγϣϯ
    • ΫϦοΫ཰ ͷೋͭͷ޿ࠂ͕͋Δ

    • ͦΕͧΕΛ100ճදࣔͨ͠ͱ͜Ζɺ؍ଌ͞ΕͨΫϦοΫ཰͸
    ͱͳͬͨ

    • σʔλʹै͏ͳΒɺ޿ࠂ1ͷ΄͏͕ΫϦοΫ཰͕ྑ͍ͨΊͨ
    ͘͞Μදࣔͨ͠΄͏͕͍͍

    • ͔͠͠ɺͨ·ͨ·ͦ͏ͳ͚ͬͨͩͰɺ ͔΋͠Εͳ͍

    • ໰͍: αϯϓϧ͔Βͷඪຊฏۉ ͕͋Δ ΑΓখ͞
    ͘ͳΔ֬཰ Λ஌Γ͍ͨ
    μ1
    , μ2
    ̂
    μ1
    = 0.01, ̂
    μ2
    = 0.00
    μ1
    < μ2
    n ̂
    μn
    x ∈ [0,1]
    P[ ̂
    μn
    ≤ x]

    View Slide

  4. Ϟνϕʔγϣϯ
    • ྫ: UCBํࡦʹ͓͚ΔείΞͷܾΊํ(3.4.1)

    • ࿹ ΛԿճ͔Ҿ͍ͯɺඪຊฏۉ Λಘͨ

    • ༗ҙਫ४ Ͱਅͷظ଴஋ͷ্ݶΛಘ͍ͨ

    • ͕ ҎԼʹͳΔ֬཰ ͕ඞཁ
    i ̂
    μi
    O(1/t)
    ̂
    μi
    μ′ P[ ̂
    μi
    ≤ μ′]

    View Slide

  5. த৺ۃݶఆཧ
    • ฏۉ஋ͷੑ࣭ͱ͍͑͹͜Ε

    • ඪ४Խ͞Εͨඪຊฏۉ ͷ෼෍͸ඪ४ਖ਼ن෼෍
    ʹऑऩଋ͢Δɻ͢ͳΘͪ



    • ͸ඪ४ਖ਼ن෼෍ͷྦྷੵ෼෍ؔ਺
    n( ̂
    μn
    − μ)
    σ
    lim
    n→∞ [
    n( ̂
    μn
    − μ)
    σ
    ≤ x
    ]
    = Φ(x)
    Φ(x)

    View Slide

  6. த৺ۃݶఆཧ
    • ඪຊฏۉͷ෼෍͸ਖ਼ن෼෍ͱͯۙ͠ࣅͰ͖Δ

    • ෼෍͕Θ͔Ε͹ ΋Θ͔Δ

    • ظ଴஋ ͷϕϧψʔΠ෼෍ʹै͏֬཰ม਺ͷඪຊฏۉ ͷ
    ৔߹:


    P[ ̂
    μn
    ≤ x]
    μ ̂
    μn
    P[ ̂
    μn
    ≤ x] ≈ Φ
    (
    n(x − μ)
    μ(1 − μ) )

    View Slide

  7. த৺ۃݶఆཧ
    • ͔ͨ͠ʹۙࣅ͸Ͱ͖͕ͨ……

    • ϕϦʔɾΤοηϯͷఆཧ: த৺ۃݶఆཧʹ͸ ఔ౓
    ͷޡ͕ࠩ͋Δ

    • ޡࠩ: ਅͷྦྷੵ෼෍ؔ਺ ʹରͯ͠ɺ

    • ޡࠩ ͰͷۙࣅΛߦ͍͍ͨͳΒ ఔ౓ͷαϯϓϧ਺͕ඞ
    ཁˠͭΒ͍ʂʂʂ
    ϵ = O
    (
    1
    n )
    Fn
    (x) ϵ = |Fn
    (x) − Φ(x)|
    ϵ O (
    1
    ϵ2 )

    View Slide

  8. ϔϑςΟϯάͷෆ౳ࣜ
    • ੄֬཰: ඪຊฏۉ͕ظ଴஋͔Βେ෯ʹͣΕΔ֬཰

    • ௿ස౓Ͱى͜Δࣄ৅ͷ֬཰Λখ͞ͳ૬ରޡࠩͰධՁͨ͠
    ͍

    • ੄֬཰ͷ্ݶΛݟੵ΋Δͷ͕ϔϑςΟϯάͷෆ౳ࣜ

    View Slide

  9. ϔϑςΟϯάͷෆ౳ࣜ
    • i.i.d.֬཰ม਺ ͱ೚ҙͷ ʹରͯ͠ҎԼ͕੒Γཱͭ:





    • ͕ ͔Β Ҏ্ͣΕΔ֬཰͸ࢦ਺ؔ਺తʹݮগ

    • ͜ͷࣜ͸ ͷ෼෍͓Αͼ ʹґଘ͠ͳ͍

    • ͦΕΒʹґଘ͢Δ͜ͱͰ΋ͬͱਫ਼౓ΛΑ͘Ͱ͖Δ

    • →νΣϧϊϑɾϔϑςΟϯάͷෆ౳ࣜ
    Xi
    Δ > 0
    P [ ̂
    μn
    ≤ μ − Δ] ≤ e−2nΔ2
    P [ ̂
    μn
    ≥ μ + Δ] ≤ e−2nΔ2
    ̂
    μn
    μ Δ
    Xi
    μ

    View Slide

  10. νΣϧϊϑɾϔϑςΟϯάͷ
    ෆ౳ࣜ
    • ظ଴஋ ͷϕϧψʔΠ෼෍Λ ͱද͢

    • ظ଴஋ Λ΋ͭϕϧψʔΠ෼෍ؒͷKLμΠόʔδΣϯε͸



    • i.i.d.֬཰ม਺ ͓Αͼʹରͯ͠

    • ೚ҙͷ ʹରͯ͠

    • ೚ҙͷ ʹରͯ͠
    p Ber(p)
    p, q
    d(p, q) = p log
    p
    q
    + (1 − p)log
    1 − p
    1 − q
    Xi
    ∈ [0,1]
    0 ≤ x ≤ μ P[ ̂
    μn
    ≤ x] ≤ e−nd(x,μ)
    μ ≤ x ≤ 1 P[ ̂
    μn
    ≥ x] ≤ e−nd(x,μ)

    View Slide

  11. νΣϧϊϑɾϔϑςΟϯάͷ
    ෆ౳ࣜ
    • ϔϑςΟϯάͷෆ౳ࣜʹ͓͚Δ্ք:

    • νΣϧϊϑɾϔϑςΟϯάͷෆ౳ࣜʹ͓͚Δ্ք:

    • ϐϯεΧʔͷෆ౳ࣜʹΑΕ͹ɺ


    • ΑͬͯɺνΣϧϊϑɾϔϑςΟϯάͷෆ౳ࣜͷ΄͏͕ݫີ
    ͳ্քΛ༩͑Δ

    • ͕ϕϧψʔΠ෼෍ʹै͏৔߹ɺࢦ਺ ͸͜ΕҎ্վ
    ળͰ͖ͳ͍
    e−2nΔ2
    e−nd(x,μ)
    d(x, μ) ≥ 2(x − μ)2 = 2Δ2
    Xi
    d(x, μ)

    View Slide

  12. αϊϑͷఆཧ
    • ࠓ·Ͱͷٞ࿦͸ඪຊฏۉͷ੄֬཰Λ্͔Βࢦ਺ؔ਺Ͱ཈
    ͑Δ΋ͷ

    • ඪຊ෼෍ͦͷ΋ͷʹରͯ֬͠཰ධՁ͢Δख๏΋΄͍͠

    • αϊϑͷఆཧ

    View Slide

  13. αϊϑͷఆཧ
    • ্ͷ֬཰෼෍શମͷू߹Λ ͱ͢Δɻ೚ҙͷ෼෍
    ͓Αͼ։ू߹ ɺดू߹ ɺ ͔Βͷα
    ϯϓϧnݸʹΑΔܦݧ෼෍ ʹରͯ͠ҎԼ͕੒Γཱͭ





    • (´ŋ_ŋ`)?

    P ∈ A ⊂ B ⊂ P
    ̂
    Pn
    lim
    n→∞
    inf
    1
    n
    log P [
    ̂
    Pn
    ∈ A] ≥ − inf
    Q∈A
    D (Q||P)
    lim
    n→∞
    sup
    1
    n
    log P [
    ̂
    Pn
    ∈ B] ≤ − inf
    Q∈B
    D (Q||P)

    View Slide

  14. αϊϑͷఆཧ
    • αϊϑͷఆཧ͔Βݴ͑Δ͜ͱ: ෼෍ ͔ΒಘΒΕͨܦݧ෼
    ෍ ͕෼෍ ͔Βͷ΋ͷͰ͋ΔΑ͏ʹৼΔ෣͏֬཰͕


    P
    ̂
    Pn
    Q
    P [
    ̂
    Pn
    ≈ Q] ≈ e−nD(Q||P)

    View Slide

  15. େภࠩݪཧ
    • ௿֬཰Ͱى͖Δࣄ৅ͷ֬཰Λࢦ਺ؔ਺ͷܗͰධՁ͢Δཧ
    ࿦ମܥ

    View Slide

  16. ݫີ઴ۙ࿦
    • ૬ରޡࠩΛ೚ҙͷਫ਼౓ͰධՁ͢Δཧ࿦Β͍͠

    • Ұ࣍ݩ֬཰ม਺ͷඪຊฏۉʹ͍ͭͯ͸ɺ͋Δఆ਺ ( ͷ෼෍ ͓Αͼ ʹґଘ)͕ଘࡏ
    ͯ͠




    • ͜ͷࣜΛ࢖͏͜ͱͰɺνΣϧϊϑɾϔϑςΟϯάͷෆ౳ࣜ͸ਅͷ֬཰Λ ഒաେධ
    Ձ͍ͯ͠Δ͜ͱ͕Θ͔Δ

    • ༷ʑͳۙࣅΛ࢖༻ͨ͠৔߹ͷޡࠩͷάϥϑ: ਤ2.1

    • ͜ͷࣜ͸ ͷ࿩Λ͍ͯͯ͠ɺ༗ݶͷ ʹ͍ͭͯ͸ݴٴ͍ͯ͠ͳ͍ɻ͔࣮͠͠ࡍʹ
    ͸༗ݶͰ΋ྑ͍ਫ਼౓Λ༩͑Δɻ

    • ٙ໰: νΣϧϊϑɾϔϑςΟϯάͷෆ౳ࣜΛ ͰׂΕ͹͍͍ͷͰ͸(´ŋ_ŋ`)?
    C Xi
    P x
    lim
    n→∞
    P[ ̂
    μn
    ≤ x]
    C
    n
    exp (−n supλ≤0
    (λx − log E[eλXi]))
    = 1
    n
    n → ∞ n
    n

    View Slide