バンディット問題の理論とアルゴリズム第二章 / bandit2

όϯσΟοτ໰୊ͷཧ࿦ ͱΞϧΰϦζϜ ୈೋষ @todesking

͜ͷষͰ΍Δ͜ͱ • த৺ۃݶఆཧ • ϔϑςΟϯάͷෆ౳ࣜ • νΣϧϊϑɾϔϑςΟϯάͷෆ౳ࣜ • αϊϑͷఆཧ •
େภࠩݪཧ

Ϟνϕʔγϣϯ • ΫϦοΫ཰ ͷೋͭͷ޿ࠂ͕͋Δ • ͦΕͧΕΛ100ճදࣔͨ͠ͱ͜Ζɺ؍ଌ͞ΕͨΫϦοΫ཰͸ ͱͳͬͨ • σʔλʹै͏ͳΒɺ޿ࠂ1ͷ΄͏͕ΫϦοΫ཰͕ྑ͍ͨΊͨ ͘͞Μදࣔͨ͠΄͏͕͍͍
• ͔͠͠ɺͨ·ͨ·ͦ͏ͳ͚ͬͨͩͰɺ ͔΋͠Εͳ͍ • ໰͍: αϯϓϧ͔Βͷඪຊฏۉ ͕͋Δ ΑΓখ͞ ͘ͳΔ֬཰ Λ஌Γ͍ͨ μ1 , μ2 ̂ μ1 = 0.01, ̂ μ2 = 0.00 μ1 < μ2 n ̂ μn x ∈ [0,1] P[ ̂ μn ≤ x]

Ϟνϕʔγϣϯ • ྫ: UCBํࡦʹ͓͚ΔείΞͷܾΊํ(3.4.1) • ࿹ ΛԿճ͔Ҿ͍ͯɺඪຊฏۉ Λಘͨ • ༗ҙਫ४
Ͱਅͷظ଴஋ͷ্ݶΛಘ͍ͨ • ͕ ҎԼʹͳΔ֬཰ ͕ඞཁ i ̂ μi O(1/t) ̂ μi μ′ P[ ̂ μi ≤ μ′]

த৺ۃݶఆཧ • ฏۉ஋ͷੑ࣭ͱ͍͑͹͜Ε • ඪ४Խ͞Εͨඪຊฏۉ ͷ෼෍͸ඪ४ਖ਼ن෼෍ ʹऑऩଋ͢Δɻ͢ͳΘͪ • • ͸ඪ४ਖ਼ن෼෍ͷྦྷੵ෼෍ؔ਺
n( ̂ μn − μ) σ lim n→∞ [ n( ̂ μn − μ) σ ≤ x ] = Φ(x) Φ(x)

த৺ۃݶఆཧ • ඪຊฏۉͷ෼෍͸ਖ਼ن෼෍ͱͯۙ͠ࣅͰ͖Δ • ෼෍͕Θ͔Ε͹ ΋Θ͔Δ • ظ଴஋ ͷϕϧψʔΠ෼෍ʹै͏֬཰ม਺ͷඪຊฏۉ ͷ
৔߹: • P[ ̂ μn ≤ x] μ ̂ μn P[ ̂ μn ≤ x] ≈ Φ ( n(x − μ) μ(1 − μ) )

த৺ۃݶఆཧ • ͔ͨ͠ʹۙࣅ͸Ͱ͖͕ͨ…… • ϕϦʔɾΤοηϯͷఆཧ: த৺ۃݶఆཧʹ͸ ఔ౓ ͷޡ͕ࠩ͋Δ • ޡࠩ:
ਅͷྦྷੵ෼෍ؔ਺ ʹରͯ͠ɺ • ޡࠩ ͰͷۙࣅΛߦ͍͍ͨͳΒ ఔ౓ͷαϯϓϧ਺͕ඞ ཁˠͭΒ͍ʂʂʂ ϵ = O ( 1 n ) Fn (x) ϵ = |Fn (x) − Φ(x)| ϵ O ( 1 ϵ2 )

ϔϑςΟϯάͷෆ౳ࣜ • ੄֬཰: ඪຊฏۉ͕ظ଴஋͔Βେ෯ʹͣΕΔ֬཰ • ௿ස౓Ͱى͜Δࣄ৅ͷ֬཰Λখ͞ͳ૬ରޡࠩͰධՁͨ͠ ͍ • ੄֬཰ͷ্ݶΛݟੵ΋Δͷ͕ϔϑςΟϯάͷෆ౳ࣜ

ϔϑςΟϯάͷෆ౳ࣜ • i.i.d.֬཰ม਺ ͱ೚ҙͷ ʹରͯ͠ҎԼ͕੒Γཱͭ: • • • ͕ ͔Β
Ҏ্ͣΕΔ֬཰͸ࢦ਺ؔ਺తʹݮগ • ͜ͷࣜ͸ ͷ෼෍͓Αͼ ʹґଘ͠ͳ͍ • ͦΕΒʹґଘ͢Δ͜ͱͰ΋ͬͱਫ਼౓ΛΑ͘Ͱ͖Δ • →νΣϧϊϑɾϔϑςΟϯάͷෆ౳ࣜ Xi Δ > 0 P [ ̂ μn ≤ μ − Δ] ≤ e−2nΔ2 P [ ̂ μn ≥ μ + Δ] ≤ e−2nΔ2 ̂ μn μ Δ Xi μ

νΣϧϊϑɾϔϑςΟϯάͷ ෆ౳ࣜ • ظ଴஋ ͷϕϧψʔΠ෼෍Λ ͱද͢ • ظ଴஋ Λ΋ͭϕϧψʔΠ෼෍ؒͷKLμΠόʔδΣϯε͸ •
• i.i.d.֬཰ม਺ ͓Αͼʹରͯ͠ • ೚ҙͷ ʹରͯ͠ • ೚ҙͷ ʹରͯ͠ p Ber(p) p, q d(p, q) = p log p q + (1 − p)log 1 − p 1 − q Xi ∈ [0,1] 0 ≤ x ≤ μ P[ ̂ μn ≤ x] ≤ e−nd(x,μ) μ ≤ x ≤ 1 P[ ̂ μn ≥ x] ≤ e−nd(x,μ)

νΣϧϊϑɾϔϑςΟϯάͷ ෆ౳ࣜ • ϔϑςΟϯάͷෆ౳ࣜʹ͓͚Δ্ք: • νΣϧϊϑɾϔϑςΟϯάͷෆ౳ࣜʹ͓͚Δ্ք: • ϐϯεΧʔͷෆ౳ࣜʹΑΕ͹ɺ • ΑͬͯɺνΣϧϊϑɾϔϑςΟϯάͷෆ౳ࣜͷ΄͏͕ݫີ
ͳ্քΛ༩͑Δ • ͕ϕϧψʔΠ෼෍ʹै͏৔߹ɺࢦ਺ ͸͜ΕҎ্վ ળͰ͖ͳ͍ e−2nΔ2 e−nd(x,μ) d(x, μ) ≥ 2(x − μ)2 = 2Δ2 Xi d(x, μ)

αϊϑͷఆཧ • ࠓ·Ͱͷٞ࿦͸ඪຊฏۉͷ੄֬཰Λ্͔Βࢦ਺ؔ਺Ͱ཈ ͑Δ΋ͷ • ඪຊ෼෍ͦͷ΋ͷʹରͯ֬͠཰ධՁ͢Δख๏΋΄͍͠ • αϊϑͷఆཧ

αϊϑͷఆཧ • ্ͷ֬཰෼෍શମͷू߹Λ ͱ͢Δɻ೚ҙͷ෼෍ ͓Αͼ։ू߹ ɺดू߹ ɺ ͔Βͷα ϯϓϧnݸʹΑΔܦݧ෼෍ ʹରͯ͠ҎԼ͕੒Γཱͭ
• • • (´ŋ_ŋ`)? ℝ P ∈ A ⊂ B ⊂ P ̂ Pn lim n→∞ inf 1 n log P [ ̂ Pn ∈ A] ≥ − inf Q∈A D (Q||P) lim n→∞ sup 1 n log P [ ̂ Pn ∈ B] ≤ − inf Q∈B D (Q||P)

αϊϑͷఆཧ • αϊϑͷఆཧ͔Βݴ͑Δ͜ͱ: ෼෍ ͔ΒಘΒΕͨܦݧ෼ ෍ ͕෼෍ ͔Βͷ΋ͷͰ͋ΔΑ͏ʹৼΔ෣͏֬཰͕ • P
̂ Pn Q P [ ̂ Pn ≈ Q] ≈ e−nD(Q||P)

େภࠩݪཧ • ௿֬཰Ͱى͖Δࣄ৅ͷ֬཰Λࢦ਺ؔ਺ͷܗͰධՁ͢Δཧ ࿦ମܥ

ݫີ઴ۙ࿦ • ૬ରޡࠩΛ೚ҙͷਫ਼౓ͰධՁ͢Δཧ࿦Β͍͠ • Ұ࣍ݩ֬཰ม਺ͷඪຊฏۉʹ͍ͭͯ͸ɺ͋Δఆ਺ ( ͷ෼෍ ͓Αͼ ʹґଘ)͕ଘࡏ ͯ͠
• • ͜ͷࣜΛ࢖͏͜ͱͰɺνΣϧϊϑɾϔϑςΟϯάͷෆ౳ࣜ͸ਅͷ֬཰Λ ഒաେධ Ձ͍ͯ͠Δ͜ͱ͕Θ͔Δ • ༷ʑͳۙࣅΛ࢖༻ͨ͠৔߹ͷޡࠩͷάϥϑ: ਤ2.1 • ͜ͷࣜ͸ ͷ࿩Λ͍ͯͯ͠ɺ༗ݶͷ ʹ͍ͭͯ͸ݴٴ͍ͯ͠ͳ͍ɻ͔࣮͠͠ࡍʹ ͸༗ݶͰ΋ྑ͍ਫ਼౓Λ༩͑Δɻ • ٙ໰: νΣϧϊϑɾϔϑςΟϯάͷෆ౳ࣜΛ ͰׂΕ͹͍͍ͷͰ͸(´ŋ_ŋ`)? C Xi P x lim n→∞ P[ ̂ μn ≤ x] C n exp (−n supλ≤0 (λx − log E[eλXi])) = 1 n n → ∞ n n

バンディット問題の理論とアルゴリズム第二章 / bandit2

バンディット問題の理論とアルゴリズム第二章 / bandit2

todesking

More Decks by todesking

Featured

Transcript

όϯσΟοτ໰୊ͷཧ࿦ ͱΞϧΰϦζϜ ୈೋষ @todesking

͜ͷষͰ΍Δ͜ͱ • த৺ۃݶఆཧ • ϔϑςΟϯάͷෆ౳ࣜ • νΣϧϊϑɾϔϑςΟϯάͷෆ౳ࣜ • αϊϑͷఆཧ •

Ϟνϕʔγϣϯ • ΫϦοΫ཰ ͷೋͭͷ޿ࠂ͕͋Δ • ͦΕͧΕΛ100ճදࣔͨ͠ͱ͜Ζɺ؍ଌ͞ΕͨΫϦοΫ཰͸ ͱͳͬͨ • σʔλʹै͏ͳΒɺ޿ࠂ1ͷ΄͏͕ΫϦοΫ཰͕ྑ͍ͨΊͨ ͘͞Μදࣔͨ͠΄͏͕͍͍

Ϟνϕʔγϣϯ • ྫ: UCBํࡦʹ͓͚ΔείΞͷܾΊํ(3.4.1) • ࿹ ΛԿճ͔Ҿ͍ͯɺඪຊฏۉ Λಘͨ • ༗ҙਫ४

த৺ۃݶఆཧ • ฏۉ஋ͷੑ࣭ͱ͍͑͹͜Ε • ඪ४Խ͞Εͨඪຊฏۉ ͷ෼෍͸ඪ४ਖ਼ن෼෍ ʹऑऩଋ͢Δɻ͢ͳΘͪ • • ͸ඪ४ਖ਼ن෼෍ͷྦྷੵ෼෍ؔ਺

த৺ۃݶఆཧ • ඪຊฏۉͷ෼෍͸ਖ਼ن෼෍ͱͯۙ͠ࣅͰ͖Δ • ෼෍͕Θ͔Ε͹ ΋Θ͔Δ • ظ଴஋ ͷϕϧψʔΠ෼෍ʹै͏֬཰ม਺ͷඪຊฏۉ ͷ

த৺ۃݶఆཧ • ͔ͨ͠ʹۙࣅ͸Ͱ͖͕ͨ…… • ϕϦʔɾΤοηϯͷఆཧ: த৺ۃݶఆཧʹ͸ ఔ౓ ͷޡ͕ࠩ͋Δ • ޡࠩ:

ϔϑςΟϯάͷෆ౳ࣜ • ੄֬཰: ඪຊฏۉ͕ظ଴஋͔Βେ෯ʹͣΕΔ֬཰ • ௿ස౓Ͱى͜Δࣄ৅ͷ֬཰Λখ͞ͳ૬ରޡࠩͰධՁͨ͠ ͍ • ੄֬཰ͷ্ݶΛݟੵ΋Δͷ͕ϔϑςΟϯάͷෆ౳ࣜ

ϔϑςΟϯάͷෆ౳ࣜ • i.i.d.֬཰ม਺ ͱ೚ҙͷ ʹରͯ͠ҎԼ͕੒Γཱͭ: • • • ͕ ͔Β

νΣϧϊϑɾϔϑςΟϯάͷ ෆ౳ࣜ • ظ଴஋ ͷϕϧψʔΠ෼෍Λ ͱද͢ • ظ଴஋ Λ΋ͭϕϧψʔΠ෼෍ؒͷKLμΠόʔδΣϯε͸ •

νΣϧϊϑɾϔϑςΟϯάͷ ෆ౳ࣜ • ϔϑςΟϯάͷෆ౳ࣜʹ͓͚Δ্ք: • νΣϧϊϑɾϔϑςΟϯάͷෆ౳ࣜʹ͓͚Δ্ք: • ϐϯεΧʔͷෆ౳ࣜʹΑΕ͹ɺ • ΑͬͯɺνΣϧϊϑɾϔϑςΟϯάͷෆ౳ࣜͷ΄͏͕ݫີ

αϊϑͷఆཧ • ࠓ·Ͱͷٞ࿦͸ඪຊฏۉͷ੄֬཰Λ্͔Βࢦ਺ؔ਺Ͱ཈ ͑Δ΋ͷ • ඪຊ෼෍ͦͷ΋ͷʹରͯ֬͠཰ධՁ͢Δख๏΋΄͍͠ • αϊϑͷఆཧ

αϊϑͷఆཧ • ্ͷ֬཰෼෍શମͷू߹Λ ͱ͢Δɻ೚ҙͷ෼෍ ͓Αͼ։ू߹ ɺดू߹ ɺ ͔Βͷα ϯϓϧnݸʹΑΔܦݧ෼෍ ʹରͯ͠ҎԼ͕੒Γཱͭ

αϊϑͷఆཧ • αϊϑͷఆཧ͔Βݴ͑Δ͜ͱ: ෼෍ ͔ΒಘΒΕͨܦݧ෼ ෍ ͕෼෍ ͔Βͷ΋ͷͰ͋ΔΑ͏ʹৼΔ෣͏֬཰͕ • P

େภࠩݪཧ • ௿֬཰Ͱى͖Δࣄ৅ͷ֬཰Λࢦ਺ؔ਺ͷܗͰධՁ͢Δཧ ࿦ମܥ

ݫີ઴ۙ࿦ • ૬ରޡࠩΛ೚ҙͷਫ਼౓ͰධՁ͢Δཧ࿦Β͍͠ • Ұ࣍ݩ֬཰ม਺ͷඪຊฏۉʹ͍ͭͯ͸ɺ͋Δఆ਺ ( ͷ෼෍ ͓Αͼ ʹґଘ)͕ଘࡏ ͯ͠

バンディット問題の理論とアルゴリズム 第二章 / bandit2

バンディット問題の理論とアルゴリズム 第二章 / bandit2

More Decks by todesking

Featured

Transcript

バンディット問題の理論とアルゴリズム第二章 / bandit2

バンディット問題の理論とアルゴリズム第二章 / bandit2