Upgrade to Pro — share decks privately, control downloads, hide ads and more …

非定常な多腕バンディット問題において効率的に変化を察知する方式の検討/wsa8_predictive_exploratory_model

 非定常な多腕バンディット問題において効率的に変化を察知する方式の検討/wsa8_predictive_exploratory_model

2021.06.04 Web System Architecture 研究会 (WSA研) #8
https://wsa.connpass.com/event/207143/

monochromegane

June 08, 2021
Tweet

More Decks by monochromegane

Other Decks in Technology

Transcript

  1. ࡾ୐༔հ / Pepabo R&D Institute, GMO Pepabo, Inc. 2021.06.04 Web

    System Architecture ݚڀձ (WSAݚ) #8 ඇఆৗͳଟ࿹όϯσΟοτ໰୊ʹ͓͍ͯ ޮ཰తʹมԽΛ࡯஌͢Δํࣜͷݕ౼
  2. • దԠతͳγεςϜͷ࣮ݱʹ͸ɺγεςϜ͕ར༻ऀͷঢ়گΛΑ͘஌Δ͜ͱ͕ॏཁ • ECαΠτͷγεςϜͰ͋Ε͹ɺར༻ऀͷᅂ޷Λ೺Ѳ͢Δ͜ͱͰɺ࠷దͳ঎ ඼ΛఏҊͰ͖Δ • ࣮ӡ༻ͷγεςϜʹ͓͍ͯίϛϡχέʔγϣϯʹ͸ίετ͕͔͔Δ • ʢར༻ऀࣗ਎΋ؚΊͯʣཁٻ΍ᅂ޷͸໌֬Ͱ͸ͳ͘ঃʑʹܗ੒͞Ε͍ͯ͘ •

    ͦͷظؒதͷෛ୲΍ػձଛࣦ͸୹ظ௕ظͰചΓ্͛ͳͲʹӨڹ͢Δ • ಛʹɺཁٻ΍ᅂ޷͕มԽ͢Δ؀ڥͰ͸ɺݱ࣌఺ͰՁ஋ͷ௿͍ίϛϡχέʔ γϣϯ΋ܧଓͯ͠ߦ͏ඞཁ͕͋Δ 5 దԠతͳγεςϜͱίϛϡχέʔγϣϯίετ
  3. • ैདྷݚڀ͸ɺ࿹ͷධՁͷਝ଎ͳߋ৽ʹয఺Λ౰͍ͯͯͨ • ݮਰɺ΢Οϯυ΢ɺมԽݕग़ɺঢ়ଶۭؒ • ͜ΕΒ͸ɺมԽޙͷใु෼෍͔ΒͷҰఆ਺ͷใुαϯϓϧ͕ඞཁ • ͋Δ࣌ظʹ༗ޮੑͷ௿͔ͬͨ࿹͸ɺͦ΋ͦ΋બఆ͞Εͳ͍ͨΊɺධՁͷߋ৽͕ ೉͍͠ɻ •

    ͜ͷ՝୊΁औΓ૊Μͩઌߦݚڀ[1][2] Ͱ͸ɺҰఆͷׂ߹Ͱ୳ࡧ༻ͷࢼߦػձΛ֬ อ͍ͯ͠Δɻ 13 ඇఆৗͳଟ࿹όϯσΟοτʹ͓͚ΔมԽͷ࡯஌ • [1] Fang Liu, Joohyun Lee, and Ness Shroff. 2018. A change-detection based framework for piecewise-stationary multi-armed bandit problem. In Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 32. • [2] Yang Cao, Zheng Wen, Branislav Kveton, and Yao Xie. 2019. Nearly optimal adaptive procedure with change detection for piecewise-stationary bandit. In The 22nd International Conference on Artificial Intelligence and Statistics. PMLR, 418–427.
  4. • ᶃ ఆৗ࣌ͷػձଛࣦ • ίετͱͯ͠ڐ༰ʁ • ᶄ มԽݕग़༻ͷ୳ࡧ͸ϥϯμϜ୳ࡧ • ࿹ͷ਺͕૿͑Δ΄Ͳ୳ࡧػձ͕෼ࢄ

    • ඇޮ཰ͳ୳ࡧͰػձଛࣦ͕૿Ճ 14 ඇఆৗͳଟ࿹όϯσΟοτʹ͓͚ΔมԽͷ࡯஌ͷ՝୊ ׆༻ͱ୳ࡧ ୳ࡧ      • มԽ࡯஌ͷͨΊͷޮ཰͕ѱ͍
  5. • ᶃ ఆৗ࣌ͷػձଛࣦ • ίετͱͯ͠ڐ༰ʁ • ᶄ มԽݕग़༻ͷ୳ࡧ͸ϥϯμϜ୳ࡧ • ࿹ͷ਺͕૿͑Δ΄Ͳ୳ࡧػձ͕෼ࢄ

    • ඇޮ཰ͳ୳ࡧͰػձଛࣦ͕૿Ճ 15 ඇఆৗͳଟ࿹όϯσΟοτʹ͓͚ΔมԽͷ࡯஌ͷ՝୊ ׆༻ͱ୳ࡧ ୳ࡧ      • มԽ࡯஌ͷͨΊͷޮ཰͕ѱ͍
  6. • ᶄ มԽݕग़༻ͷ୳ࡧ͸ϥϯμϜ୳ࡧ 17 ޮ཰తͳมԽ࡯஌ͷํࣜݕ౼ ׆༻ͱ୳ࡧ ୳ࡧ   

      • ະདྷʹ͓͍ͯɺͲͷ࿹͕༗ޮʹͳΔ͔ Θ͔Βͳ͍ͱ͍͏ڧ੍͍໿ • աڈͷ৘ใ΋͋ͯʹ͠ͳ͍ • ΋͏গ͠؇ΊΒΕͳ͍͔
  7. • ᶄ มԽݕग़༻ͷ୳ࡧ͸ϥϯμϜ୳ࡧ 18 ޮ཰తͳมԽ࡯஌ͷํࣜݕ౼ ׆༻ͱ୳ࡧ ୳ࡧ   

      • ୳ࡧΛʮ಺෦ଟ࿹όϯσΟοτʯͱΈͳ͢ • কདྷੑͱෆ҆ఆੑΛධՁج४ͱͯ͠બఆ কདྷੑͱෆ҆ఆੑʹΑΔ ׆༻ʢूதతͳ୳ࡧʣ ݱࡏ
  8. • ᶄ มԽݕग़༻ͷ୳ࡧ͸ϥϯμϜ୳ࡧ 19 ޮ཰తͳมԽ࡯஌ͷํࣜݕ౼ ׆༻ͱ୳ࡧ ୳ࡧ   

      • ୳ࡧΛʮ಺෦ଟ࿹όϯσΟοτʯͱΈͳ͢ • কདྷੑͱෆ҆ఆੑΛධՁج४ͱͯ͠બఆ কདྷੑͱෆ҆ఆੑʹΑΔ ׆༻ʢूதతͳ୳ࡧʣ ݱࡏ ະདྷ
  9. • ᶄ มԽݕग़༻ͷ୳ࡧ͸ϥϯμϜ୳ࡧ 20 ޮ཰తͳมԽ࡯஌ͷํࣜݕ౼ ׆༻ͱ୳ࡧ ୳ࡧ   

      • ୳ࡧΛʮ಺෦ଟ࿹όϯσΟοτʯͱΈͳ͢ • কདྷੑͱෆ҆ఆੑΛධՁج४ͱͯ͠બఆ কདྷੑͱෆ҆ఆੑʹΑΔ ׆༻ʢूதతͳ୳ࡧʣ • ࿹ͷ਺ͷ૿Ճʹ΋ؤ݈͔ͭػձଛࣦΛ௿ݮ • બ୒มԽʹඞཁͳαϯϓϧ਺Λૉૣ͘஝ੵ ूதతͳ୳ࡧ
  10. • ΧϧϚϯϑΟϧλ ϕʔεͷίϯηϓτ࣮૷ ͰγϛϡϨʔγϣϯ • ˎকདྷੑͷΈߟྀʢ = ༧ଌͷظ଴஋ͷ Έʣར༻ •

    ಺෦ଟ࿹όϯσΟοτ෦෼ͷΈͰධՁʢຊ ྲྀͱͷࢼߦ࣮੷ͷ΍ΓͱΓͳ͠ʣ • ࠷΋ऑ͍Arm1ͷ༗ޮੑ͕ظؒதʹ࠷΋େ͖ ͘ͳΔઃఆ 22 ධՁ
  11. • ධՁର৅ͷํࣜ • random: ϥϯμϜͳ୳ࡧʢ༧ଌͰ͖ͳ͍ະདྷΛ૝ఆʣε-Greedy(ε=1.0) • epsilon: ݱࡏͷ৘ใʹجͮ͘୳ࡧʢ༧ଌͰ͖ͳ͍ະདྷΛ૝ఆʣε-Greedy(ε=0.1) • state

    model: ༧ଌʹجͮ͘୳ࡧʢ༧ଌͰ͖ΔະདྷΛ૝ఆʣε-Greedy(ε=0.1)͕ͩ׆༻࣌͸Χ ϧϚϯϑΟϧλʹΑΔ100ظઌ༧ଌͷ஋Ͱબఆ͢Δ • ධՁج४ • ػձଛࣦΛ཈͑Δੑೳ: ྦྷੵϦάϨοτͷ௿͞ • มԽΛૉૣ͘࡯஌͢Δੑೳ: ࿹ͷਅͷ༗ޮੑ͕੾ΓସΘͬͨ࣌఺Ҏ߱Ͱ৽͍͠࠷దͳ࿹Λબ ୒ͨ͠ճ਺͕Ұఆ਺Λ௒͑Δ·Ͱͷظؒͷ୹͞ 23 ධՁํ๏
  12. • Random: ϦάϨοτ͸Ұఆʹ૿Ճ • Epsilon: มԽ΁ͷ௥ै͕஗ΕϦάϨοτ͕૿Ճ • State model: •

    ॳظ͸༧ଌ͕҆ఆͤͣϦάϨοτ૿Ճ • มԽલ͸epsilonͱಉఔ౓ • มԽޙ΋༧ଌʹΑΓকདྷੑͷߴ͍࿹ʹूதతʹ୳ࡧͰ͖ͨ͜ͱΛ͍ࣔͯ͠ Δɻ 24 ػձଛࣦΛ཈͑ΔੑೳͷධՁ
  13. • Random: ҰఆͰର৅ͷ࿹Λબఆɻ͜ΕΑΓ ଟ͍͜ͱ͕๬·͍͠ɻ • Epsilon: มԽ΁ͷ௥ै͕஗Εɺର৅ͷ࿹Λ΄΅ બఆͰ͖͍ͯͳ͍ɻ • State

    model: ༧ଌʹΑΓࣄલʹ֘౰ͷ࿹ͷ কདྷੑΛݟग़͠ɺूதతʹ୳ࡧΛߦͬͨ͜ͱͰrandomʹൺ΂ͯબఆ਺͕૿Ճ ͨ͠ɻ • → มԽͷ࡯஌Λ଎΍͔ʹߦ͑ΔՄೳੑ͕ߴ͍ 25 มԽΛૉૣ͘࡯஌͢ΔੑೳͷධՁ