Save 37% off PRO during our Black Friday Sale! »

非定常な多腕バンディット問題において効率的に変化を察知する方式の検討/wsa8_predictive_exploratory_model

 非定常な多腕バンディット問題において効率的に変化を察知する方式の検討/wsa8_predictive_exploratory_model

2021.06.04 Web System Architecture 研究会 (WSA研) #8
https://wsa.connpass.com/event/207143/

Cd3d2cb2dadf5488935fe0ddaea7938a?s=128

monochromegane

June 08, 2021
Tweet

Transcript

  1. ࡾ୐༔հ / Pepabo R&D Institute, GMO Pepabo, Inc. 2021.06.04 Web

    System Architecture ݚڀձ (WSAݚ) #8 ඇఆৗͳଟ࿹όϯσΟοτ໰୊ʹ͓͍ͯ ޮ཰తʹมԽΛ࡯஌͢Δํࣜͷݕ౼
  2. 1SJODJQBMFOHJOFFS :VTVLF.*:",&!NPOPDISPNFHBOF 1FQBCP3%*OTUJUVUF (.01FQBCP *OD IUUQTCMPHNPOPDISPNFHBOFDPN

  3. 1. ͸͡Ίʹ 2. ඇఆৗͳଟ࿹όϯσΟοτ໰୊ͷղ๏ʹ͓͚Δɺ มԽ࡯஌ͷ՝୊ 3. ಉɺޮ཰తͳมԽ࡯஌ͷํࣜͷݕ౼ 4. ධՁ 5.

    ·ͱΊ 3 ໨࣍
  4. 1. ͸͡Ίʹ

  5. • దԠతͳγεςϜͷ࣮ݱʹ͸ɺγεςϜ͕ར༻ऀͷঢ়گΛΑ͘஌Δ͜ͱ͕ॏཁ • ECαΠτͷγεςϜͰ͋Ε͹ɺར༻ऀͷᅂ޷Λ೺Ѳ͢Δ͜ͱͰɺ࠷దͳ঎ ඼ΛఏҊͰ͖Δ • ࣮ӡ༻ͷγεςϜʹ͓͍ͯίϛϡχέʔγϣϯʹ͸ίετ͕͔͔Δ • ʢར༻ऀࣗ਎΋ؚΊͯʣཁٻ΍ᅂ޷͸໌֬Ͱ͸ͳ͘ঃʑʹܗ੒͞Ε͍ͯ͘ •

    ͦͷظؒதͷෛ୲΍ػձଛࣦ͸୹ظ௕ظͰചΓ্͛ͳͲʹӨڹ͢Δ • ಛʹɺཁٻ΍ᅂ޷͕มԽ͢Δ؀ڥͰ͸ɺݱ࣌఺ͰՁ஋ͷ௿͍ίϛϡχέʔ γϣϯ΋ܧଓͯ͠ߦ͏ඞཁ͕͋Δ 5 దԠతͳγεςϜͱίϛϡχέʔγϣϯίετ
  6. • ίϛϡχέʔγϣϯΛɺબ୒ࢶͷఏҊͱ൓Ԡͱݶఆ͢Δ͜ͱͰɺ͜ͷίετΛ ࠷దԽ͢Δ໰୊Λʮଟ࿹όϯσΟοτ໰୊ʯͱͯ͠ߟ͑Δ͜ͱ͕Ͱ͖Δ 6 ίϛϡέʔγϣϯίετͷ࠷దԽͱଟ࿹όϯσΟοτ • ҰํͰɺैདྷͷಉ໰୊ͷղ๏Ͱ͸ɺબ୒ࢶͷ༗ޮੑ͕ʮܧଓతʹมԽʯ͢Δ؀ ڥͰ͸ɺૉૣ͘௿ίετͳมԽ௥ै͕Ͱ͖ͳ͍ʢؔ࿈ݚڀͰઆ໌ʣ • ͜ͷ؀ڥʹ͓͍ͯޮ཰తͳมԽ௥ैՄೳͳղ๏ΛఏҊ͢Δ͜ͱͰɺదԠతͳγ

    εςϜͷ࣮༻ԽΛਐΊ͍ͨ
  7. • ޱίϛάϧϝαΠτʹ͓͍ͯɺ੕4ϨϏϡʔ1000݅ͷళAͱ੕2ϨϏϡʔ50݅ ͷళB͕͋Δ • ͋Δ೔ɺళBͷγΣϑ͕มΘΓɺਅͷ࣮ྗ͕੕5૬౰ʹมԽͨ͠ • ͜ͷళBͷ੕͕ਅͷ࣮ྗ૬౰·Ͱߋ৽͞ΕΔظؒΛ୹͍ͨ͘͠ • → มԽޙ͙͢͸ධ൑͕ྑ͘ͳ͍ͷͰ๚໰΋͞ΕͣɺධՁͷߋ৽͕஗ΕΔɻ

    • → ʮมԽͷى͜ΓΛૉૣ͘௿ίετʹ࡯஌ʯ͢ΔੑೳΛ޲্͍ͨ͠ 7 ຊݚڀͰղܾ͍ͨ͠՝୊ͷྫ
  8. 2. ඇఆৗͳଟ࿹όϯσΟοτ໰୊ͷղ๏ʹ ͓͚ΔɺมԽ࡯஌ͷ՝୊

  9. • ʮ࿹ʯͱݺ͹ΕΔෳ਺ͷީิ͔ΒಘΒΕΔใुΛ࠷େԽ͢Δ໰୊ • ϓϨΠϠʔ͸Ұ౓ͷࢼߦͰ1ͭͷ࿹Λબ୒͠ɺใुΛಘΔ • ͦΕͧΕͷ࿹͸͋Δใु෼෍ʹै͍ใुΛੜ੒ • ͨͩ͠ɺϓϨΠϠʔ͸͜ͷใु෼෍Λࢼߦͷ݁Ռ͔Βਪଌ͢Δඞཁ͕͋Δ 9 ଟ࿹όϯσΟοτ໰୊

    • ϓϨΠϠʔ͸͋Δ࣌఺ͷ࿹ͷධՁʹج͖ͮʮ׆༻ʯͱʮ୳ࡧʯΛฒߦͯ͠ߦ͏ • ͜ͷτϨʔυΦϑΛղফ͢ΔͨΊʹ༷ʑͳղ๏͕ఏҊ͞Ε͍ͯΔ
  10. • ಉ͡จ຺ʹ͓͍ͯ΋࣌ؒܦաʹΑͬͯใु෼෍͕มԽ͢Δଟ࿹όϯσΟοτ໰ ୊ͷ໰୊ઃఆ • पظతͳมԽͰ͋Ε͹ཁҼͷύϥϝʔλʹؚΊΔ͜ͱͰରԠͰ͖Δ͕ෆن ଇͳ৔߹ʢඇఆৗͳมԽͷ৔߹ʣ͸͜ͷݶΓͰ͸ͳ͍ 10 ඇఆৗͳଟ࿹όϯσΟοτ໰୊ • ඇఆৗͳଟ࿹όϯσΟοτ໰୊ͷղ๏Ͱ͸ɺաڈʹ؍ଌͨ͠ใुʹଊΘΕͣ࿹

    ͷධՁΛਝ଎ʹߋ৽͢Δ͜ͱͰ֤จ຺ʹ͓͚ΔใुΛ༧૝͢Δ
  11. ඇఆৗͳଟ࿹όϯσΟοτ໰୊ 11 Arm0 Arm1 Arm2 User(s) System ਪఆͨ֬͠཰෼෍ ਅͷ֬཰෼෍ Recommend

    Click t = 0~ t = 100~ t = 0~ t = 100~ t = 99 t = 99
  12. ඇఆৗͳଟ࿹όϯσΟοτ໰୊ 12 Arm0 Arm1 Arm2 User(s) System ਪఆͨ֬͠཰෼෍ ਅͷ֬཰෼෍ Recommend

    Click t = 0~ t = 100~ t = 0~ t = 100~ t = 199 t = 199
  13. • ैདྷݚڀ͸ɺ࿹ͷධՁͷਝ଎ͳߋ৽ʹয఺Λ౰͍ͯͯͨ • ݮਰɺ΢Οϯυ΢ɺมԽݕग़ɺঢ়ଶۭؒ • ͜ΕΒ͸ɺมԽޙͷใु෼෍͔ΒͷҰఆ਺ͷใुαϯϓϧ͕ඞཁ • ͋Δ࣌ظʹ༗ޮੑͷ௿͔ͬͨ࿹͸ɺͦ΋ͦ΋બఆ͞Εͳ͍ͨΊɺධՁͷߋ৽͕ ೉͍͠ɻ •

    ͜ͷ՝୊΁औΓ૊Μͩઌߦݚڀ[1][2] Ͱ͸ɺҰఆͷׂ߹Ͱ୳ࡧ༻ͷࢼߦػձΛ֬ อ͍ͯ͠Δɻ 13 ඇఆৗͳଟ࿹όϯσΟοτʹ͓͚ΔมԽͷ࡯஌ • [1] Fang Liu, Joohyun Lee, and Ness Shroff. 2018. A change-detection based framework for piecewise-stationary multi-armed bandit problem. In Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 32. • [2] Yang Cao, Zheng Wen, Branislav Kveton, and Yao Xie. 2019. Nearly optimal adaptive procedure with change detection for piecewise-stationary bandit. In The 22nd International Conference on Artificial Intelligence and Statistics. PMLR, 418–427.
  14. • ᶃ ఆৗ࣌ͷػձଛࣦ • ίετͱͯ͠ڐ༰ʁ • ᶄ มԽݕग़༻ͷ୳ࡧ͸ϥϯμϜ୳ࡧ • ࿹ͷ਺͕૿͑Δ΄Ͳ୳ࡧػձ͕෼ࢄ

    • ඇޮ཰ͳ୳ࡧͰػձଛࣦ͕૿Ճ 14 ඇఆৗͳଟ࿹όϯσΟοτʹ͓͚ΔมԽͷ࡯஌ͷ՝୊ ׆༻ͱ୳ࡧ ୳ࡧ      • มԽ࡯஌ͷͨΊͷޮ཰͕ѱ͍
  15. • ᶃ ఆৗ࣌ͷػձଛࣦ • ίετͱͯ͠ڐ༰ʁ • ᶄ มԽݕग़༻ͷ୳ࡧ͸ϥϯμϜ୳ࡧ • ࿹ͷ਺͕૿͑Δ΄Ͳ୳ࡧػձ͕෼ࢄ

    • ඇޮ཰ͳ୳ࡧͰػձଛࣦ͕૿Ճ 15 ඇఆৗͳଟ࿹όϯσΟοτʹ͓͚ΔมԽͷ࡯஌ͷ՝୊ ׆༻ͱ୳ࡧ ୳ࡧ      • มԽ࡯஌ͷͨΊͷޮ཰͕ѱ͍
  16. 3. ޮ཰తͳมԽ࡯஌ͷํࣜͷݕ౼

  17. • ᶄ มԽݕग़༻ͷ୳ࡧ͸ϥϯμϜ୳ࡧ 17 ޮ཰తͳมԽ࡯஌ͷํࣜݕ౼ ׆༻ͱ୳ࡧ ୳ࡧ   

      • ະདྷʹ͓͍ͯɺͲͷ࿹͕༗ޮʹͳΔ͔ Θ͔Βͳ͍ͱ͍͏ڧ੍͍໿ • աڈͷ৘ใ΋͋ͯʹ͠ͳ͍ • ΋͏গ͠؇ΊΒΕͳ͍͔
  18. • ᶄ มԽݕग़༻ͷ୳ࡧ͸ϥϯμϜ୳ࡧ 18 ޮ཰తͳมԽ࡯஌ͷํࣜݕ౼ ׆༻ͱ୳ࡧ ୳ࡧ   

      • ୳ࡧΛʮ಺෦ଟ࿹όϯσΟοτʯͱΈͳ͢ • কདྷੑͱෆ҆ఆੑΛධՁج४ͱͯ͠બఆ কདྷੑͱෆ҆ఆੑʹΑΔ ׆༻ʢूதతͳ୳ࡧʣ ݱࡏ
  19. • ᶄ มԽݕग़༻ͷ୳ࡧ͸ϥϯμϜ୳ࡧ 19 ޮ཰తͳมԽ࡯஌ͷํࣜݕ౼ ׆༻ͱ୳ࡧ ୳ࡧ   

      • ୳ࡧΛʮ಺෦ଟ࿹όϯσΟοτʯͱΈͳ͢ • কདྷੑͱෆ҆ఆੑΛධՁج४ͱͯ͠બఆ কདྷੑͱෆ҆ఆੑʹΑΔ ׆༻ʢूதతͳ୳ࡧʣ ݱࡏ ະདྷ
  20. • ᶄ มԽݕग़༻ͷ୳ࡧ͸ϥϯμϜ୳ࡧ 20 ޮ཰తͳมԽ࡯஌ͷํࣜݕ౼ ׆༻ͱ୳ࡧ ୳ࡧ   

      • ୳ࡧΛʮ಺෦ଟ࿹όϯσΟοτʯͱΈͳ͢ • কདྷੑͱෆ҆ఆੑΛධՁج४ͱͯ͠બఆ কདྷੑͱෆ҆ఆੑʹΑΔ ׆༻ʢूதతͳ୳ࡧʣ • ࿹ͷ਺ͷ૿Ճʹ΋ؤ݈͔ͭػձଛࣦΛ௿ݮ • બ୒มԽʹඞཁͳαϯϓϧ਺Λૉૣ͘஝ੵ ूதతͳ୳ࡧ
  21. 4. ධՁ

  22. • ΧϧϚϯϑΟϧλ ϕʔεͷίϯηϓτ࣮૷ ͰγϛϡϨʔγϣϯ • ˎকདྷੑͷΈߟྀʢ = ༧ଌͷظ଴஋ͷ Έʣར༻ •

    ಺෦ଟ࿹όϯσΟοτ෦෼ͷΈͰධՁʢຊ ྲྀͱͷࢼߦ࣮੷ͷ΍ΓͱΓͳ͠ʣ • ࠷΋ऑ͍Arm1ͷ༗ޮੑ͕ظؒதʹ࠷΋େ͖ ͘ͳΔઃఆ 22 ධՁ
  23. • ධՁର৅ͷํࣜ • random: ϥϯμϜͳ୳ࡧʢ༧ଌͰ͖ͳ͍ະདྷΛ૝ఆʣε-Greedy(ε=1.0) • epsilon: ݱࡏͷ৘ใʹجͮ͘୳ࡧʢ༧ଌͰ͖ͳ͍ະདྷΛ૝ఆʣε-Greedy(ε=0.1) • state

    model: ༧ଌʹجͮ͘୳ࡧʢ༧ଌͰ͖ΔະདྷΛ૝ఆʣε-Greedy(ε=0.1)͕ͩ׆༻࣌͸Χ ϧϚϯϑΟϧλʹΑΔ100ظઌ༧ଌͷ஋Ͱબఆ͢Δ • ධՁج४ • ػձଛࣦΛ཈͑Δੑೳ: ྦྷੵϦάϨοτͷ௿͞ • มԽΛૉૣ͘࡯஌͢Δੑೳ: ࿹ͷਅͷ༗ޮੑ͕੾ΓସΘͬͨ࣌఺Ҏ߱Ͱ৽͍͠࠷దͳ࿹Λબ ୒ͨ͠ճ਺͕Ұఆ਺Λ௒͑Δ·Ͱͷظؒͷ୹͞ 23 ධՁํ๏
  24. • Random: ϦάϨοτ͸Ұఆʹ૿Ճ • Epsilon: มԽ΁ͷ௥ै͕஗ΕϦάϨοτ͕૿Ճ • State model: •

    ॳظ͸༧ଌ͕҆ఆͤͣϦάϨοτ૿Ճ • มԽલ͸epsilonͱಉఔ౓ • มԽޙ΋༧ଌʹΑΓকདྷੑͷߴ͍࿹ʹूதతʹ୳ࡧͰ͖ͨ͜ͱΛ͍ࣔͯ͠ Δɻ 24 ػձଛࣦΛ཈͑ΔੑೳͷධՁ
  25. • Random: ҰఆͰର৅ͷ࿹Λબఆɻ͜ΕΑΓ ଟ͍͜ͱ͕๬·͍͠ɻ • Epsilon: มԽ΁ͷ௥ै͕஗Εɺର৅ͷ࿹Λ΄΅ બఆͰ͖͍ͯͳ͍ɻ • State

    model: ༧ଌʹΑΓࣄલʹ֘౰ͷ࿹ͷ কདྷੑΛݟग़͠ɺूதతʹ୳ࡧΛߦͬͨ͜ͱͰrandomʹൺ΂ͯબఆ਺͕૿Ճ ͨ͠ɻ • → มԽͷ࡯஌Λ଎΍͔ʹߦ͑ΔՄೳੑ͕ߴ͍ 25 มԽΛૉૣ͘࡯஌͢ΔੑೳͷධՁ
  26. • ༧ଌͷਫ਼౓Λਤࣔ • ࣮ઢͷਅͷ༗ޮੑʹରͯ͠೾ઢ͕༧ଌϞσϧʹ Αͬͯ༧ଌ͞Εͨ100࣌఺ઌͷ༧ଌ஋ɻ • ॳظͷมಈ͸େ͖͍͕ɺޙ൒͸Α͘༧ଌ͞Εͯ ͍Δʢࠓճͷ͸ඇৗʹ؆୯ͳઃఆͩͬͨʣ • →

    ༧ଌϞσϧΛਖ਼͘͠ߏஙͰ͖Ε͹ɺఏҊํࣜͰɺޮ཰ྑ͘มԽ࡯஌Ͱ͖Δ Մೳੑ͕͋Δ 26 มԽΛૉૣ͘࡯஌͢ΔੑೳͷධՁ
  27. 5. ·ͱΊ

  28. • ඇఆৗͳଟ࿹όϯσΟοτʹ͓͚ΔมԽͷ࡯஌ͷ՝୊Λ੔ཧ͠ɺ࿹ͷෆ҆ఆੑ ͱকདྷੑʹண໨ͨ͠༧ଌܕͷଟ࿹όϯσΟοτํࡦΛఏҊ • কདྷੑΛߟྀՄೳͳίϯηϓτ࣮૷Ͱ͸ɺγϛϡϨʔγϣϯʹ͓͍ͯɺྦྷੵϦ άϨοτΛ཈͑ͨૉૣ͍มԽ࡯஌ͷՄೳੑ͕ࣔࠦ͞Εͨɻ • ࠓޙ͸ɺෆ҆ఆੑͷߟྀΛ૊ΈࠐΉ͜ͱɺͦͷͨΊʹε-GreedyͰ͸ͳ͘ Thompson SamplingΛϕʔεʹͨ͠ख๏ͱͷ౷߹ΛਐΊΔɻ

    ·ͨɺจ຺Λߟ ྀͨ͠৔߹Ͱͷ࣮૷ͱγϛϡϨʔγϣϯͷ֦ுΛߦ͏ɻ • Ճ͑ͯɺ୳ࡧׂ߹Λ؀ڥͷมԽͷ౓߹͍ʹԠͯ͡มಈͤ͞Δํࣜ΋ݕ౼͢Δ 28 ·ͱΊ
  29. None