$30 off During Our Annual Pro Sale. View Details »

非定常な多腕バンディット問題において効率的に変化を察知する方式の検討/wsa8_predictive_exploratory_model

 非定常な多腕バンディット問題において効率的に変化を察知する方式の検討/wsa8_predictive_exploratory_model

2021.06.04 Web System Architecture 研究会 (WSA研) #8
https://wsa.connpass.com/event/207143/

monochromegane

June 08, 2021
Tweet

More Decks by monochromegane

Other Decks in Technology

Transcript

  1. ࡾ୐༔հ / Pepabo R&D Institute, GMO Pepabo, Inc.
    2021.06.04 Web System Architecture ݚڀձ (WSAݚ) #8
    ඇఆৗͳଟ࿹όϯσΟοτ໰୊ʹ͓͍ͯ
    ޮ཰తʹมԽΛ࡯஌͢Δํࣜͷݕ౼

    View Slide

  2. 1SJODJQBMFOHJOFFS
    :VTVLF.*:",&!NPOPDISPNFHBOF
    1FQBCP3%*OTUJUVUF (.01FQBCP *OD
    IUUQTCMPHNPOPDISPNFHBOFDPN

    View Slide

  3. 1. ͸͡Ίʹ
    2. ඇఆৗͳଟ࿹όϯσΟοτ໰୊ͷղ๏ʹ͓͚Δɺ
    มԽ࡯஌ͷ՝୊
    3. ಉɺޮ཰తͳมԽ࡯஌ͷํࣜͷݕ౼
    4. ධՁ
    5. ·ͱΊ
    3
    ໨࣍

    View Slide

  4. 1.
    ͸͡Ίʹ

    View Slide

  5. • దԠతͳγεςϜͷ࣮ݱʹ͸ɺγεςϜ͕ར༻ऀͷঢ়گΛΑ͘஌Δ͜ͱ͕ॏཁ
    • ECαΠτͷγεςϜͰ͋Ε͹ɺར༻ऀͷᅂ޷Λ೺Ѳ͢Δ͜ͱͰɺ࠷దͳ঎
    ඼ΛఏҊͰ͖Δ
    • ࣮ӡ༻ͷγεςϜʹ͓͍ͯίϛϡχέʔγϣϯʹ͸ίετ͕͔͔Δ
    • ʢར༻ऀࣗ਎΋ؚΊͯʣཁٻ΍ᅂ޷͸໌֬Ͱ͸ͳ͘ঃʑʹܗ੒͞Ε͍ͯ͘
    • ͦͷظؒதͷෛ୲΍ػձଛࣦ͸୹ظ௕ظͰചΓ্͛ͳͲʹӨڹ͢Δ
    • ಛʹɺཁٻ΍ᅂ޷͕มԽ͢Δ؀ڥͰ͸ɺݱ࣌఺ͰՁ஋ͷ௿͍ίϛϡχέʔ
    γϣϯ΋ܧଓͯ͠ߦ͏ඞཁ͕͋Δ
    5
    దԠతͳγεςϜͱίϛϡχέʔγϣϯίετ

    View Slide

  6. • ίϛϡχέʔγϣϯΛɺબ୒ࢶͷఏҊͱ൓Ԡͱݶఆ͢Δ͜ͱͰɺ͜ͷίετΛ
    ࠷దԽ͢Δ໰୊Λʮଟ࿹όϯσΟοτ໰୊ʯͱͯ͠ߟ͑Δ͜ͱ͕Ͱ͖Δ
    6
    ίϛϡέʔγϣϯίετͷ࠷దԽͱଟ࿹όϯσΟοτ
    • ҰํͰɺैདྷͷಉ໰୊ͷղ๏Ͱ͸ɺબ୒ࢶͷ༗ޮੑ͕ʮܧଓతʹมԽʯ͢Δ؀
    ڥͰ͸ɺૉૣ͘௿ίετͳมԽ௥ै͕Ͱ͖ͳ͍ʢؔ࿈ݚڀͰઆ໌ʣ
    • ͜ͷ؀ڥʹ͓͍ͯޮ཰తͳมԽ௥ैՄೳͳղ๏ΛఏҊ͢Δ͜ͱͰɺదԠతͳγ
    εςϜͷ࣮༻ԽΛਐΊ͍ͨ

    View Slide

  7. • ޱίϛάϧϝαΠτʹ͓͍ͯɺ੕4ϨϏϡʔ1000݅ͷళAͱ੕2ϨϏϡʔ50݅
    ͷళB͕͋Δ
    • ͋Δ೔ɺళBͷγΣϑ͕มΘΓɺਅͷ࣮ྗ͕੕5૬౰ʹมԽͨ͠
    • ͜ͷళBͷ੕͕ਅͷ࣮ྗ૬౰·Ͱߋ৽͞ΕΔظؒΛ୹͍ͨ͘͠
    • → มԽޙ͙͢͸ධ൑͕ྑ͘ͳ͍ͷͰ๚໰΋͞ΕͣɺධՁͷߋ৽͕஗ΕΔɻ
    • → ʮมԽͷى͜ΓΛૉૣ͘௿ίετʹ࡯஌ʯ͢ΔੑೳΛ޲্͍ͨ͠
    7
    ຊݚڀͰղܾ͍ͨ͠՝୊ͷྫ

    View Slide

  8. 2.
    ඇఆৗͳଟ࿹όϯσΟοτ໰୊ͷղ๏ʹ
    ͓͚ΔɺมԽ࡯஌ͷ՝୊

    View Slide

  9. • ʮ࿹ʯͱݺ͹ΕΔෳ਺ͷީิ͔ΒಘΒΕΔใुΛ࠷େԽ͢Δ໰୊
    • ϓϨΠϠʔ͸Ұ౓ͷࢼߦͰ1ͭͷ࿹Λબ୒͠ɺใुΛಘΔ
    • ͦΕͧΕͷ࿹͸͋Δใु෼෍ʹै͍ใुΛੜ੒
    • ͨͩ͠ɺϓϨΠϠʔ͸͜ͷใु෼෍Λࢼߦͷ݁Ռ͔Βਪଌ͢Δඞཁ͕͋Δ
    9
    ଟ࿹όϯσΟοτ໰୊
    • ϓϨΠϠʔ͸͋Δ࣌఺ͷ࿹ͷධՁʹج͖ͮʮ׆༻ʯͱʮ୳ࡧʯΛฒߦͯ͠ߦ͏
    • ͜ͷτϨʔυΦϑΛղফ͢ΔͨΊʹ༷ʑͳղ๏͕ఏҊ͞Ε͍ͯΔ

    View Slide

  10. • ಉ͡จ຺ʹ͓͍ͯ΋࣌ؒܦաʹΑͬͯใु෼෍͕มԽ͢Δଟ࿹όϯσΟοτ໰
    ୊ͷ໰୊ઃఆ
    • पظతͳมԽͰ͋Ε͹ཁҼͷύϥϝʔλʹؚΊΔ͜ͱͰରԠͰ͖Δ͕ෆن
    ଇͳ৔߹ʢඇఆৗͳมԽͷ৔߹ʣ͸͜ͷݶΓͰ͸ͳ͍
    10
    ඇఆৗͳଟ࿹όϯσΟοτ໰୊
    • ඇఆৗͳଟ࿹όϯσΟοτ໰୊ͷղ๏Ͱ͸ɺաڈʹ؍ଌͨ͠ใुʹଊΘΕͣ࿹
    ͷධՁΛਝ଎ʹߋ৽͢Δ͜ͱͰ֤จ຺ʹ͓͚ΔใुΛ༧૝͢Δ

    View Slide

  11. ඇఆৗͳଟ࿹όϯσΟοτ໰୊
    11
    Arm0
    Arm1
    Arm2
    User(s) System
    ਪఆͨ֬͠཰෼෍
    ਅͷ֬཰෼෍
    Recommend
    Click
    t = 0~ t = 100~ t = 0~ t = 100~
    t = 99 t = 99

    View Slide

  12. ඇఆৗͳଟ࿹όϯσΟοτ໰୊
    12
    Arm0
    Arm1
    Arm2
    User(s) System
    ਪఆͨ֬͠཰෼෍
    ਅͷ֬཰෼෍
    Recommend
    Click
    t = 0~ t = 100~ t = 0~ t = 100~
    t = 199 t = 199

    View Slide

  13. • ैདྷݚڀ͸ɺ࿹ͷධՁͷਝ଎ͳߋ৽ʹয఺Λ౰͍ͯͯͨ
    • ݮਰɺ΢Οϯυ΢ɺมԽݕग़ɺঢ়ଶۭؒ
    • ͜ΕΒ͸ɺมԽޙͷใु෼෍͔ΒͷҰఆ਺ͷใुαϯϓϧ͕ඞཁ
    • ͋Δ࣌ظʹ༗ޮੑͷ௿͔ͬͨ࿹͸ɺͦ΋ͦ΋બఆ͞Εͳ͍ͨΊɺධՁͷߋ৽͕
    ೉͍͠ɻ
    • ͜ͷ՝୊΁औΓ૊Μͩઌߦݚڀ[1][2]
    Ͱ͸ɺҰఆͷׂ߹Ͱ୳ࡧ༻ͷࢼߦػձΛ֬
    อ͍ͯ͠Δɻ
    13
    ඇఆৗͳଟ࿹όϯσΟοτʹ͓͚ΔมԽͷ࡯஌
    • [1] Fang Liu, Joohyun Lee, and Ness Shroff. 2018. A change-detection based framework for piecewise-stationary multi-armed bandit problem. In Proceedings of the AAAI Conference on Artificial
    Intelligence, Vol. 32.
    • [2] Yang Cao, Zheng Wen, Branislav Kveton, and Yao Xie. 2019. Nearly optimal adaptive procedure with change detection for piecewise-stationary bandit. In The 22nd International Conference on
    Artificial Intelligence and Statistics. PMLR, 418–427.

    View Slide

  14. • ᶃ ఆৗ࣌ͷػձଛࣦ
    • ίετͱͯ͠ڐ༰ʁ
    • ᶄ มԽݕग़༻ͷ୳ࡧ͸ϥϯμϜ୳ࡧ
    • ࿹ͷ਺͕૿͑Δ΄Ͳ୳ࡧػձ͕෼ࢄ
    • ඇޮ཰ͳ୳ࡧͰػձଛࣦ͕૿Ճ
    14
    ඇఆৗͳଟ࿹όϯσΟοτʹ͓͚ΔมԽͷ࡯஌ͷ՝୊
    ׆༻ͱ୳ࡧ
    ୳ࡧ





    • มԽ࡯஌ͷͨΊͷޮ཰͕ѱ͍

    View Slide

  15. • ᶃ ఆৗ࣌ͷػձଛࣦ
    • ίετͱͯ͠ڐ༰ʁ
    • ᶄ มԽݕग़༻ͷ୳ࡧ͸ϥϯμϜ୳ࡧ
    • ࿹ͷ਺͕૿͑Δ΄Ͳ୳ࡧػձ͕෼ࢄ
    • ඇޮ཰ͳ୳ࡧͰػձଛࣦ͕૿Ճ
    15
    ඇఆৗͳଟ࿹όϯσΟοτʹ͓͚ΔมԽͷ࡯஌ͷ՝୊
    ׆༻ͱ୳ࡧ
    ୳ࡧ





    • มԽ࡯஌ͷͨΊͷޮ཰͕ѱ͍

    View Slide

  16. 3.
    ޮ཰తͳมԽ࡯஌ͷํࣜͷݕ౼

    View Slide

  17. • ᶄ มԽݕग़༻ͷ୳ࡧ͸ϥϯμϜ୳ࡧ
    17
    ޮ཰తͳมԽ࡯஌ͷํࣜݕ౼
    ׆༻ͱ୳ࡧ
    ୳ࡧ





    • ະདྷʹ͓͍ͯɺͲͷ࿹͕༗ޮʹͳΔ͔
    Θ͔Βͳ͍ͱ͍͏ڧ੍͍໿
    • աڈͷ৘ใ΋͋ͯʹ͠ͳ͍
    • ΋͏গ͠؇ΊΒΕͳ͍͔

    View Slide

  18. • ᶄ มԽݕग़༻ͷ୳ࡧ͸ϥϯμϜ୳ࡧ
    18
    ޮ཰తͳมԽ࡯஌ͷํࣜݕ౼
    ׆༻ͱ୳ࡧ
    ୳ࡧ





    • ୳ࡧΛʮ಺෦ଟ࿹όϯσΟοτʯͱΈͳ͢
    • কདྷੑͱෆ҆ఆੑΛධՁج४ͱͯ͠બఆ
    কདྷੑͱෆ҆ఆੑʹΑΔ
    ׆༻ʢूதతͳ୳ࡧʣ
    ݱࡏ

    View Slide

  19. • ᶄ มԽݕग़༻ͷ୳ࡧ͸ϥϯμϜ୳ࡧ
    19
    ޮ཰తͳมԽ࡯஌ͷํࣜݕ౼
    ׆༻ͱ୳ࡧ
    ୳ࡧ





    • ୳ࡧΛʮ಺෦ଟ࿹όϯσΟοτʯͱΈͳ͢
    • কདྷੑͱෆ҆ఆੑΛධՁج४ͱͯ͠બఆ
    কདྷੑͱෆ҆ఆੑʹΑΔ
    ׆༻ʢूதతͳ୳ࡧʣ
    ݱࡏ ະདྷ

    View Slide

  20. • ᶄ มԽݕग़༻ͷ୳ࡧ͸ϥϯμϜ୳ࡧ
    20
    ޮ཰తͳมԽ࡯஌ͷํࣜݕ౼
    ׆༻ͱ୳ࡧ
    ୳ࡧ





    • ୳ࡧΛʮ಺෦ଟ࿹όϯσΟοτʯͱΈͳ͢
    • কདྷੑͱෆ҆ఆੑΛධՁج४ͱͯ͠બఆ
    কདྷੑͱෆ҆ఆੑʹΑΔ
    ׆༻ʢूதతͳ୳ࡧʣ
    • ࿹ͷ਺ͷ૿Ճʹ΋ؤ݈͔ͭػձଛࣦΛ௿ݮ
    • બ୒มԽʹඞཁͳαϯϓϧ਺Λૉૣ͘஝ੵ
    ूதతͳ୳ࡧ

    View Slide

  21. 4.
    ධՁ

    View Slide

  22. • ΧϧϚϯϑΟϧλ ϕʔεͷίϯηϓτ࣮૷
    ͰγϛϡϨʔγϣϯ
    • ˎকདྷੑͷΈߟྀʢ = ༧ଌͷظ଴஋ͷ
    Έʣར༻
    • ಺෦ଟ࿹όϯσΟοτ෦෼ͷΈͰධՁʢຊ
    ྲྀͱͷࢼߦ࣮੷ͷ΍ΓͱΓͳ͠ʣ
    • ࠷΋ऑ͍Arm1ͷ༗ޮੑ͕ظؒதʹ࠷΋େ͖
    ͘ͳΔઃఆ
    22
    ධՁ

    View Slide

  23. • ධՁର৅ͷํࣜ
    • random: ϥϯμϜͳ୳ࡧʢ༧ଌͰ͖ͳ͍ະདྷΛ૝ఆʣε-Greedy(ε=1.0)
    • epsilon: ݱࡏͷ৘ใʹجͮ͘୳ࡧʢ༧ଌͰ͖ͳ͍ະདྷΛ૝ఆʣε-Greedy(ε=0.1)
    • state model: ༧ଌʹجͮ͘୳ࡧʢ༧ଌͰ͖ΔະདྷΛ૝ఆʣε-Greedy(ε=0.1)͕ͩ׆༻࣌͸Χ
    ϧϚϯϑΟϧλʹΑΔ100ظઌ༧ଌͷ஋Ͱબఆ͢Δ
    • ධՁج४
    • ػձଛࣦΛ཈͑Δੑೳ: ྦྷੵϦάϨοτͷ௿͞
    • มԽΛૉૣ͘࡯஌͢Δੑೳ: ࿹ͷਅͷ༗ޮੑ͕੾ΓସΘͬͨ࣌఺Ҏ߱Ͱ৽͍͠࠷దͳ࿹Λબ
    ୒ͨ͠ճ਺͕Ұఆ਺Λ௒͑Δ·Ͱͷظؒͷ୹͞ 23
    ධՁํ๏

    View Slide

  24. • Random: ϦάϨοτ͸Ұఆʹ૿Ճ
    • Epsilon: มԽ΁ͷ௥ै͕஗ΕϦάϨοτ͕૿Ճ
    • State model:
    • ॳظ͸༧ଌ͕҆ఆͤͣϦάϨοτ૿Ճ
    • มԽલ͸epsilonͱಉఔ౓
    • มԽޙ΋༧ଌʹΑΓকདྷੑͷߴ͍࿹ʹूதతʹ୳ࡧͰ͖ͨ͜ͱΛ͍ࣔͯ͠
    Δɻ
    24
    ػձଛࣦΛ཈͑ΔੑೳͷධՁ

    View Slide

  25. • Random: ҰఆͰର৅ͷ࿹Λબఆɻ͜ΕΑΓ
    ଟ͍͜ͱ͕๬·͍͠ɻ
    • Epsilon: มԽ΁ͷ௥ै͕஗Εɺର৅ͷ࿹Λ΄΅
    બఆͰ͖͍ͯͳ͍ɻ
    • State model: ༧ଌʹΑΓࣄલʹ֘౰ͷ࿹ͷ
    কདྷੑΛݟग़͠ɺूதతʹ୳ࡧΛߦͬͨ͜ͱͰrandomʹൺ΂ͯબఆ਺͕૿Ճ
    ͨ͠ɻ
    • → มԽͷ࡯஌Λ଎΍͔ʹߦ͑ΔՄೳੑ͕ߴ͍
    25
    มԽΛૉૣ͘࡯஌͢ΔੑೳͷධՁ

    View Slide

  26. • ༧ଌͷਫ਼౓Λਤࣔ
    • ࣮ઢͷਅͷ༗ޮੑʹରͯ͠೾ઢ͕༧ଌϞσϧʹ
    Αͬͯ༧ଌ͞Εͨ100࣌఺ઌͷ༧ଌ஋ɻ
    • ॳظͷมಈ͸େ͖͍͕ɺޙ൒͸Α͘༧ଌ͞Εͯ
    ͍Δʢࠓճͷ͸ඇৗʹ؆୯ͳઃఆͩͬͨʣ
    • → ༧ଌϞσϧΛਖ਼͘͠ߏஙͰ͖Ε͹ɺఏҊํࣜͰɺޮ཰ྑ͘มԽ࡯஌Ͱ͖Δ
    Մೳੑ͕͋Δ
    26
    มԽΛૉૣ͘࡯஌͢ΔੑೳͷධՁ

    View Slide

  27. 5.
    ·ͱΊ

    View Slide

  28. • ඇఆৗͳଟ࿹όϯσΟοτʹ͓͚ΔมԽͷ࡯஌ͷ՝୊Λ੔ཧ͠ɺ࿹ͷෆ҆ఆੑ
    ͱকདྷੑʹண໨ͨ͠༧ଌܕͷଟ࿹όϯσΟοτํࡦΛఏҊ
    • কདྷੑΛߟྀՄೳͳίϯηϓτ࣮૷Ͱ͸ɺγϛϡϨʔγϣϯʹ͓͍ͯɺྦྷੵϦ
    άϨοτΛ཈͑ͨૉૣ͍มԽ࡯஌ͷՄೳੑ͕ࣔࠦ͞Εͨɻ
    • ࠓޙ͸ɺෆ҆ఆੑͷߟྀΛ૊ΈࠐΉ͜ͱɺͦͷͨΊʹε-GreedyͰ͸ͳ͘
    Thompson SamplingΛϕʔεʹͨ͠ख๏ͱͷ౷߹ΛਐΊΔɻ ·ͨɺจ຺Λߟ
    ྀͨ͠৔߹Ͱͷ࣮૷ͱγϛϡϨʔγϣϯͷ֦ுΛߦ͏ɻ
    • Ճ͑ͯɺ୳ࡧׂ߹Λ؀ڥͷมԽͷ౓߹͍ʹԠͯ͡มಈͤ͞Δํࣜ΋ݕ౼͢Δ
    28
    ·ͱΊ

    View Slide

  29. View Slide