非定常な多腕バンディット問題において効率的に変化を察知する方式の検討/wsa8_predictive_exploratory_model

ࡾ୐༔հ / Pepabo R&D Institute, GMO Pepabo, Inc. 2021.06.04 Web
System Architecture ݚڀձ (WSAݚ) #8 ඇఆৗͳଟ࿹όϯσΟοτ໰୊ʹ͓͍ͯ ޮ཰తʹมԽΛ࡯஌͢Δํࣜͷݕ౼

1SJODJQBMFOHJOFFS :VTVLF.*:",&!NPOPDISPNFHBOF 1FQBCP3%*OTUJUVUF (.01FQBCP *OD IUUQTCMPHNPOPDISPNFHBOFDPN

1. ͸͡Ίʹ 2. ඇఆৗͳଟ࿹όϯσΟοτ໰୊ͷղ๏ʹ͓͚Δɺ มԽ࡯஌ͷ՝୊ 3. ಉɺޮ཰తͳมԽ࡯஌ͷํࣜͷݕ౼ 4. ධՁ 5.
·ͱΊ 3 ໨࣍

1. ͸͡Ίʹ

• దԠతͳγεςϜͷ࣮ݱʹ͸ɺγεςϜ͕ར༻ऀͷঢ়گΛΑ͘஌Δ͜ͱ͕ॏཁ • ECαΠτͷγεςϜͰ͋Ε͹ɺར༻ऀͷᅂ޷Λ೺Ѳ͢Δ͜ͱͰɺ࠷దͳ঎ ඼ΛఏҊͰ͖Δ • ࣮ӡ༻ͷγεςϜʹ͓͍ͯίϛϡχέʔγϣϯʹ͸ίετ͕͔͔Δ • ʢར༻ऀࣗ਎΋ؚΊͯʣཁٻ΍ᅂ޷͸໌֬Ͱ͸ͳ͘ঃʑʹܗ੒͞Ε͍ͯ͘ •
ͦͷظؒதͷෛ୲΍ػձଛࣦ͸୹ظ௕ظͰചΓ্͛ͳͲʹӨڹ͢Δ • ಛʹɺཁٻ΍ᅂ޷͕มԽ͢Δ؀ڥͰ͸ɺݱ࣌఺ͰՁ஋ͷ௿͍ίϛϡχέʔ γϣϯ΋ܧଓͯ͠ߦ͏ඞཁ͕͋Δ 5 దԠతͳγεςϜͱίϛϡχέʔγϣϯίετ

• ίϛϡχέʔγϣϯΛɺબ୒ࢶͷఏҊͱ൓Ԡͱݶఆ͢Δ͜ͱͰɺ͜ͷίετΛ ࠷దԽ͢Δ໰୊Λʮଟ࿹όϯσΟοτ໰୊ʯͱͯ͠ߟ͑Δ͜ͱ͕Ͱ͖Δ 6 ίϛϡέʔγϣϯίετͷ࠷దԽͱଟ࿹όϯσΟοτ • ҰํͰɺैདྷͷಉ໰୊ͷղ๏Ͱ͸ɺબ୒ࢶͷ༗ޮੑ͕ʮܧଓతʹมԽʯ͢Δ؀ ڥͰ͸ɺૉૣ͘௿ίετͳมԽ௥ै͕Ͱ͖ͳ͍ʢؔ࿈ݚڀͰઆ໌ʣ • ͜ͷ؀ڥʹ͓͍ͯޮ཰తͳมԽ௥ैՄೳͳղ๏ΛఏҊ͢Δ͜ͱͰɺదԠతͳγ
εςϜͷ࣮༻ԽΛਐΊ͍ͨ

• ޱίϛάϧϝαΠτʹ͓͍ͯɺ੕4ϨϏϡʔ1000݅ͷళAͱ੕2ϨϏϡʔ50݅ ͷళB͕͋Δ • ͋Δ೔ɺళBͷγΣϑ͕มΘΓɺਅͷ࣮ྗ͕੕5૬౰ʹมԽͨ͠ • ͜ͷళBͷ੕͕ਅͷ࣮ྗ૬౰·Ͱߋ৽͞ΕΔظؒΛ୹͍ͨ͘͠ • → มԽޙ͙͢͸ධ൑͕ྑ͘ͳ͍ͷͰ๚໰΋͞ΕͣɺධՁͷߋ৽͕஗ΕΔɻ
• → ʮมԽͷى͜ΓΛૉૣ͘௿ίετʹ࡯஌ʯ͢ΔੑೳΛ޲্͍ͨ͠ 7 ຊݚڀͰղܾ͍ͨ͠՝୊ͷྫ

2. ඇఆৗͳଟ࿹όϯσΟοτ໰୊ͷղ๏ʹ ͓͚ΔɺมԽ࡯஌ͷ՝୊

• ʮ࿹ʯͱݺ͹ΕΔෳ਺ͷީิ͔ΒಘΒΕΔใुΛ࠷େԽ͢Δ໰୊ • ϓϨΠϠʔ͸Ұ౓ͷࢼߦͰ1ͭͷ࿹Λબ୒͠ɺใुΛಘΔ • ͦΕͧΕͷ࿹͸͋Δใु෼෍ʹै͍ใुΛੜ੒ • ͨͩ͠ɺϓϨΠϠʔ͸͜ͷใु෼෍Λࢼߦͷ݁Ռ͔Βਪଌ͢Δඞཁ͕͋Δ 9 ଟ࿹όϯσΟοτ໰୊
• ϓϨΠϠʔ͸͋Δ࣌఺ͷ࿹ͷධՁʹج͖ͮʮ׆༻ʯͱʮ୳ࡧʯΛฒߦͯ͠ߦ͏ • ͜ͷτϨʔυΦϑΛղফ͢ΔͨΊʹ༷ʑͳղ๏͕ఏҊ͞Ε͍ͯΔ

• ಉ͡จ຺ʹ͓͍ͯ΋࣌ؒܦաʹΑͬͯใु෼෍͕มԽ͢Δଟ࿹όϯσΟοτ໰ ୊ͷ໰୊ઃఆ • पظతͳมԽͰ͋Ε͹ཁҼͷύϥϝʔλʹؚΊΔ͜ͱͰରԠͰ͖Δ͕ෆن ଇͳ৔߹ʢඇఆৗͳมԽͷ৔߹ʣ͸͜ͷݶΓͰ͸ͳ͍ 10 ඇఆৗͳଟ࿹όϯσΟοτ໰୊ • ඇఆৗͳଟ࿹όϯσΟοτ໰୊ͷղ๏Ͱ͸ɺաڈʹ؍ଌͨ͠ใुʹଊΘΕͣ࿹
ͷධՁΛਝ଎ʹߋ৽͢Δ͜ͱͰ֤จ຺ʹ͓͚ΔใुΛ༧૝͢Δ

ඇఆৗͳଟ࿹όϯσΟοτ໰୊ 11 Arm0 Arm1 Arm2 User(s) System ਪఆͨ֬͠཰෼෍ ਅͷ֬཰෼෍ Recommend
Click t = 0~ t = 100~ t = 0~ t = 100~ t = 99 t = 99

ඇఆৗͳଟ࿹όϯσΟοτ໰୊ 12 Arm0 Arm1 Arm2 User(s) System ਪఆͨ֬͠཰෼෍ ਅͷ֬཰෼෍ Recommend
Click t = 0~ t = 100~ t = 0~ t = 100~ t = 199 t = 199

• ैདྷݚڀ͸ɺ࿹ͷධՁͷਝ଎ͳߋ৽ʹয఺Λ౰͍ͯͯͨ • ݮਰɺ΢Οϯυ΢ɺมԽݕग़ɺঢ়ଶۭؒ • ͜ΕΒ͸ɺมԽޙͷใु෼෍͔ΒͷҰఆ਺ͷใुαϯϓϧ͕ඞཁ • ͋Δ࣌ظʹ༗ޮੑͷ௿͔ͬͨ࿹͸ɺͦ΋ͦ΋બఆ͞Εͳ͍ͨΊɺධՁͷߋ৽͕ ೉͍͠ɻ •
͜ͷ՝୊΁औΓ૊Μͩઌߦݚڀ[1][2] Ͱ͸ɺҰఆͷׂ߹Ͱ୳ࡧ༻ͷࢼߦػձΛ֬ อ͍ͯ͠Δɻ 13 ඇఆৗͳଟ࿹όϯσΟοτʹ͓͚ΔมԽͷ࡯஌ • [1] Fang Liu, Joohyun Lee, and Ness Shroff. 2018. A change-detection based framework for piecewise-stationary multi-armed bandit problem. In Proceedings of the AAAI Conference on Artiﬁcial Intelligence, Vol. 32. • [2] Yang Cao, Zheng Wen, Branislav Kveton, and Yao Xie. 2019. Nearly optimal adaptive procedure with change detection for piecewise-stationary bandit. In The 22nd International Conference on Artiﬁcial Intelligence and Statistics. PMLR, 418–427.

• ᶃ ఆৗ࣌ͷػձଛࣦ • ίετͱͯ͠ڐ༰ʁ • ᶄ มԽݕग़༻ͷ୳ࡧ͸ϥϯμϜ୳ࡧ • ࿹ͷ਺͕૿͑Δ΄Ͳ୳ࡧػձ͕෼ࢄ
• ඇޮ཰ͳ୳ࡧͰػձଛࣦ͕૿Ճ 14 ඇఆৗͳଟ࿹όϯσΟοτʹ͓͚ΔมԽͷ࡯஌ͷ՝୊ ׆༻ͱ୳ࡧ ୳ࡧ • มԽ࡯஌ͷͨΊͷޮ཰͕ѱ͍

• ᶃ ఆৗ࣌ͷػձଛࣦ • ίετͱͯ͠ڐ༰ʁ • ᶄ มԽݕग़༻ͷ୳ࡧ͸ϥϯμϜ୳ࡧ • ࿹ͷ਺͕૿͑Δ΄Ͳ୳ࡧػձ͕෼ࢄ
• ඇޮ཰ͳ୳ࡧͰػձଛࣦ͕૿Ճ 15 ඇఆৗͳଟ࿹όϯσΟοτʹ͓͚ΔมԽͷ࡯஌ͷ՝୊ ׆༻ͱ୳ࡧ ୳ࡧ • มԽ࡯஌ͷͨΊͷޮ཰͕ѱ͍

3. ޮ཰తͳมԽ࡯஌ͷํࣜͷݕ౼

• ᶄ มԽݕग़༻ͷ୳ࡧ͸ϥϯμϜ୳ࡧ 17 ޮ཰తͳมԽ࡯஌ͷํࣜݕ౼ ׆༻ͱ୳ࡧ ୳ࡧ
• ະདྷʹ͓͍ͯɺͲͷ࿹͕༗ޮʹͳΔ͔ Θ͔Βͳ͍ͱ͍͏ڧ੍͍໿ • աڈͷ৘ใ΋͋ͯʹ͠ͳ͍ • ΋͏গ͠؇ΊΒΕͳ͍͔

• ୳ࡧΛʮ಺෦ଟ࿹όϯσΟοτʯͱΈͳ͢ • কདྷੑͱෆ҆ఆੑΛධՁج४ͱͯ͠બఆ কདྷੑͱෆ҆ఆੑʹΑΔ ׆༻ʢूதతͳ୳ࡧʣ ݱࡏ

• ୳ࡧΛʮ಺෦ଟ࿹όϯσΟοτʯͱΈͳ͢ • কདྷੑͱෆ҆ఆੑΛධՁج४ͱͯ͠બఆ কདྷੑͱෆ҆ఆੑʹΑΔ ׆༻ʢूதతͳ୳ࡧʣ ݱࡏ ະདྷ

• ୳ࡧΛʮ಺෦ଟ࿹όϯσΟοτʯͱΈͳ͢ • কདྷੑͱෆ҆ఆੑΛධՁج४ͱͯ͠બఆ কདྷੑͱෆ҆ఆੑʹΑΔ ׆༻ʢूதతͳ୳ࡧʣ • ࿹ͷ਺ͷ૿Ճʹ΋ؤ݈͔ͭػձଛࣦΛ௿ݮ • બ୒มԽʹඞཁͳαϯϓϧ਺Λૉૣ͘஝ੵ ूதతͳ୳ࡧ

4. ධՁ

• ΧϧϚϯϑΟϧλ ϕʔεͷίϯηϓτ࣮૷ ͰγϛϡϨʔγϣϯ • ˎকདྷੑͷΈߟྀʢ = ༧ଌͷظ଴஋ͷ Έʣར༻ •
಺෦ଟ࿹όϯσΟοτ෦෼ͷΈͰධՁʢຊ ྲྀͱͷࢼߦ࣮੷ͷ΍ΓͱΓͳ͠ʣ • ࠷΋ऑ͍Arm1ͷ༗ޮੑ͕ظؒதʹ࠷΋େ͖ ͘ͳΔઃఆ 22 ධՁ

• ධՁର৅ͷํࣜ • random: ϥϯμϜͳ୳ࡧʢ༧ଌͰ͖ͳ͍ະདྷΛ૝ఆʣε-Greedy(ε=1.0) • epsilon: ݱࡏͷ৘ใʹجͮ͘୳ࡧʢ༧ଌͰ͖ͳ͍ະདྷΛ૝ఆʣε-Greedy(ε=0.1) • state
model: ༧ଌʹجͮ͘୳ࡧʢ༧ଌͰ͖ΔະདྷΛ૝ఆʣε-Greedy(ε=0.1)͕ͩ׆༻࣌͸Χ ϧϚϯϑΟϧλʹΑΔ100ظઌ༧ଌͷ஋Ͱબఆ͢Δ • ධՁج४ • ػձଛࣦΛ཈͑Δੑೳ: ྦྷੵϦάϨοτͷ௿͞ • มԽΛૉૣ͘࡯஌͢Δੑೳ: ࿹ͷਅͷ༗ޮੑ͕੾ΓସΘͬͨ࣌఺Ҏ߱Ͱ৽͍͠࠷దͳ࿹Λબ ୒ͨ͠ճ਺͕Ұఆ਺Λ௒͑Δ·Ͱͷظؒͷ୹͞ 23 ධՁํ๏

• Random: ϦάϨοτ͸Ұఆʹ૿Ճ • Epsilon: มԽ΁ͷ௥ै͕஗ΕϦάϨοτ͕૿Ճ • State model: •
ॳظ͸༧ଌ͕҆ఆͤͣϦάϨοτ૿Ճ • มԽલ͸epsilonͱಉఔ౓ • มԽޙ΋༧ଌʹΑΓকདྷੑͷߴ͍࿹ʹूதతʹ୳ࡧͰ͖ͨ͜ͱΛ͍ࣔͯ͠ Δɻ 24 ػձଛࣦΛ཈͑ΔੑೳͷධՁ

• Random: ҰఆͰର৅ͷ࿹Λબఆɻ͜ΕΑΓ ଟ͍͜ͱ͕๬·͍͠ɻ • Epsilon: มԽ΁ͷ௥ै͕஗Εɺର৅ͷ࿹Λ΄΅ બఆͰ͖͍ͯͳ͍ɻ • State
model: ༧ଌʹΑΓࣄલʹ֘౰ͷ࿹ͷ কདྷੑΛݟग़͠ɺूதతʹ୳ࡧΛߦͬͨ͜ͱͰrandomʹൺ΂ͯબఆ਺͕૿Ճ ͨ͠ɻ • → มԽͷ࡯஌Λ଎΍͔ʹߦ͑ΔՄೳੑ͕ߴ͍ 25 มԽΛૉૣ͘࡯஌͢ΔੑೳͷධՁ

• ༧ଌͷਫ਼౓Λਤࣔ • ࣮ઢͷਅͷ༗ޮੑʹରͯ͠೾ઢ͕༧ଌϞσϧʹ Αͬͯ༧ଌ͞Εͨ100࣌఺ઌͷ༧ଌ஋ɻ • ॳظͷมಈ͸େ͖͍͕ɺޙ൒͸Α͘༧ଌ͞Εͯ ͍Δʢࠓճͷ͸ඇৗʹ؆୯ͳઃఆͩͬͨʣ • →
༧ଌϞσϧΛਖ਼͘͠ߏஙͰ͖Ε͹ɺఏҊํࣜͰɺޮ཰ྑ͘มԽ࡯஌Ͱ͖Δ Մೳੑ͕͋Δ 26 มԽΛૉૣ͘࡯஌͢ΔੑೳͷධՁ

5. ·ͱΊ

• ඇఆৗͳଟ࿹όϯσΟοτʹ͓͚ΔมԽͷ࡯஌ͷ՝୊Λ੔ཧ͠ɺ࿹ͷෆ҆ఆੑ ͱকདྷੑʹண໨ͨ͠༧ଌܕͷଟ࿹όϯσΟοτํࡦΛఏҊ • কདྷੑΛߟྀՄೳͳίϯηϓτ࣮૷Ͱ͸ɺγϛϡϨʔγϣϯʹ͓͍ͯɺྦྷੵϦ άϨοτΛ཈͑ͨૉૣ͍มԽ࡯஌ͷՄೳੑ͕ࣔࠦ͞Εͨɻ • ࠓޙ͸ɺෆ҆ఆੑͷߟྀΛ૊ΈࠐΉ͜ͱɺͦͷͨΊʹε-GreedyͰ͸ͳ͘ Thompson SamplingΛϕʔεʹͨ͠ख๏ͱͷ౷߹ΛਐΊΔɻ
·ͨɺจ຺Λߟ ྀͨ͠৔߹Ͱͷ࣮૷ͱγϛϡϨʔγϣϯͷ֦ுΛߦ͏ɻ • Ճ͑ͯɺ୳ࡧׂ߹Λ؀ڥͷมԽͷ౓߹͍ʹԠͯ͡มಈͤ͞Δํࣜ΋ݕ౼͢Δ 28 ·ͱΊ

非定常な多腕バンディット問題において効率的に変化を察知する方式の検討/wsa8_predict...

非定常な多腕バンディット問題において効率的に変化を察知する方式の検討/wsa8_predictive_exploratory_model

monochromegane

More Decks by monochromegane

Other Decks in Technology

Featured

Transcript

ࡾ୐༔հ / Pepabo R&D Institute, GMO Pepabo, Inc. 2021.06.04 Web

1SJODJQBMFOHJOFFS :VTVLF.:",&!NPOPDISPNFHBOF 1FQBCP3%OTUJUVUF (.01FQBCP *OD IUUQTCMPHNPOPDISPNFHBOFDPN

1. ͸͡Ίʹ 2. ඇఆৗͳଟ࿹όϯσΟοτ໰୊ͷղ๏ʹ͓͚Δɺ มԽ࡯஌ͷ՝୊ 3. ಉɺޮ཰తͳมԽ࡯஌ͷํࣜͷݕ౼ 4. ධՁ 5.

1. ͸͡Ίʹ

2. ඇఆৗͳଟ࿹όϯσΟοτ໰୊ͷղ๏ʹ ͓͚ΔɺมԽ࡯஌ͷ՝୊

ඇఆৗͳଟ࿹όϯσΟοτ໰୊ 11 Arm0 Arm1 Arm2 User(s) System ਪఆͨ֬͠཰෼෍ ਅͷ֬཰෼෍ Recommend

ඇఆৗͳଟ࿹όϯσΟοτ໰୊ 12 Arm0 Arm1 Arm2 User(s) System ਪఆͨ֬͠཰෼෍ ਅͷ֬཰෼෍ Recommend

• ैདྷݚڀ͸ɺ࿹ͷධՁͷਝ଎ͳߋ৽ʹয఺Λ౰͍ͯͯͨ • ݮਰɺ΢Οϯυ΢ɺมԽݕग़ɺঢ়ଶۭؒ • ͜ΕΒ͸ɺมԽޙͷใु෼෍͔ΒͷҰఆ਺ͷใुαϯϓϧ͕ඞཁ • ͋Δ࣌ظʹ༗ޮੑͷ௿͔ͬͨ࿹͸ɺͦ΋ͦ΋બఆ͞Εͳ͍ͨΊɺධՁͷߋ৽͕ ೉͍͠ɻ •

• ᶃ ఆৗ࣌ͷػձଛࣦ • ίετͱͯ͠ڐ༰ʁ • ᶄ มԽݕग़༻ͷ୳ࡧ͸ϥϯμϜ୳ࡧ • ࿹ͷ਺͕૿͑Δ΄Ͳ୳ࡧػձ͕෼ࢄ

• ᶃ ఆৗ࣌ͷػձଛࣦ • ίετͱͯ͠ڐ༰ʁ • ᶄ มԽݕग़༻ͷ୳ࡧ͸ϥϯμϜ୳ࡧ • ࿹ͷ਺͕૿͑Δ΄Ͳ୳ࡧػձ͕෼ࢄ

3. ޮ཰తͳมԽ࡯஌ͷํࣜͷݕ౼

• ᶄ มԽݕग़༻ͷ୳ࡧ͸ϥϯμϜ୳ࡧ 17 ޮ཰తͳมԽ࡯஌ͷํࣜݕ౼ ׆༻ͱ୳ࡧ ୳ࡧ

• ᶄ มԽݕग़༻ͷ୳ࡧ͸ϥϯμϜ୳ࡧ 18 ޮ཰తͳมԽ࡯஌ͷํࣜݕ౼ ׆༻ͱ୳ࡧ ୳ࡧ

• ᶄ มԽݕग़༻ͷ୳ࡧ͸ϥϯμϜ୳ࡧ 19 ޮ཰తͳมԽ࡯஌ͷํࣜݕ౼ ׆༻ͱ୳ࡧ ୳ࡧ

• ᶄ มԽݕग़༻ͷ୳ࡧ͸ϥϯμϜ୳ࡧ 20 ޮ཰తͳมԽ࡯஌ͷํࣜݕ౼ ׆༻ͱ୳ࡧ ୳ࡧ

4. ධՁ

• ΧϧϚϯϑΟϧλ ϕʔεͷίϯηϓτ࣮૷ ͰγϛϡϨʔγϣϯ • ˎকདྷੑͷΈߟྀʢ = ༧ଌͷظ଴஋ͷ Έʣར༻ •

• ධՁର৅ͷํࣜ • random: ϥϯμϜͳ୳ࡧʢ༧ଌͰ͖ͳ͍ະདྷΛ૝ఆʣε-Greedy(ε=1.0) • epsilon: ݱࡏͷ৘ใʹجͮ͘୳ࡧʢ༧ଌͰ͖ͳ͍ະདྷΛ૝ఆʣε-Greedy(ε=0.1) • state

• Random: ϦάϨοτ͸Ұఆʹ૿Ճ • Epsilon: มԽ΁ͷ௥ै͕஗ΕϦάϨοτ͕૿Ճ • State model: •

• Random: ҰఆͰର৅ͷ࿹Λબఆɻ͜ΕΑΓ ଟ͍͜ͱ͕๬·͍͠ɻ • Epsilon: มԽ΁ͷ௥ै͕஗Εɺର৅ͷ࿹Λ΄΅ બఆͰ͖͍ͯͳ͍ɻ • State

• ༧ଌͷਫ਼౓Λਤࣔ • ࣮ઢͷਅͷ༗ޮੑʹରͯ͠೾ઢ͕༧ଌϞσϧʹ Αͬͯ༧ଌ͞Εͨ100࣌఺ઌͷ༧ଌ஋ɻ • ॳظͷมಈ͸େ͖͍͕ɺޙ൒͸Α͘༧ଌ͞Εͯ ͍Δʢࠓճͷ͸ඇৗʹ؆୯ͳઃఆͩͬͨʣ • →

5. ·ͱΊ