Slide 1

Slide 1 text

ࡾ୐༔հ / Pepabo R&D Institute, GMO Pepabo, Inc. 2021.06.04 Web System Architecture ݚڀձ (WSAݚ) #8 ඇఆৗͳଟ࿹όϯσΟοτ໰୊ʹ͓͍ͯ ޮ཰తʹมԽΛ࡯஌͢Δํࣜͷݕ౼

Slide 2

Slide 2 text

1SJODJQBMFOHJOFFS :VTVLF.*:",&!NPOPDISPNFHBOF 1FQBCP3%*OTUJUVUF (.01FQBCP *OD IUUQTCMPHNPOPDISPNFHBOFDPN

Slide 3

Slide 3 text

1. ͸͡Ίʹ 2. ඇఆৗͳଟ࿹όϯσΟοτ໰୊ͷղ๏ʹ͓͚Δɺ มԽ࡯஌ͷ՝୊ 3. ಉɺޮ཰తͳมԽ࡯஌ͷํࣜͷݕ౼ 4. ධՁ 5. ·ͱΊ 3 ໨࣍

Slide 4

Slide 4 text

1. ͸͡Ίʹ

Slide 5

Slide 5 text

• దԠతͳγεςϜͷ࣮ݱʹ͸ɺγεςϜ͕ར༻ऀͷঢ়گΛΑ͘஌Δ͜ͱ͕ॏཁ • ECαΠτͷγεςϜͰ͋Ε͹ɺར༻ऀͷᅂ޷Λ೺Ѳ͢Δ͜ͱͰɺ࠷దͳ঎ ඼ΛఏҊͰ͖Δ • ࣮ӡ༻ͷγεςϜʹ͓͍ͯίϛϡχέʔγϣϯʹ͸ίετ͕͔͔Δ • ʢར༻ऀࣗ਎΋ؚΊͯʣཁٻ΍ᅂ޷͸໌֬Ͱ͸ͳ͘ঃʑʹܗ੒͞Ε͍ͯ͘ • ͦͷظؒதͷෛ୲΍ػձଛࣦ͸୹ظ௕ظͰചΓ্͛ͳͲʹӨڹ͢Δ • ಛʹɺཁٻ΍ᅂ޷͕มԽ͢Δ؀ڥͰ͸ɺݱ࣌఺ͰՁ஋ͷ௿͍ίϛϡχέʔ γϣϯ΋ܧଓͯ͠ߦ͏ඞཁ͕͋Δ 5 దԠతͳγεςϜͱίϛϡχέʔγϣϯίετ

Slide 6

Slide 6 text

• ίϛϡχέʔγϣϯΛɺબ୒ࢶͷఏҊͱ൓Ԡͱݶఆ͢Δ͜ͱͰɺ͜ͷίετΛ ࠷దԽ͢Δ໰୊Λʮଟ࿹όϯσΟοτ໰୊ʯͱͯ͠ߟ͑Δ͜ͱ͕Ͱ͖Δ 6 ίϛϡέʔγϣϯίετͷ࠷దԽͱଟ࿹όϯσΟοτ • ҰํͰɺैདྷͷಉ໰୊ͷղ๏Ͱ͸ɺબ୒ࢶͷ༗ޮੑ͕ʮܧଓతʹมԽʯ͢Δ؀ ڥͰ͸ɺૉૣ͘௿ίετͳมԽ௥ै͕Ͱ͖ͳ͍ʢؔ࿈ݚڀͰઆ໌ʣ • ͜ͷ؀ڥʹ͓͍ͯޮ཰తͳมԽ௥ैՄೳͳղ๏ΛఏҊ͢Δ͜ͱͰɺదԠతͳγ εςϜͷ࣮༻ԽΛਐΊ͍ͨ

Slide 7

Slide 7 text

• ޱίϛάϧϝαΠτʹ͓͍ͯɺ੕4ϨϏϡʔ1000݅ͷళAͱ੕2ϨϏϡʔ50݅ ͷళB͕͋Δ • ͋Δ೔ɺళBͷγΣϑ͕มΘΓɺਅͷ࣮ྗ͕੕5૬౰ʹมԽͨ͠ • ͜ͷళBͷ੕͕ਅͷ࣮ྗ૬౰·Ͱߋ৽͞ΕΔظؒΛ୹͍ͨ͘͠ • → มԽޙ͙͢͸ධ൑͕ྑ͘ͳ͍ͷͰ๚໰΋͞ΕͣɺධՁͷߋ৽͕஗ΕΔɻ • → ʮมԽͷى͜ΓΛૉૣ͘௿ίετʹ࡯஌ʯ͢ΔੑೳΛ޲্͍ͨ͠ 7 ຊݚڀͰղܾ͍ͨ͠՝୊ͷྫ

Slide 8

Slide 8 text

2. ඇఆৗͳଟ࿹όϯσΟοτ໰୊ͷղ๏ʹ ͓͚ΔɺมԽ࡯஌ͷ՝୊

Slide 9

Slide 9 text

• ʮ࿹ʯͱݺ͹ΕΔෳ਺ͷީิ͔ΒಘΒΕΔใुΛ࠷େԽ͢Δ໰୊ • ϓϨΠϠʔ͸Ұ౓ͷࢼߦͰ1ͭͷ࿹Λબ୒͠ɺใुΛಘΔ • ͦΕͧΕͷ࿹͸͋Δใु෼෍ʹै͍ใुΛੜ੒ • ͨͩ͠ɺϓϨΠϠʔ͸͜ͷใु෼෍Λࢼߦͷ݁Ռ͔Βਪଌ͢Δඞཁ͕͋Δ 9 ଟ࿹όϯσΟοτ໰୊ • ϓϨΠϠʔ͸͋Δ࣌఺ͷ࿹ͷධՁʹج͖ͮʮ׆༻ʯͱʮ୳ࡧʯΛฒߦͯ͠ߦ͏ • ͜ͷτϨʔυΦϑΛղফ͢ΔͨΊʹ༷ʑͳղ๏͕ఏҊ͞Ε͍ͯΔ

Slide 10

Slide 10 text

• ಉ͡จ຺ʹ͓͍ͯ΋࣌ؒܦաʹΑͬͯใु෼෍͕มԽ͢Δଟ࿹όϯσΟοτ໰ ୊ͷ໰୊ઃఆ • पظతͳมԽͰ͋Ε͹ཁҼͷύϥϝʔλʹؚΊΔ͜ͱͰରԠͰ͖Δ͕ෆن ଇͳ৔߹ʢඇఆৗͳมԽͷ৔߹ʣ͸͜ͷݶΓͰ͸ͳ͍ 10 ඇఆৗͳଟ࿹όϯσΟοτ໰୊ • ඇఆৗͳଟ࿹όϯσΟοτ໰୊ͷղ๏Ͱ͸ɺաڈʹ؍ଌͨ͠ใुʹଊΘΕͣ࿹ ͷධՁΛਝ଎ʹߋ৽͢Δ͜ͱͰ֤จ຺ʹ͓͚ΔใुΛ༧૝͢Δ

Slide 11

Slide 11 text

ඇఆৗͳଟ࿹όϯσΟοτ໰୊ 11 Arm0 Arm1 Arm2 User(s) System ਪఆͨ֬͠཰෼෍ ਅͷ֬཰෼෍ Recommend Click t = 0~ t = 100~ t = 0~ t = 100~ t = 99 t = 99

Slide 12

Slide 12 text

ඇఆৗͳଟ࿹όϯσΟοτ໰୊ 12 Arm0 Arm1 Arm2 User(s) System ਪఆͨ֬͠཰෼෍ ਅͷ֬཰෼෍ Recommend Click t = 0~ t = 100~ t = 0~ t = 100~ t = 199 t = 199

Slide 13

Slide 13 text

• ैདྷݚڀ͸ɺ࿹ͷධՁͷਝ଎ͳߋ৽ʹয఺Λ౰͍ͯͯͨ • ݮਰɺ΢Οϯυ΢ɺมԽݕग़ɺঢ়ଶۭؒ • ͜ΕΒ͸ɺมԽޙͷใु෼෍͔ΒͷҰఆ਺ͷใुαϯϓϧ͕ඞཁ • ͋Δ࣌ظʹ༗ޮੑͷ௿͔ͬͨ࿹͸ɺͦ΋ͦ΋બఆ͞Εͳ͍ͨΊɺධՁͷߋ৽͕ ೉͍͠ɻ • ͜ͷ՝୊΁औΓ૊Μͩઌߦݚڀ[1][2] Ͱ͸ɺҰఆͷׂ߹Ͱ୳ࡧ༻ͷࢼߦػձΛ֬ อ͍ͯ͠Δɻ 13 ඇఆৗͳଟ࿹όϯσΟοτʹ͓͚ΔมԽͷ࡯஌ • [1] Fang Liu, Joohyun Lee, and Ness Shroff. 2018. A change-detection based framework for piecewise-stationary multi-armed bandit problem. In Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 32. • [2] Yang Cao, Zheng Wen, Branislav Kveton, and Yao Xie. 2019. Nearly optimal adaptive procedure with change detection for piecewise-stationary bandit. In The 22nd International Conference on Artificial Intelligence and Statistics. PMLR, 418–427.

Slide 14

Slide 14 text

• ᶃ ఆৗ࣌ͷػձଛࣦ • ίετͱͯ͠ڐ༰ʁ • ᶄ มԽݕग़༻ͷ୳ࡧ͸ϥϯμϜ୳ࡧ • ࿹ͷ਺͕૿͑Δ΄Ͳ୳ࡧػձ͕෼ࢄ • ඇޮ཰ͳ୳ࡧͰػձଛࣦ͕૿Ճ 14 ඇఆৗͳଟ࿹όϯσΟοτʹ͓͚ΔมԽͷ࡯஌ͷ՝୊ ׆༻ͱ୳ࡧ ୳ࡧ • มԽ࡯஌ͷͨΊͷޮ཰͕ѱ͍

Slide 15

Slide 15 text

• ᶃ ఆৗ࣌ͷػձଛࣦ • ίετͱͯ͠ڐ༰ʁ • ᶄ มԽݕग़༻ͷ୳ࡧ͸ϥϯμϜ୳ࡧ • ࿹ͷ਺͕૿͑Δ΄Ͳ୳ࡧػձ͕෼ࢄ • ඇޮ཰ͳ୳ࡧͰػձଛࣦ͕૿Ճ 15 ඇఆৗͳଟ࿹όϯσΟοτʹ͓͚ΔมԽͷ࡯஌ͷ՝୊ ׆༻ͱ୳ࡧ ୳ࡧ • มԽ࡯஌ͷͨΊͷޮ཰͕ѱ͍

Slide 16

Slide 16 text

3. ޮ཰తͳมԽ࡯஌ͷํࣜͷݕ౼

Slide 17

Slide 17 text

• ᶄ มԽݕग़༻ͷ୳ࡧ͸ϥϯμϜ୳ࡧ 17 ޮ཰తͳมԽ࡯஌ͷํࣜݕ౼ ׆༻ͱ୳ࡧ ୳ࡧ • ະདྷʹ͓͍ͯɺͲͷ࿹͕༗ޮʹͳΔ͔ Θ͔Βͳ͍ͱ͍͏ڧ੍͍໿ • աڈͷ৘ใ΋͋ͯʹ͠ͳ͍ • ΋͏গ͠؇ΊΒΕͳ͍͔

Slide 18

Slide 18 text

• ᶄ มԽݕग़༻ͷ୳ࡧ͸ϥϯμϜ୳ࡧ 18 ޮ཰తͳมԽ࡯஌ͷํࣜݕ౼ ׆༻ͱ୳ࡧ ୳ࡧ • ୳ࡧΛʮ಺෦ଟ࿹όϯσΟοτʯͱΈͳ͢ • কདྷੑͱෆ҆ఆੑΛධՁج४ͱͯ͠બఆ কདྷੑͱෆ҆ఆੑʹΑΔ ׆༻ʢूதతͳ୳ࡧʣ ݱࡏ

Slide 19

Slide 19 text

• ᶄ มԽݕग़༻ͷ୳ࡧ͸ϥϯμϜ୳ࡧ 19 ޮ཰తͳมԽ࡯஌ͷํࣜݕ౼ ׆༻ͱ୳ࡧ ୳ࡧ • ୳ࡧΛʮ಺෦ଟ࿹όϯσΟοτʯͱΈͳ͢ • কདྷੑͱෆ҆ఆੑΛධՁج४ͱͯ͠બఆ কདྷੑͱෆ҆ఆੑʹΑΔ ׆༻ʢूதతͳ୳ࡧʣ ݱࡏ ະདྷ

Slide 20

Slide 20 text

• ᶄ มԽݕग़༻ͷ୳ࡧ͸ϥϯμϜ୳ࡧ 20 ޮ཰తͳมԽ࡯஌ͷํࣜݕ౼ ׆༻ͱ୳ࡧ ୳ࡧ • ୳ࡧΛʮ಺෦ଟ࿹όϯσΟοτʯͱΈͳ͢ • কདྷੑͱෆ҆ఆੑΛධՁج४ͱͯ͠બఆ কདྷੑͱෆ҆ఆੑʹΑΔ ׆༻ʢूதతͳ୳ࡧʣ • ࿹ͷ਺ͷ૿Ճʹ΋ؤ݈͔ͭػձଛࣦΛ௿ݮ • બ୒มԽʹඞཁͳαϯϓϧ਺Λૉૣ͘஝ੵ ूதతͳ୳ࡧ

Slide 21

Slide 21 text

4. ධՁ

Slide 22

Slide 22 text

• ΧϧϚϯϑΟϧλ ϕʔεͷίϯηϓτ࣮૷ ͰγϛϡϨʔγϣϯ • ˎকདྷੑͷΈߟྀʢ = ༧ଌͷظ଴஋ͷ Έʣར༻ • ಺෦ଟ࿹όϯσΟοτ෦෼ͷΈͰධՁʢຊ ྲྀͱͷࢼߦ࣮੷ͷ΍ΓͱΓͳ͠ʣ • ࠷΋ऑ͍Arm1ͷ༗ޮੑ͕ظؒதʹ࠷΋େ͖ ͘ͳΔઃఆ 22 ධՁ

Slide 23

Slide 23 text

• ධՁର৅ͷํࣜ • random: ϥϯμϜͳ୳ࡧʢ༧ଌͰ͖ͳ͍ະདྷΛ૝ఆʣε-Greedy(ε=1.0) • epsilon: ݱࡏͷ৘ใʹجͮ͘୳ࡧʢ༧ଌͰ͖ͳ͍ະདྷΛ૝ఆʣε-Greedy(ε=0.1) • state model: ༧ଌʹجͮ͘୳ࡧʢ༧ଌͰ͖ΔະདྷΛ૝ఆʣε-Greedy(ε=0.1)͕ͩ׆༻࣌͸Χ ϧϚϯϑΟϧλʹΑΔ100ظઌ༧ଌͷ஋Ͱબఆ͢Δ • ධՁج४ • ػձଛࣦΛ཈͑Δੑೳ: ྦྷੵϦάϨοτͷ௿͞ • มԽΛૉૣ͘࡯஌͢Δੑೳ: ࿹ͷਅͷ༗ޮੑ͕੾ΓସΘͬͨ࣌఺Ҏ߱Ͱ৽͍͠࠷దͳ࿹Λબ ୒ͨ͠ճ਺͕Ұఆ਺Λ௒͑Δ·Ͱͷظؒͷ୹͞ 23 ධՁํ๏

Slide 24

Slide 24 text

• Random: ϦάϨοτ͸Ұఆʹ૿Ճ • Epsilon: มԽ΁ͷ௥ै͕஗ΕϦάϨοτ͕૿Ճ • State model: • ॳظ͸༧ଌ͕҆ఆͤͣϦάϨοτ૿Ճ • มԽલ͸epsilonͱಉఔ౓ • มԽޙ΋༧ଌʹΑΓকདྷੑͷߴ͍࿹ʹूதతʹ୳ࡧͰ͖ͨ͜ͱΛ͍ࣔͯ͠ Δɻ 24 ػձଛࣦΛ཈͑ΔੑೳͷධՁ

Slide 25

Slide 25 text

• Random: ҰఆͰର৅ͷ࿹Λબఆɻ͜ΕΑΓ ଟ͍͜ͱ͕๬·͍͠ɻ • Epsilon: มԽ΁ͷ௥ै͕஗Εɺର৅ͷ࿹Λ΄΅ બఆͰ͖͍ͯͳ͍ɻ • State model: ༧ଌʹΑΓࣄલʹ֘౰ͷ࿹ͷ কདྷੑΛݟग़͠ɺूதతʹ୳ࡧΛߦͬͨ͜ͱͰrandomʹൺ΂ͯબఆ਺͕૿Ճ ͨ͠ɻ • → มԽͷ࡯஌Λ଎΍͔ʹߦ͑ΔՄೳੑ͕ߴ͍ 25 มԽΛૉૣ͘࡯஌͢ΔੑೳͷධՁ

Slide 26

Slide 26 text

• ༧ଌͷਫ਼౓Λਤࣔ • ࣮ઢͷਅͷ༗ޮੑʹରͯ͠೾ઢ͕༧ଌϞσϧʹ Αͬͯ༧ଌ͞Εͨ100࣌఺ઌͷ༧ଌ஋ɻ • ॳظͷมಈ͸େ͖͍͕ɺޙ൒͸Α͘༧ଌ͞Εͯ ͍Δʢࠓճͷ͸ඇৗʹ؆୯ͳઃఆͩͬͨʣ • → ༧ଌϞσϧΛਖ਼͘͠ߏஙͰ͖Ε͹ɺఏҊํࣜͰɺޮ཰ྑ͘มԽ࡯஌Ͱ͖Δ Մೳੑ͕͋Δ 26 มԽΛૉૣ͘࡯஌͢ΔੑೳͷධՁ

Slide 27

Slide 27 text

5. ·ͱΊ

Slide 28

Slide 28 text

• ඇఆৗͳଟ࿹όϯσΟοτʹ͓͚ΔมԽͷ࡯஌ͷ՝୊Λ੔ཧ͠ɺ࿹ͷෆ҆ఆੑ ͱকདྷੑʹண໨ͨ͠༧ଌܕͷଟ࿹όϯσΟοτํࡦΛఏҊ • কདྷੑΛߟྀՄೳͳίϯηϓτ࣮૷Ͱ͸ɺγϛϡϨʔγϣϯʹ͓͍ͯɺྦྷੵϦ άϨοτΛ཈͑ͨૉૣ͍มԽ࡯஌ͷՄೳੑ͕ࣔࠦ͞Εͨɻ • ࠓޙ͸ɺෆ҆ఆੑͷߟྀΛ૊ΈࠐΉ͜ͱɺͦͷͨΊʹε-GreedyͰ͸ͳ͘ Thompson SamplingΛϕʔεʹͨ͠ख๏ͱͷ౷߹ΛਐΊΔɻ ·ͨɺจ຺Λߟ ྀͨ͠৔߹Ͱͷ࣮૷ͱγϛϡϨʔγϣϯͷ֦ுΛߦ͏ɻ • Ճ͑ͯɺ୳ࡧׂ߹Λ؀ڥͷมԽͷ౓߹͍ʹԠͯ͡มಈͤ͞Δํࣜ΋ݕ౼͢Δ 28 ·ͱΊ

Slide 29

Slide 29 text

No content