強化学習

ڧԽֶशͬͯͳΜͩ kita.h

࠷ۙػցֶश͕Ξπ͍ΑͶ • Deep LearningͳͲͷػցֶशٕज़ͷਐาʹ ΑΓɺաڈͷσʔλ͔Βֶश͢Δٕज़͸େ͖ ͘ਐԽ • ࣸਅʹ͍ࣸͬͯΔର৅Λೝࣝ΍පؾͷ਍அɺ ݴޠͷ຋༁ͳͲ

Ұํɺਓؒ͸ • ਓؒ͸ɺաڈͷσʔλͳͲ༩͑ͳͯ͘΋ࣗΒ ֶΜͰܦݧ͠ɺεΩϧΛ্ୡͤ͞Δ͜ͱ͕Ͱ ͖Δ

ػցֶशͷओͳ෼໺ ڭࢣ͋Γֶश ڭࢣͳֶ͠श ڧԽֶश

ڭࢣ͋Γֶश • ࣄલʹ༩͑ΒΕͨσʔλΛʮྫ୊ʯ΍ʮॿݴʯ ͱΈͳͯ͠ɺͦΕΛΨΠυʹֶͯ͠शΛߦ͏ • ͋Δೖྗ஋ͱ༧ଌͯ͠΄͍͠ग़ྗ஋Λֶशσʔ ληοτͱͯ͠ɺະ஌ͷ৽͍͠ೖྗ஋ʹର͠ ͯ΋͋Δఔ౓༧ଌੑೳΛ࣋ͭΑ͏ͳ΋ͷ

ڭࢣͳֶ͠श • ʮग़ྗ͢΂͖΋ͷʯ͕͋Β͔͡Ίܾ·͍ͬͯ ͳ͍ • σʔλͷഎޙʹଘࡏ͢Δຊ࣭తͳߏ଄Λநग़ ͢ΔͨΊʹ࢖ΘΕΔ

ڧԽֶशᶃ • ͋Δ؀ڥ಺ʹ͓͚ΔΤʔδΣϯτ͕ݱࡏͷঢ় گΛ؍ଌ͠ɺऔΔ΂͖ߦಈΛܾఆ͢Δ໰୊Λ ѻ͏ػցֶशͷҰछɻ • ΤʔδΣϯτ͸ߦಈΛબ୒͢Δ͜ͱͰ؀ڥ͔ ΒใुΛಘΔɻڧԽֶश͸Ұ࿈ͷߦಈΛ௨͡ ͯใु͕࠷΋ଟ͘ಘΒΕΔΑ͏ͳํࡦ(Policy) Λֶश͢Δɻ
WikipediaΑΓҾ༻

ڧԽֶशᶄ • ڭࢣ͋Γֶशʹࣅ͍ͯΔ͕ɺ໌֬ͳʮ౴͑ʯ ͸ఏࣔ͠ͳ͍ • ఏࣔ͞ΕΔͷ͸ʮߦಈͷબ୒ࢶʯͱʮใुʯ • ʮ౴͑ʯ=ʮใुʯͰ͸ͳ͘ɺڧԽֶशͰͷใ ु͸ʮ֤ߦಈʯʹରͯ͠͸༩͑ΒΕͣɺʮ࿈ଓ ͨ͠ߦಈͷ݁Ռʯʹରͯ͠༩͑ΒΕΔ

αοΧʔͰྫ͑·͢ᶃ • ΰʔϧΛܾΊͨΒ1఺ɺͱ͍͏ͷ͸ڧԽֶशʹ͓ ͚Δใु • ΰʔϧΛܾΊΔ·ͰͷԾఆʹ͓͚Δߦಈ(ύε΍υ ϦϒϧͳͲ)ʹ͸Կ΋༩͑ΒΕͳ͍ • ͜͜Ͱd(^_^o)ʮࠓͷύε͸͍͍ͬ͢ͶʙʯͳͲ ͱࢦ͕ࣔඈΜͰདྷΔͷ͕ɺʮڭࢣ͋Γֶशʯ

αοΧʔͰྫ͑·͢ᶄ • ʮ࿈ଓͨ͠ߦಈͷ݁Ռʯͱͯ͠ΰʔϧͷ1఺͠ ͔༩͑ΒΕͳ͍ͨΊɺͦΕʹࢸΔύε΍υϦ ϒϧ͕ͲΕ͚ͩྑ͔ͬͨͷ͔͸ɺΰʔϧͰ͖ ͨέʔεͱͰ͖ͳ͔ͬͨέʔεΛൺ΂ͯɺࣗ෼ ࣗ਎ͰධՁ͢Δඞཁ͕͋Δ

ڧԽֶश·ͱΊ • ʮ࿈ଓͨ͠ߦಈͷ݁Ռʯʹର͢Δใु͔Βɺ֤ߦ ಈͷʮධՁʯΛࣗ෼ࣗ਎Ͱߋ৽͢Δ • ֤ߦಈʹର͢ΔใुΛஞҰઃఆ͠ͳͯ͘΋ɺ࠷ऴ తʹใु͕ಘΒΕΔ࿈ଓͨ͠ߦಈΛֶशͯ͘͠Ε Δ • কع΍ғޟͰ΋উͪෛ͚͸໌֬ͳͷͰɺ࠷ऴతʹ
উͭߦಈֶ͕शͰ͖Δ

ڧԽֶशͷܽ఺ • ࢦ͕ࣔͳ͍தͰࣗ෼ࣗ਎Ͱʮߦಈʹର͢Δධ ՁʯΛ֫ಘ͢Δඞཁ͕͋ΔͨΊɺ࠷దԽʹ͸ ͕͔͔࣌ؒΔ • ڧԽֶश͕֫ಘͨ͠ʮߦಈʹର͢ΔධՁʯ͕ ਓ͕ؒݟͯ߹ཧతͳอূ͕ͳ͍

Deep Q-Learning • ڧԽֶशͷதͷҰछ • Deep Learningͷٕज़ΛɺQ-Learningͱ͍͏ ϑϨʔϜϫʔΫʹԠ༻ͨ͠΋ͷ

Deep Q-Learning • ͜ΕΛར༻ͯ͠ɺι΢ϧେֶͷݚڀऀ͕ʮԾ ૝ͷඈߦੜ෺͕ࣗ෼ͷඈߦํ๏Λֶश͠शಘ ͢ΔػցֶशΞϧΰϦζϜʯΛ࿦จͰൃද • ֶशͯ͠ٸ্ঢ΍׈ۭɺϗόϦϯάͳͲӡಈ εΩϧΛ਎ʹண͚ɺো֐෺ʹͿ͔ͭΒͣʹࣗ ࡏʹඈ΂ΔΑ͏ʹ

Deep Q-Learning

ͳʹ͕͍͍ͷ͔ • ࡞੒ͨ͠ಈ͖ʹಛघޮՌΛೖΕΔ͜ͱͰөը ΍ήʔϜͷίϯςϯπ࡞੒ʹ໾ʹཱͭ • ࣮ࡍʹଘࡏ͠ͳ͍ੜ͖෺΍ઈ໓ͨ͠ੜ͖෺ͷ ಈ͖͕ਪఆͰ͖Δ • ͍͢͝Ͷʔ

強化学習

強化学習

changkita

More Decks by changkita

Other Decks in Programming

Featured

Transcript

ڧԽֶशͬͯͳΜͩ kita.h

࠷ۙػցֶश͕Ξπ͍ΑͶ • Deep LearningͳͲͷػցֶशٕज़ͷਐาʹ ΑΓɺաڈͷσʔλ͔Βֶश͢Δٕज़͸େ͖ ͘ਐԽ • ࣸਅʹ͍ࣸͬͯΔର৅Λೝࣝ΍පؾͷ਍அɺ ݴޠͷ຋༁ͳͲ

Ұํɺਓؒ͸ • ਓؒ͸ɺաڈͷσʔλͳͲ༩͑ͳͯ͘΋ࣗΒ ֶΜͰܦݧ͠ɺεΩϧΛ্ୡͤ͞Δ͜ͱ͕Ͱ ͖Δ

ػցֶशͷओͳ෼໺ ڭࢣ͋Γֶश ڭࢣͳֶ͠श ڧԽֶश

ڭࢣ͋Γֶश • ࣄલʹ༩͑ΒΕͨσʔλΛʮྫ୊ʯ΍ʮॿݴʯ ͱΈͳͯ͠ɺͦΕΛΨΠυʹֶͯ͠शΛߦ͏ • ͋Δೖྗ஋ͱ༧ଌͯ͠΄͍͠ग़ྗ஋Λֶशσʔ ληοτͱͯ͠ɺະ஌ͷ৽͍͠ೖྗ஋ʹର͠ ͯ΋͋Δఔ౓༧ଌੑೳΛ࣋ͭΑ͏ͳ΋ͷ

ڭࢣͳֶ͠श • ʮग़ྗ͢΂͖΋ͷʯ͕͋Β͔͡Ίܾ·͍ͬͯ ͳ͍ • σʔλͷഎޙʹଘࡏ͢Δຊ࣭తͳߏ଄Λநग़ ͢ΔͨΊʹ࢖ΘΕΔ

ڧԽֶशᶃ • ͋Δ؀ڥ಺ʹ͓͚ΔΤʔδΣϯτ͕ݱࡏͷঢ় گΛ؍ଌ͠ɺऔΔ΂͖ߦಈΛܾఆ͢Δ໰୊Λ ѻ͏ػցֶशͷҰछɻ • ΤʔδΣϯτ͸ߦಈΛબ୒͢Δ͜ͱͰ؀ڥ͔ ΒใुΛಘΔɻڧԽֶश͸Ұ࿈ͷߦಈΛ௨͡ ͯใु͕࠷΋ଟ͘ಘΒΕΔΑ͏ͳํࡦ(Policy) Λֶश͢Δɻ

ڧԽֶशᶄ • ڭࢣ͋Γֶशʹࣅ͍ͯΔ͕ɺ໌֬ͳʮ౴͑ʯ ͸ఏࣔ͠ͳ͍ • ఏࣔ͞ΕΔͷ͸ʮߦಈͷબ୒ࢶʯͱʮใुʯ • ʮ౴͑ʯ=ʮใुʯͰ͸ͳ͘ɺڧԽֶशͰͷใ ु͸ʮ֤ߦಈʯʹରͯ͠͸༩͑ΒΕͣɺʮ࿈ଓ ͨ͠ߦಈͷ݁Ռʯʹରͯ͠༩͑ΒΕΔ

αοΧʔͰྫ͑·͢ᶃ • ΰʔϧΛܾΊͨΒ1఺ɺͱ͍͏ͷ͸ڧԽֶशʹ͓ ͚Δใु • ΰʔϧΛܾΊΔ·ͰͷԾఆʹ͓͚Δߦಈ(ύε΍υ ϦϒϧͳͲ)ʹ͸Կ΋༩͑ΒΕͳ͍ • ͜͜Ͱd(^_^o)ʮࠓͷύε͸͍͍ͬ͢ͶʙʯͳͲ ͱࢦ͕ࣔඈΜͰདྷΔͷ͕ɺʮڭࢣ͋Γֶशʯ

αοΧʔͰྫ͑·͢ᶄ • ʮ࿈ଓͨ͠ߦಈͷ݁Ռʯͱͯ͠ΰʔϧͷ1఺͠ ͔༩͑ΒΕͳ͍ͨΊɺͦΕʹࢸΔύε΍υϦ ϒϧ͕ͲΕ͚ͩྑ͔ͬͨͷ͔͸ɺΰʔϧͰ͖ ͨέʔεͱͰ͖ͳ͔ͬͨέʔεΛൺ΂ͯɺࣗ෼ ࣗ਎ͰධՁ͢Δඞཁ͕͋Δ

ڧԽֶश·ͱΊ • ʮ࿈ଓͨ͠ߦಈͷ݁Ռʯʹର͢Δใु͔Βɺ֤ߦ ಈͷʮධՁʯΛࣗ෼ࣗ਎Ͱߋ৽͢Δ • ֤ߦಈʹର͢ΔใुΛஞҰઃఆ͠ͳͯ͘΋ɺ࠷ऴ తʹใु͕ಘΒΕΔ࿈ଓͨ͠ߦಈΛֶशͯ͘͠Ε Δ • কع΍ғޟͰ΋উͪෛ͚͸໌֬ͳͷͰɺ࠷ऴతʹ

ڧԽֶशͷܽ఺ • ࢦ͕ࣔͳ͍தͰࣗ෼ࣗ਎Ͱʮߦಈʹର͢Δධ ՁʯΛ֫ಘ͢Δඞཁ͕͋ΔͨΊɺ࠷దԽʹ͸ ͕͔͔࣌ؒΔ • ڧԽֶश͕֫ಘͨ͠ʮߦಈʹର͢ΔධՁʯ͕ ਓ͕ؒݟͯ߹ཧతͳอূ͕ͳ͍

Deep Q-Learning • ڧԽֶशͷதͷҰछ • Deep Learningͷٕज़ΛɺQ-Learningͱ͍͏ ϑϨʔϜϫʔΫʹԠ༻ͨ͠΋ͷ

Deep Q-Learning • ͜ΕΛར༻ͯ͠ɺι΢ϧେֶͷݚڀऀ͕ʮԾ ૝ͷඈߦੜ෺͕ࣗ෼ͷඈߦํ๏Λֶश͠शಘ ͢ΔػցֶशΞϧΰϦζϜʯΛ࿦จͰൃද • ֶशͯ͠ٸ্ঢ΍׈ۭɺϗόϦϯάͳͲӡಈ εΩϧΛ਎ʹண͚ɺো֐෺ʹͿ͔ͭΒͣʹࣗ ࡏʹඈ΂ΔΑ͏ʹ

Deep Q-Learning

ͳʹ͕͍͍ͷ͔ • ࡞੒ͨ͠ಈ͖ʹಛघޮՌΛೖΕΔ͜ͱͰөը ΍ήʔϜͷίϯςϯπ࡞੒ʹ໾ʹཱͭ • ࣮ࡍʹଘࡏ͠ͳ͍ੜ͖෺΍ઈ໓ͨ͠ੜ͖෺ͷ ಈ͖͕ਪఆͰ͖Δ • ͍͢͝Ͷʔ