Montezuma’s Revenge Solved by Go-Explore, a New Algorithm for Hard-Exploration Problems 

39c6dc454be13be8e4a2593c55352f45?s=47 kzmssk
December 10, 2018

Montezuma’s Revenge Solved by Go-Explore, a New Algorithm for Hard-Exploration Problems 

Dwango Media Villageのエンジニア 佐々木です。
ATARIの難問題「Montezuma’s Revenge」のSOTAを大幅に更新した強化学習の探索手法Go-Exploreを解説します!

39c6dc454be13be8e4a2593c55352f45?s=128

kzmssk

December 10, 2018
Tweet

Transcript

  1. 6.

    %PNBJOͷ஌ࣝΛೖΕͳ͍৔߹ ؍ଌ৘ใΛѹॖͨ͠΋ͷ "5"3*ͷ৔߹͸ը૾Λμ΢ϯαϯϓϦϯάͨ͠΋ͷ %PNBJOͷ஌ࣝΛೖΕΔ৔߹ ؀ڥ͔ΒऔಘͰ͖Δ༷ʑͳ৘ใ ΩϟϥΫλʔͷҐஔ είΞͳͲ $FMMͷอଘͱ࠶ੜ  

    ؀ڥ͕ϦηοτՄೳͳ৔߹ ͦͷ··$FMMͷ΋ͭঢ়ଶΛ࢖ͬͯ౸ୡՄೳʢࠓճ͸͜Εʣ ؀ڥ͕ϦηοτෆՄೳ͕ܾͩఆ࿦తͳ৔߹ $FMMʹ౸Δ·ͰͷߦಈཤྺΛ࠶ੜ͢Δ ؀ڥ͕ϦηοτෆՄೳͰ͔ͭ֬཰తͳ৔߹ (PBMDPOEJUJPOFE1PMJDZ Λ࢖͏ ΰʔϧͱͳΔঢ়ଶΛϞσϧʹೖྗ͢Δ อଘ ࠶ੜ 4DIBVM5 )PSHBO% (SFHPS, BOE4JMWFS%  6OJWFSTBMWBMVFGVODUJPOBQQSPYJNBUPST*O *OUFSOBUJPOBM$POGFSFODFPO.BDIJOF-FBSOJOH QQ