Metalearning shared Hierarchy

.FUB-FBOJOHTIBSFE)JFSBSDIZ 8POTFPL+VOH 3FJOGPSDFNFOU-FBSOJOH

੿ਗࢳ  8POTFPL+VOH $JUZ6OJWFSTJUZPG/FX:PSL#BSVDI$PMMFHF %BUB4DJFODF.BKPS $POOFYJPO"*"*3FTFBSDIFS %FFQ-FBSOJOH$PMMFHF3FJOGPSDFNFOU-FBSOJOH3FTFBSDIFS .PEVMBCT$53--FBEFS 3FJOGPSDFNFOU-FBSOJOH 0CKFDU%FUFDUJPO
$IBUCPU (JUIVC IUUQTHJUIVCDPNXPOTFPLKVOH 'BDFCPPL IUUQTXXXGBDFCPPLDPNXTKVOH #MPH IUUQTXPOTFPLKVOHHJUIVCJP

ݾର 1. Introduction 2. Problem Statement 3. Algorithm 4. Experiments
META LEARNING SHARED HIERARCHIES

1.INTRODUCTION

1. UTILIZE PRIOR KNOWLEDGE META LEARNING SHARED HIERARCHIES 6UJMJ[FQSJPSLOPXMFEHF .BTUFSOFXUBTL

1.1 BUT REINFORCEMENT… META LEARNING SHARED HIERARCHIES How about Reinforcement
Learning?

1.2 SOLVE EACH TASK INDEPENDENTLY AND FROM SCRATCH SUPERMARIO WITH
R.L https://www.youtube.com/watch?v=IjvbhwuCaF0

1.3 ISSUES META LEARNING SHARED HIERARCHIES Sharing information Task1 Task2
Task3 θ1 θ2 θ3

1.4 MASTER POLICY META LEARNING SHARED HIERARCHIES Master Policy Sub1
Sub2 Sub3 θ1 θ2 θ3

1.5 MLSH META LEARNING SHARED HIERARCHIES Metalearning shared hierarchies

2.PROBLEM STATEMENT

2.1 NOTATION Time step Action Transition Function Reward Set of
states Set of actions Start state Discount factor t a P(s′, r ∣ s, a) r A S S0 γ Set of reward    Policy Reward State R π r REINFORCEMENT LEARNING s

2.2 NOTATION META LEARNING SHARED HIERARCHIES EJTUSJCVUJPOPWFS.%1T "HFOUחQBSBNFUFSWFDUPSܳ઱ӝ੸ਵ۽VQEBUFೠ׮ పझ௼ٜՙܻҕਬೞח౵ۄ޷ఠ੄૘೤
пపझ௼౵ۄ޷ఠ੄૘೤   BHFOUоഅ੤పझ௼.ਸߓ਋ݴসؘ੉౟ೞח౵ۄ޷ఠ PM πθ,ϕ(a∣s) ϕ θ

"DUJPO "HFOU &OWJSPONFOU 3FXBSE At Rt 4UBUF St Rt+1 St+1
REINFORCEMENT LEARNING 2.3 OBJECTIVE MDP

REINFORCEMENT LEARNING 2.4 NEW MDP &OWJSPONFOU 3FXBSE At Rt St
Rt+1 St+1 5BQUIFCBMM 1PTJUJWF3FXBSE  New MDP

SUPERMARIO WITH R.L 2.5 NEW MDP-2 "DUJPO "HFOU &OWJSPONFOU 3FXBSE
At Rt 4UBUF St Rt+1 St+1 3FXBSE 1FOBMUZ Another New MDP

2.6 FIND SHARING PARAMETER META LEARNING SHARED HIERARCHIES maximizeϕ EM∼PM
, t = 0...T − 1[R]

2.7 STRUCTURE META LEARNING SHARED HIERARCHIES

3.ALGORITHM

3.1 MLSH ALGORITHM META LEARNING SHARED HIERARCHIES

3.2 MLSH ALGORITHM META LEARNING SHARED HIERARCHIES Two main components

3.3 MLSH ALGORITHM META LEARNING SHARED HIERARCHIES Joint update period
Warmup period

Warmup period

Warmup period θ θ, ϕ update

3.6 MLSH ALGORITHM-2 META LEARNING SHARED HIERARCHIES Joint update period
Warmup period θ θ, ϕ update

3.7 MLSH ALGORITHM-WARMUP META LEARNING SHARED HIERARCHIES update

3.8 MLSH ALGORITHM- JOINT UPDATE PERIOD META LEARNING SHARED HIERARCHIES
update

3.8 MLSH ALGORITHM META LEARNING SHARED HIERARCHIES update

4. EXPERIMENTS

4.1 2D MOVING BANDITS TASK META LEARNING SHARED HIERARCHIES

4.2 RESULT(2D BALL) META LEARNING SHARED HIERARCHIES

4.3 WALKING, CRAWLING META LEARNING SHARED HIERARCHIES

4.4 WALKING, CRAWLING META LEARNING SHARED HIERARCHIES

Metalearning shared Hierarchy

Metalearning shared Hierarchy

Wonseok Jung

More Decks by Wonseok Jung

Other Decks in Science

Featured

Transcript

.FUB-FBOJOHTIBSFE)JFSBSDIZ 8POTFPL+VOH 3FJOGPSDFNFOU-FBSOJOH

੿ਗࢳ  8POTFPL+VOH $JUZ6OJWFSTJUZPG/FX:PSL#BSVDI$PMMFHF %BUB4DJFODF.BKPS $POOFYJPO""3FTFBSDIFS %FFQ-FBSOJOH$PMMFHF3FJOGPSDFNFOU-FBSOJOH3FTFBSDIFS .PEVMBCT$53--FBEFS 3FJOGPSDFNFOU-FBSOJOH 0CKFDU%FUFDUJPO

ݾର 1. Introduction 2. Problem Statement 3. Algorithm 4. Experiments

1.INTRODUCTION

1. UTILIZE PRIOR KNOWLEDGE META LEARNING SHARED HIERARCHIES 6UJMJ[FQSJPSLOPXMFEHF .BTUFSOFXUBTL

1.1 BUT REINFORCEMENT… META LEARNING SHARED HIERARCHIES How about Reinforcement

1.2 SOLVE EACH TASK INDEPENDENTLY AND FROM SCRATCH SUPERMARIO WITH

1.3 ISSUES META LEARNING SHARED HIERARCHIES Sharing information Task1 Task2

1.4 MASTER POLICY META LEARNING SHARED HIERARCHIES Master Policy Sub1

1.5 MLSH META LEARNING SHARED HIERARCHIES Metalearning shared hierarchies

2.PROBLEM STATEMENT

2.1 NOTATION Time step Action Transition Function Reward Set of

2.2 NOTATION META LEARNING SHARED HIERARCHIES EJTUSJCVUJPOPWFS.%1T "HFOUחQBSBNFUFSWFDUPSܳ઱ӝ੸ਵ۽VQEBUFೠ׮ పझ௼ٜՙܻҕਬೞח౵ۄ޷ఠ੄૘೤

"DUJPO "HFOU &OWJSPONFOU 3FXBSE At Rt 4UBUF St Rt+1 St+1

REINFORCEMENT LEARNING 2.4 NEW MDP &OWJSPONFOU 3FXBSE At Rt St

SUPERMARIO WITH R.L 2.5 NEW MDP-2 "DUJPO "HFOU &OWJSPONFOU 3FXBSE

2.6 FIND SHARING PARAMETER META LEARNING SHARED HIERARCHIES maximizeϕ EM∼PM

2.7 STRUCTURE META LEARNING SHARED HIERARCHIES

3.ALGORITHM

3.1 MLSH ALGORITHM META LEARNING SHARED HIERARCHIES

3.2 MLSH ALGORITHM META LEARNING SHARED HIERARCHIES Two main components

3.3 MLSH ALGORITHM META LEARNING SHARED HIERARCHIES Joint update period

3.4 MLSH ALGORITHM META LEARNING SHARED HIERARCHIES Joint update period

3.5 MLSH ALGORITHM META LEARNING SHARED HIERARCHIES Joint update period

3.6 MLSH ALGORITHM-2 META LEARNING SHARED HIERARCHIES Joint update period

3.7 MLSH ALGORITHM-WARMUP META LEARNING SHARED HIERARCHIES update

3.8 MLSH ALGORITHM- JOINT UPDATE PERIOD META LEARNING SHARED HIERARCHIES

3.8 MLSH ALGORITHM META LEARNING SHARED HIERARCHIES update

4. EXPERIMENTS

4.1 2D MOVING BANDITS TASK META LEARNING SHARED HIERARCHIES

4.2 RESULT(2D BALL) META LEARNING SHARED HIERARCHIES

4.3 WALKING, CRAWLING META LEARNING SHARED HIERARCHIES

4.4 WALKING, CRAWLING META LEARNING SHARED HIERARCHIES