Deep Reinforcement Learning: Playing a Racing Game

Deep Reinforcement Learning Playing a Racing Game Pedro Lopes

Deep Q- learning • Q-learning • Deep Neural Networks •
Other concepts

Q-learning

penalty: - 0.04 reward: - 1 reward: + 1 Agent
Q-value Obstacle Q(s t , a t) ← Q(s t , a t) + ® ( r t+1 + ° max Q(s t+1 , a) { Q(s t , a t) ) a

a t → ® = 0.5, ° = 1 New
Q(s t , a t) value: 0 + 0.5 (- 0.04 + 0 - 0) = - 0.02 Q(s t , a t) 0 r t+1 - 0.04 max Q(s t+1 , a) 0 t t+1 a Q(s t , a t) ← Q(s t , a t) + ® ( r t+1 + ° max Q(s t+1 , a) { Q(s t , a t) ) a a

a t → Q(s t , a t) 0 r
t+1 - 0.04 max Q(s t+1 , a) 0 New Q(s t , a t) value: 0 + 0.5 (- 0.04 + 0 - 0) = - 0.02 a ® = 0.5, ° = 1 Q(s t , a t) ← Q(s t , a t) + ® ( r t+1 + ° max Q(s t+1 , a) { Q(s t , a t) ) a

a t → Q(s t , a t) 0 r
t+1 - 0.04 max Q(s t+1 , a) 0 New Q(s t , a t) value: 0 + 0.5 (- 0.04 + 0 - 0) = - 0.02 ® = 0.5, ° = 1 Q(s t , a t) ← Q(s t , a t) + ® ( r t+1 + ° max Q(s t+1 , a) { Q(s t , a t) ) a a

a t ↑ Q(s t , a t) 0 r

a t - Q(s t , a t) 0 r
t+1 - 1 max Q(s t+1 , a) 0 New Q(s t , a t) value: 0 + 0.5 (- 1 + 0 - 0) = - 0.5 ® = 0.5, ° = 1 Q(s t , a t) ← Q(s t , a t) + ® ( r t+1 + ° max Q(s t+1 , a) { Q(s t , a t) ) a a

a t ↑ Q(s t , a t) 0 r

a t → Q(s t , a t) 0 r

a t - Q(s t , a t) 0 r
t+1 1 max Q(s t+1 , a) 0 New Q(s t , a t) value: 0 + 0.5 ( 1 + 0 – 0 ) = 0.5 ® = 0.5, ° = 1 Q(s t , a t) ← Q(s t , a t) + ® ( r t+1 + ° max Q(s t+1 , a) { Q(s t , a t) ) a a

a t ← Q(s t , a t) 0 r

a t ↓ Q(s t , a t) 0 r

a t → Q(s t , a t) - 0.02
r t+1 - 0.04 max Q(s t+1 , a) 0 New Q(s t , a t) value: - 0.02 + 0.5 (- 0.04 + 0 - (- 0.02)) = - 0.03 ® = 0.5, ° = 1 Q(s t , a t) ← Q(s t , a t) + ® ( r t+1 + ° max Q(s t+1 , a) { Q(s t , a t) ) a a

a t ↓ Q(s t , a t) 0 r

a t ↑ Q(s t , a t) 0 r

a t ← Q(s t , a t) 0 r
t+1 - 0.04 max Q(s t+1 , a) - 0.02 New Q(s t , a t) value: 0 + 0.5 (- 0.04 - 0.02 - 0) = - 0.03 ® = 0.5, ° = 1 Q(s t , a t) ← Q(s t , a t) + ® ( r t+1 + ° max Q(s t+1 , a) { Q(s t , a t) ) a a

a t ↑ Q(s t , a t) - 0.02
r t+1 - 0.04 max Q(s t+1 , a) 0 New Q(s t , a t) value: - 0.02 + 0.5 (- 0.04 + 0 - (- 0.02)) = - 0.03 ® = 0.5, ° = 1 Q(s t , a t) ← Q(s t , a t) + ® ( r t+1 + ° max Q(s t+1 , a) { Q(s t , a t) ) a a

® = 0.5, ° = 1 Q(s t , a
t) ← Q(s t , a t) + ® ( r t+1 + ° max Q(s t+1 , a) { Q(s t , a t) ) a

a t → Q(s t , a t) 0 r
t+1 - 0.04 max Q(s t+1 , a) - 0.5 New Q(s t , a t) value: 0 + 0.5 (- 0.04 - 0.5 - 0) = - 0.27 ® = 0.5, ° = 1 Q(s t , a t) ← Q(s t , a t) + ® ( r t+1 + ° max Q(s t+1 , a) { Q(s t , a t) ) a a

a t - Q(s t , a t) - 0.5
r t+1 - 1 max Q(s t+1 , a) 0 New Q(s t , a t) value: - 0.5 + 0.5 (- 1 + 0 - (- 0.5)) = - 0.75 ® = 0.5, ° = 1 Q(s t , a t) ← Q(s t , a t) + ® ( r t+1 + ° max Q(s t+1 , a) { Q(s t , a t) ) a a

® = 0.5, ° = 1 Q(s t , a

a t → Q(s t , a t) - 0.02
r t+1 - 0.04 max Q(s t+1 , a) 0.5 New Q(s t , a t) value: - 0.02 + 0.5 (- 0.04 + 0.5 - (- 0.02)) = 0.22 ® = 0.5, ° = 1 Q(s t , a t) ← Q(s t , a t) + ® ( r t+1 + ° max Q(s t+1 , a) { Q(s t , a t) ) a a

® = 0.5, ° = 1 Q(s t , a

a t → Q(s t , a t) - 0.05
r t+1 - 0.04 max Q(s t+1 , a) 0.22 New Q(s t , a t) value: - 0.05 + 0.5 (- 0.04 + 0.22 - (- 0.05)) = 0.065 ≈ 0.07 ® = 0.5, ° = 1 Q(s t , a t) ← Q(s t , a t) + ® ( r t+1 + ° max Q(s t+1 , a) { Q(s t , a t) ) a a

a t → Q(s t , a t) 0.22 r
t+1 - 0.04 max Q(s t+1 , a) 0.75 New Q(s t , a t) value: 0.22 + 0.5 (- 0.04 + 0.75 - 0.22) = 0.465 ≈ 0.47 ® = 0.5, ° = 1 Q(s t , a t) ← Q(s t , a t) + ® ( r t+1 + ° max Q(s t+1 , a) { Q(s t , a t) ) a a

® = 0.5, ° = 1 Q(s t , a

a t → Q(s t , a t) - 0.07
r t+1 - 0.04 max Q(s t+1 , a) 0.07 New Q(s t , a t) value: - 0.07 + 0.5 (- 0.04 + 0.07 - (- 0.07)) = - 0.02 ® = 0.5, ° = 1 Q(s t , a t) ← Q(s t , a t) + ® ( r t+1 + ° max Q(s t+1 , a) { Q(s t , a t) ) a a

a t → Q(s t , a t) 0.07 r
t+1 - 0.04 max Q(s t+1 , a) 0.47 New Q(s t , a t) value: 0.07 + 0.5 (- 0.04 + 0.47 - 0.07) = 0.25 ® = 0.5, ° = 1 Q(s t , a t) ← Q(s t , a t) + ® ( r t+1 + ° max Q(s t+1 , a) { Q(s t , a t) ) a a

a t → Q(s t , a t) 0.47 r

® = 0.5, ° = 1 Q(s t , a

a t → Q(s t , a t) - 0.02

a t → Q(s t , a t) 0.25 r

a t → Q(s t , a t) 0.86 r

a t ↑ Q(s t , a t) - 0.12
r t+1 - 0.04 max Q(s t+1 , a) - 0.08 New Q(s t , a t) value: - 0.12 + 0.5 (- 0.04 - 0.08 - (- 0.12)) = - 0.12 ® = 0.5, ° = 1 Q(s t , a t) ← Q(s t , a t) + ® ( r t+1 + ° max Q(s t+1 , a) { Q(s t , a t) ) a a

a t - Q(s t , a t) 0.99 r
t+1 1 max Q(s t+1 , a) 0 New Q(s t , a t) value: 0.99 + 0.5 ( 1 + 0 – 0.99 ) = 0.995 ≈ 1 ® = 0.5, ° = 1 Q(s t , a t) ← Q(s t , a t) + ® ( r t+1 + ° max Q(s t+1 , a) { Q(s t , a t) ) a a

a t ↑ Q(s t , a t) - 0.08
r t+1 - 0.04 max Q(s t+1 , a) 0.1 New Q(s t , a t) value: - 0.08 + 0.5 (- 0.04 + 0.1 - (- 0.08)) = - 0.01 ® = 0.5, ° = 1 Q(s t , a t) ← Q(s t , a t) + ® ( r t+1 + ° max Q(s t+1 , a) { Q(s t , a t) ) a a

a t → Q(s t , a t) 0.1 r
t+1 - 0.04 max Q(s t+1 , a) 0.54 New Q(s t , a t) value: 0.1 + 0.5 (- 0.04 + 0.54 - 0.1) = 0.3 ® = 0.5, ° = 1 Q(s t , a t) ← Q(s t , a t) + ® ( r t+1 + ° max Q(s t+1 , a) { Q(s t , a t) ) a a

a t → Q(s t , a t) 0.54 r

a t → Q(s t , a t) 0.91 r
t+1 - 0.04 max Q(s t+1 , a) 1 New Q(s t , a t) value: 0.91 + 0.5 (- 0.04 + 1 - 0.91) = 0.935 ≈ 0.94 ® = 0.5, ° = 1 Q(s t , a t) ← Q(s t , a t) + ® ( r t+1 + ° max Q(s t+1 , a) { Q(s t , a t) ) a a

a t → Q(s t , a t) 1 r
t+1 1 max Q(s t+1 , a) 0 New Q(s t , a t) value: 1 + 0.5 ( 1 + 0 – 1 ) = 1 ® = 0.5, ° = 1 Q(s t , a t) ← Q(s t , a t) + ® ( r t+1 + ° max Q(s t+1 , a) { Q(s t , a t) ) a a

a t ↑ Q(s t , a t) - 0.12
r t+1 - 0.04 max Q(s t+1 , a) - 0.01 New Q(s t , a t) value: - 0.12 + 0.5 (- 0.04 - 0.01 - (- 0.12)) = - 0.085 ≈ - 0.09 ® = 0.5, ° = 1 Q(s t , a t) ← Q(s t , a t) + ® ( r t+1 + ° max Q(s t+1 , a) { Q(s t , a t) ) a a

a t ↑ Q(s t , a t) - 0.01

a t → Q(s t , a t) 0.3 r

a t → Q(s t , a t) 0.71 r

a t → Q(s t , a t) 0.94 r
t+1 - 0.04 max Q(s t+1 , a) 1 New Q(s t , a t) value: 0.94 + 0.5 (- 0.04 + 1 - 0.94) = 0.95 ® = 0.5, ° = 1 Q(s t , a t) ← Q(s t , a t) + ® ( r t+1 + ° max Q(s t+1 , a) { Q(s t , a t) ) a a

a t → Q(s t , a t) 1 r
t+1 1 max Q(s t+1 , a) 0 New Q(s t , a t) value: 1 + 0.5 ( 1 + 0 – 1 ) = 1 ® = 0.5, ° = 1 Q(s t , a t) ← Q(s t , a t) + ® ( r t+1 + ° max Q(s t+1 , a) { Q(s t , a t) ) a a

® = 0.5, ° = 1 Q(s t , a

9 actionable states State representation: 80x80 luma image (6400 pixels,
256 tones) 4 possible actions (← ↑ → ↓) 36 (9x4) Q-values 2566400 possible states 9 possible actions 2566400 x 9 possible Q-values

a Q(s t , a t) ← Q(s t ,
a t) + ® ( r t+1 + ° max Q(s t+1 , a) { Q(s t , a t) ) s a Q(s,a) s1 a5 2 s2 a5 42 s3 a4 5 ... ... ... Q(s,a) = w1 f1(s,a) + w2 f2(s,a) + ... + wn fn(s,a) error wi ← wi + ® (error) fi(s, a) wi ← wi + ® ( r t+1 + ° max Q(s t+1 , a) { Q(s t , a t)) fi(s, a) a target prediction

Deep Neural Networks

Image courtesy of Tambet Matiisen’s Demystifying Deep Reinforcement Learning target
r t+1 + ° max Q(s t+1 , a) { Q(s t , a t) a prediction

Implementation

Deployment

OpenAI’s Gym & Universe

Questions? Source code & article: github.com/lopespm

Deep Reinforcement Learning: Playing a Racing Game

Deep Reinforcement Learning: Playing a Racing Game

Other Decks in Technology

Featured

Transcript